none.gif

小冰

基于whisper的动画/里番/音声机翻方案

引言

目前通过语音识别进行音频机翻的解决方案的可用性已经有了非常大的提高,但是没有一个特别系统的全流程一条龙介绍,使得没有相关领域知识的用户只知道“这个问题能做”,但不清楚它的学习成本/硬件成本/时间成本,因此没有很强需求的用户大多望而却步,事实上,现在可用组件已经在不写一行代码的基础上能做到:
(1)在任意配置的电脑(甚至手机上),使用准确率最高的whisper large模型 批量转录音视频 生成任意格式字幕,耗时约为音频文件总时长的不到一半(以mp3进行测试)
(2)基于生成的lrc/srt字幕,使用google翻译/deepl/gpt进行翻译,生成中文字幕
接下来,首先介绍最易用的技术路径(幼儿园也能学会),而后讨论目前存在的问题和可能的解决方法。

N46whisper的使用

前段时间n46whisper已经小火了一把,但并没有在南+特别普及,这是一个白嫖谷歌的服务器colab执行的脚本,仅需使用网页打开,根据提示点四五步,就能完成从输入音频到获得翻译前的lrc文件的流程。相对于其他whisper实现,他有着以下优点:
(1)不需要在配置python环境,轻度用户在使用其他whisper实现时,可能在配置环境这步就进行不下去了,或是以前使用过其他基于py的环境,照着quick start敲没两步就冲突了。n46w连接到一个colab的运行时,有着巨量的带宽,点击运行代码块瞬间就完成了环境配置。
(2)够用的性能,对于显卡性能较好(强于2070)的用户,本地运行whisper模型尚可,但是配置相对较差的用户,要么爆显存爆内存,要么跑一年,要么只能换小模型,可能效果差不到哪去,但是总归体验不够良好,colab白嫖的卡也能有12g附近的显存,用最大的模型转录20-30分钟的音频基本上只要10分钟。
(3)对批处理的支持,同上,加起来一个多小时,7-8p的音声挂在网页上一个小时不到就能全部转录完,如果不追求ai翻译直接上谷歌翻译,全流程加起来不会超过一个小时,不需要一个一个文件翻。

使用方法https://github.com/Ayanaminn/N46Whisper
点击readme文件的链接,进入colab,登陆一下谷歌账号,然后照着点点点就行了,感觉没有任何需要教程的地方,唯一的问题是colab的服务器本地上传非常非常慢,建议用google drive模式,只需要先把要用的音视频上传到google drive上。最后把生成的srt丢到任何一个机翻网站上(比如subtitle translator)

缺陷与探讨

肯定不是尽善尽美的,毕竟全流程下来用的东西都不是为工口设计的
首先是误字,即使原文本到了90%准确率,但是几个假名的错误可能导致关键信息的缺失,有些句子在翻译后可能差之千里,即使用再好的翻译也一样。
然后是ai翻译的支持,gpt的经常不愿意翻敏感信息,直接用n46的实验性功能里的翻译不仅速度不快,还会用大量的句子无法输出,用能力的人可以试着fork一份仓库,然后在翻译前的py代码加上类似催眠的prompt发出去,理论上是可用的(注意,ai翻译不是必须的,谷歌和deepl也能用)(务必不要改完提pr,毕竟原仓库不是用于工口用途的,这不是一个问题)
相关prompt可以参考:https://level-plus.net/read.php?tid-1750456.html

none.gif

雨落蝶梦花

电脑小白(说的就是我)直接用buzz吧

7.gif

60722218

有点意思

none.gif

小冰

回 1楼(雨落蝶梦花) 的帖子

buzz也很好,这两个配置都挺方便的,如果电脑跑的动large推荐buzz(但大概要2070super以上的卡才能在性能上超过colab的免费gpu

1787064.jpg

injustice1

B4F  2023-04-14 19:28
([sell=0,money] [/sell])

回 1楼(雨落蝶梦花) 的帖子

buzz里面有whisper的模型,本质是一个东西

-2.png

贫胸少女

B5F  2023-04-14 21:42
(这个少女尚未脱贫)
没看出优势在哪里,环境、性能、批处理,这些都是colab对于对于本地的优势,官版放上去也是一样跑,这个n64有另外改进了什么吗

9.png

light

回 3楼(小冰) 的帖子

buzz好像不会调用gpu?

3oomiui


daef1469


none.gif

小冰

回 5楼(贫胸少女) 的帖子

说不上优势,只是一个写好的whisper应用程序或者说一键配置脚本而已,和在colab上直接跑性能上不会有区别,虽然有项目经验的人在colab上自己配一遍whisper环境不难,从头手撸也就一两百行,但对大部分非专业人士来说这个只有几百行代码的壳子对使用的提升我觉得还是很重要的。

otkg


none.gif

小冰

回 5楼(贫胸少女) 的帖子

当然我同意大部分优势是colab带来的,但只有whisper的git和colab的网址我相信大部分人是不懂咋去写一个能跑起来的流程的,而且colab上传文件速率很低,能从google drive挂载文件也能少走点弯路

1501665.png

johna

之前用whisperdesktop的large模型翻了几个日文音声,无涩涩部分极为精准,涩涩部分直接翻译不了

20210425035926.jpg

mintQ

理论上ai翻译可以先催眠,然后检测结果内是否含有“对不起,抱歉,不能翻译,sorry“之类的关键词。检测到关键词,就重新使用gpt3.5的davinci api翻译。gpt3.5的接口虽然成本比chatgpt api高10倍,但也不贵,而且不会拒绝翻译。

none.gif

雨落蝶梦花

Re:回 1楼(雨落蝶梦花) 的帖子

引用
引用第4楼999a61e0于2023-04-14 19:28发表的 回 1楼(雨落蝶梦花) 的帖子 :
buzz里面有whisper的模型,本质是一个东西

主要我搞不懂那什么环境paython之类的,那还是buzz来得直接方便

3.jpg

Cybersynth15

B15F  2023-04-17 01:06
(度盘不会补档,PD可用)
mark,回头试试   

花之萌宝


none.gif

篠崎姬乃

   可以

none.gif

战狼中锋

感谢分享

9.png

橘子

在那个使用方法那里卡住了

Trigger


15222


1287377.gif

阿吉甘梅

B22F  2023-05-02 21:19
(如果炸了请pm)
没有gpt的api,前段时间买过3.5的,然后随着封号热潮被封了。goole翻译和deepl怎么操作,deepl不是也要api吗,我记着这个申请还要海外信用卡来着

none.gif

2cec8389

免费配额用完了怎么办,只能花钱吗

1059694.jpg

葉之

B24F  2023-05-02 21:42
(-)
这个好像得用VPN?
我记得用过一次,好慢的
字幕编辑把模型下载到本地翻译也不慢的,我现在就是用它辅助制作日语字幕

785481.jpg

草履虫

B25F  2023-05-05 01:13
(二次元万岁)
我点击播放,就只转圈圈,没有任何反应,什么也没弹出来

none.gif

thrakk

刚好买了gpt4.0,码住改天空了看

70220.png

野兽先辈

用whisperdesktop好一点,不过对于片子来说,large和medium各有各的精确,我通常用large和medium各跑一遍然后两个用srt编辑软件编辑一下

JAY-Z