引言目前通过语音识别进行音频机翻的解决方案的可用性已经有了非常大的提高,但是没有一个特别系统的全流程一条龙介绍,使得没有相关领域知识的用户只知道“这个问题能做”,但不清楚它的学习成本/硬件成本/时间成本,因此没有很强需求的用户大多望而却步,事实上,现在可用组件已经在不写一行代码的基础上能做到:
(1)在任意配置的电脑(甚至手机上),使用准确率最高的
whisper large模型 批量转录音视频 生成任意格式字幕,耗时约为音频文件总时长的不到一半(以mp3进行测试)
(2)基于生成的lrc/srt字幕,使用google翻译/deepl/gpt进行翻译,生成中文字幕
接下来,首先介绍最易用的技术路径(幼儿园也能学会),而后讨论目前存在的问题和可能的解决方法。
N46whisper的使用前段时间n46whisper已经小火了一把,但并没有在南+特别普及,这是一个白嫖谷歌的服务器colab执行的脚本,仅需使用网页打开,根据提示点四五步,就能完成从输入音频到获得翻译前的lrc文件的流程。相对于其他
whisper实现,他有着以下优点:
(1)不需要在配置python环境,轻度用户在使用其他
whisper实现时,可能在配置环境这步就进行不下去了,或是以前使用过其他基于py的环境,照着quick start敲没两步就冲突了。n46w连接到一个colab的运行时,有着巨量的带宽,点击运行代码块瞬间就完成了环境配置。
(2)够用的性能,对于显卡性能较好(强于2070)的用户,本地运行
whisper模型尚可,但是配置相对较差的用户,要么爆显存爆内存,要么跑一年,要么只能换小模型,可能效果差不到哪去,但是总归体验不够良好,colab白嫖的卡也能有12g附近的显存,用最大的模型转录20-30分钟的音频基本上只要10分钟。
(3)对批处理的支持,同上,加起来一个多小时,7-8p的音声挂在网页上一个小时不到就能全部转录完,如果不追求ai翻译直接上谷歌翻译,全流程加起来不会超过一个小时,不需要一个一个文件翻。
使用方法:
https://github.com/Ayanaminn/N46Whisper点击readme文件的链接,进入colab,登陆一下谷歌账号,然后照着点点点就行了,感觉没有任何需要教程的地方,唯一的问题是colab的服务器本地上传非常非常慢,建议用google drive模式,只需要先把要用的音视频上传到google drive上。最后把生成的srt丢到任何一个机翻网站上(比如subtitle translator)
缺陷与探讨肯定不是尽善尽美的,毕竟全流程下来用的东西都不是为工口设计的
首先是误字,即使原文本到了90%准确率,但是几个假名的错误可能导致关键信息的缺失,有些句子在翻译后可能差之千里,即使用再好的翻译也一样。
然后是ai翻译的支持,gpt的经常不愿意翻敏感信息,直接用n46的实验性功能里的翻译不仅速度不快,还会用大量的句子无法输出,用能力的人可以试着fork一份仓库,然后在翻译前的py代码加上类似催眠的prompt发出去,理论上是可用的(注意,ai翻译不是必须的,谷歌和deepl也能用)(务必不要改完提pr,毕竟原仓库不是用于工口用途的,这不是一个问题)
相关prompt可以参考:
https://level-plus.net/read.php?tid-1750456.html