众所周知, 为了将原版日语音声翻译为双语音声, 我们至少需要三步:
- 从原版音声中提取出台词
- 将日语台本翻译为中文
- 用中文台本生成台词, 与原版合并
好在随着AI技术的发展, 现在已经有了一种低成本的方法完成这三个工作.
——————————————————————————
对于任务1, openai已经给我们开源了whisper, 可以方便的识别日语台本. 链接如下:
https://github.com/openai/whisper
如果不会本地部署的话, 也可以看看这个整合版, 带图形界面:
https://github.com/Const-me/Whisper
进去之后点右边的release下载就可以了.
注意最好使用medium的权重. 一方面是速度快很多, 另一方面large的权重在有很多效果音的时候容易胡言乱语, 效果反而不如medium.
——————————————————————————
对于任务2, 目前效果最好的日翻中AI模型应该是Sakura:
https://github.com/SakuraLLM/Sakura-13B-Galgame
相比于gpt4而言, Sakura在细节上会有一点问题,但是整体的氛围感和文风强很多. 而且gpt4不能翻译涩涩文本. 缺点则是翻译相当慢, 如果没有本地高性能显卡的话可能得挂机几个小时. 这里还是建议用OpenDL的远程租机平台的4090, 速度快很多.
——————————————————————————
对于任务3, 已经有了GPT-SoVITS的解决方案.
https://github.com/RVC-Boss/GPT-SoVITS
这里感谢 @东仪遥 提供的模型. 如果不想自己训练的话(没有高性能显卡的话会很慢), 也可以直接下载别人提供好的模型. 模型链接在这个帖子里,放到本地的模型文件夹里即可:
https://bbs.viva-la-vita.org/d/8471/33
最后, 还需要将生成的中文语音和日语语音对应起来. 这一步有很多软件可以做, 但是会很花时间. 我目前没有找到能快速处理的办法, 有知道的话也可以告诉我.
最后上一个用该流程制作的例子. 可能会有一些误译, 漏译和词句对不上的情况但是懒得改摆烂了. 下载以后后缀改zip, 解压密码就是文件名. 如果有什么建议的话欢迎留言.
链接:https://pan.baidu.com/s/1aFVl681vSmS5sI1GxwD28g
提取码:gf1l