[技术向][RJ281061]一种不需要日语基础的双语音声制作流程

casdespai

众所周知, 为了将原版日语音声翻译为双语音声, 我们至少需要三步:

从原版音声中提取出台词
将日语台本翻译为中文
用中文台本生成台词, 与原版合并

好在随着AI技术的发展, 现在已经有了一种低成本的方法完成这三个工作.

——————————————————————————
对于任务1, openai已经给我们开源了whisper, 可以方便的识别日语台本. 链接如下:

https://github.com/openai/whisper

如果不会本地部署的话, 也可以看看这个整合版, 带图形界面:

https://github.com/Const-me/Whisper

进去之后点右边的release下载就可以了.

注意最好使用medium的权重. 一方面是速度快很多, 另一方面large的权重在有很多效果音的时候容易胡言乱语, 效果反而不如medium.

——————————————————————————
对于任务2, 目前效果最好的日翻中AI模型应该是Sakura:

https://github.com/SakuraLLM/Sakura-13B-Galgame

相比于gpt4而言, Sakura在细节上会有一点问题,但是整体的氛围感和文风强很多. 而且gpt4不能翻译涩涩文本. 缺点则是翻译相当慢, 如果没有本地高性能显卡的话可能得挂机几个小时. 这里还是建议用OpenDL的远程租机平台的4090, 速度快很多.

——————————————————————————
对于任务3, 已经有了GPT-SoVITS的解决方案.

https://github.com/RVC-Boss/GPT-SoVITS

这里感谢 @东仪遥提供的模型. 如果不想自己训练的话(没有高性能显卡的话会很慢), 也可以直接下载别人提供好的模型. 模型链接在这个帖子里,放到本地的模型文件夹里即可:

https://bbs.viva-la-vita.org/d/8471/33

最后, 还需要将生成的中文语音和日语语音对应起来. 这一步有很多软件可以做, 但是会很花时间. 我目前没有找到能快速处理的办法, 有知道的话也可以告诉我.

最后上一个用该流程制作的例子. 可能会有一些误译, 漏译和词句对不上的情况但是懒得改摆烂了. 下载以后后缀改zip, 解压密码就是文件名. 如果有什么建议的话欢迎留言.

链接：https://pan.baidu.com/s/1aFVl681vSmS5sI1GxwD28g
提取码：gf1l

Whatmortal

casdespai 说的挺好，我再补充一些技巧

Whisper是这样的，medium模型有时候比large什么的会听带效果音的，甚至耳语也能比较好的听出来一些
但是，现在有一些去除效果音的手段，比如UVR5，剪映/CapCut也有这样的功能，除了人声效果音（叫声，舔耳等）比较无力，非人声的去除已经比较成熟了，有条件可以先去一下效果音再跑whisper
另外官方的Whisper直接跑速度太慢了，有不少加速版，用一样的模型速度快好几倍，比如说https://github.com/Softcatala/whisper-ctranslate2
AI翻译用Sakura是挺不错的，推荐有好显卡或者会白嫖/租云显卡的自己动手跑。GPT4是挺难给你翻译瑟瑟内容的，用API也怪怪的，不太色。另一个厉害的选择是Claude3 Sonnet的API，翻译现成的台本可能比Sakura强的有限，不过文笔用词要更会写一些。翻译Whisper转写的字幕的话Sonnet优势会大很多，因为大模型真的会脑补细节，会把一些听错的都给写的更好。不过Whisper完全听不出来，或者听走样的离谱（比如mazo听成魔女，一下子文风从虐恋变魔幻了😃……之类的）也救不回来，还是需要人工校准
https://github.com/machinewrapped/gpt-subtrans
用GPT或Claude API翻译字幕可以用这个。或者用南加大佬封装的openlrc：https://github.com/zh-plus/openlrc （这个只有Windows版，整合了从去效果音，到Whisper出日语字幕，到出AI翻译全流程）
GPT-SoVITS是个好东西，愿意花时间一句句琢磨语气提示抽卡对轴效果是相当可以的。如果可以接受略弱一级的语气音色的话Bert2-VITS也是不错的，还有剪映可以克隆音色然后直接朗读字幕文件……不过最近收费了，读一篇一万字的字幕要50块钱了，万一读的不满意来回改成本会非常高，而且音色还是不如GPT-SoVITS自己合成。要再次一级的效果可以就用剪映的免费音色朗读，比起GPT-SoVITS主要就是快，音色就不会太好了，但是双语其实没必要用那么花哨的音色和语气，主要是提示效果，我觉得免费的朗读已经够用了。

还有个办法可以用国际版剪映CapCut去克隆GPT-SoVITS读的英文，然后再朗读中文的字幕也好使，但是容易出现奇怪的音，需要多试试
具体教程就不放了，感兴趣可以去B站找找，每一步都挺折腾的，有爱的自然会自己摸索。
以上只是抛砖引玉而已，AI进展相当快，如果有效果更好的欢迎分享

casdespai

[未知用户] 大佬好强, 能加个微信交流一下么 🇦

Whatmortal

casdespai 要不还是上电报交流交流？

casdespai

[未知用户] 也可以呀,怎么加你?

nazavga

大佬nb

lcy

翻译音声时间比原版音声时间短这么合成一个

3490729785

我只会搞语音模型