催眠音声日语AI翻译新思路

tiantian666

最近b站上有好多直接转换语言的视频，是直接替换为其他语言，并且一定程度上保留音色，不知道有没有人试过。由于是直接对着视频翻译，所以可以省去很多步骤。
【【AI应用】Heygen的video-translate新功能：一键视频翻译及口型同步转换-哔哩哔哩】 https://b23.tv/oZ4txNc
【Elevenlabs AI自动配音(语音克隆) 日文转中文测试，结果过于生草-哔哩哔哩】 https://b23.tv/aBcYDYy
下面翻译日语的结果过于生草了

tiantian666

论坛的手机网页端发布帖子等待界面太具有迷惑性了，已经发了还在转圈，点几次发送就发几次。

Whatmortal

有一种鬼子进村的感觉，完全照搬日语语气到中文就会很奇怪啊。应该还缺一道情感和语气自动推理，而不是强行平替

MC

Whatmortal 对现在的ai来说难度还是太大了

tiantian666

Whatmortal 动画语调变化多些，而且人物多，效果差一些如果用一些比较单一的催眠音频，感觉应该还可以。不过前一个要会员还没有试过

tiantian666

Whatmortal
MC

a6ff2021-942b-46dc-a21a-56c168645d52.aac

809kB

3bd7c810-b666-4824-814d-bd2e7a615d30.aac

925kB

一个是翻译前，一个是翻译后，用的是heygen试用的1分钟，就是翻译比较奇怪，其他还可以

afhlmx

有人知道b站上“Urowners千玦”这个up主用的什么技术吗？

Keep going

tiantian666
按理说，现在很多经典作品已经有翻译了，是否可以结合这个AI语音，那岂不是完美了。

tiantian666

【MyHeyGen来了！！！-哔哩哔哩】 https://b23.tv/wbgNjNy
已经有开源的了，希望大佬可以试一试

tiantian666

再补一个云端部署的
【爱情动作片同声翻译，AI视频一键翻译MyHeyGen云端部署教程-哔哩哔哩】 https://b23.tv/GKZyNrA

Whatmortal

tiantian666 是个好东西。大概看了下，对项目作者还是表示敬意……不过要说根本性突破还没看到，川普说中文的那个口音就能大概推测出来背后的技术栈，原视频语音提取，目前天花板还是Whisper v3模型，即使强如Whisper识别效果的语言单词错误率还是有接近5%，放到句子里面那就有很大概率不知所云，然后翻译用的是百度API，这个文档直接有说明，百度的翻译最近体会了一下，逐句翻译对应日语效果还是可以的，比Google DeepL那种偶见奇怪的幻觉漏语义好一些，但是对色色内容不知道是故意限制还是学习资料不够，会有离谱的翻译结果。基本上来说到台本汉化阶段，现在的开源AI暂时还不够能打，如果是Whisper加持Chat GPT4 turbo校准可能识别精准率会进一步提高，但是这个新模型怎么越狱是个难点。

接下来是语音合成部分，还是逃不出语音克隆然后TTS，有些模型已经很自然了，英文几乎以假乱真。中文还是有点一言难尽，比如elevenlabs家英文TTS克隆可以吹爆，但是中文就总是怪怪的。如果可以自动推理源音频情感那么就有质的飞跃，myheygen或许这块有一定加强，但是很可惜放出来的dem中文口音一听就不对劲

视频嘴型大概是那么回事了，对嘴型没有细致研究，不过感觉够用了吧，FF16用上这个日配就不会被喷嘴型不适配的问题啦。不过只听音频无所谓嘴型了