tiantian666 是个好东西。大概看了下,对项目作者还是表示敬意……不过要说根本性突破还没看到,川普说中文的那个口音就能大概推测出来背后的技术栈,原视频语音提取,目前天花板还是Whisper v3模型,即使强如Whisper识别效果的语言单词错误率还是有接近5%,放到句子里面那就有很大概率不知所云,然后翻译用的是百度API,这个文档直接有说明,百度的翻译最近体会了一下,逐句翻译对应日语效果还是可以的,比Google DeepL那种偶见奇怪的幻觉漏语义好一些,但是对色色内容不知道是故意限制还是学习资料不够,会有离谱的翻译结果。基本上来说到台本汉化阶段,现在的开源AI暂时还不够能打,如果是Whisper加持Chat GPT4 turbo校准可能识别精准率会进一步提高,但是这个新模型怎么越狱是个难点。
接下来是语音合成部分,还是逃不出语音克隆然后TTS,有些模型已经很自然了,英文几乎以假乱真。中文还是有点一言难尽,比如elevenlabs家英文TTS克隆可以吹爆,但是中文就总是怪怪的。如果可以自动推理源音频情感那么就有质的飞跃,myheygen或许这块有一定加强,但是很可惜放出来的dem中文口音一听就不对劲
视频嘴型大概是那么回事了,对嘴型没有细致研究,不过感觉够用了吧,FF16用上这个日配就不会被喷嘴型不适配的问题啦。不过只听音频无所谓嘴型了