大概听了一下数字倒数的幻觉还是不少的,有的日语到数到0了,中文TTS在往30顺数,中间好像还夹杂了1920(好像念做一九二零,不是19,20,应该是Whisper出来的数字断句没加上),当混乱催眠听也没毛病,有的翻译略生硬,推测是Whisper听写打轴加机翻没有AI或者人工校准,然后调用Edge还是微软的某TTS读出来的,如果是全自动工具打通了端到端直出的双语那就相当不错了。
类似的工具下面这个项目好像做的比较成熟了,不过端到端全自动双语我还没时间折腾,中间坑还是不少https://github.com/jianchang512/pyvideotrans
比如说拉胯的Whisper是没啥办法,日语自动语音识别(Automatic Speech Recognition, ASR)还真是没发现哪家更能打。倒数部分可以稍微改进一下,一个选项是放弃倒数的TTS,听多了数字都熟;另一个是加一点人工对轴,调整标点符号,一个数字一个数字的读。其他的翻译可以看看本地部署个好用点的AI或者去用一下首富的Grok2 API,网页端的Grok 3相当能打,有条件也可以搞搞看集成进来。