bb1243
我最原本的想法实际上就是想根据 stella 的声音炼个中文版的“stella”出来,不过目前做的实验结果并不太好,主要声音样本是英文的,练完念英语或者拉丁语系的话,还凑乎,念 CJK 这种,比如中文、日语什么的,听起来吞音太严重了,所以后面才直接找了现在这个免费的御姐音。
实际上收费的御姐音也有听起来比较有感觉的,不过需要收费的,费用我倒是可以承担的起(也就百十来块钱吧,无所谓),主要还是想先看看这个资源受众到底有多少,而且 TTS 这块不是瓶颈,更多的还是在台本本身以及音效方面怎么做混响上。
我昨天晚上去研究了 shibby 那个汉化的音频,我感觉那个的思路也是可以的,就是把中文的声音叠加到原音频上,最终的效果有点类似于英文念一句,中文翻译一句,其实听感也是可以的,不过暂时我不知道那个音频是人工做的混音还是脚本混的,感觉像是人工混的,因为每句话的间隔是动态的,如果是人工混的,这个工作量就有点巨大了。
当前这个英文音频的 ASR 翻译完的台本,大概一个音频里面有 150 到 250 句话,每句话单独翻译、TTS、再校对时间轴,估计一句话需要大概 3 ~ 5 分钟的样子,一个音频就是 6 ~ 10 小时工作量的样子。