我当前为了省事儿,分离、识别、推理之类的全部用 GPTSovits(或者Fishspeech)。之前自己用开源的模块写过一套低配版,不过 bug 有点多,就不重新造轮子了,还是用现成的就好。
效果音用 SOTA 会好一些,不过你如果追求过高的品质,去分离效果音,实际上会发现工作量太大了,为爱发电我觉得没必要,用叠双轨(参考电报双语翻译 bot)的方式搞就行了,因为有外语能力的人,会去直接听原版,没有外语能力的,外语这部分音轨听不懂反而没什么影响(排除少部分极度容易被分散注意力的人),这样做“事半功倍”。
另外炼丹最大的问题在于,英文声音练完的丹,读中文会有点奇怪,所以我感觉靠 stella 本身的音频样本,训练 stella 的中文声音本身这个角度就不太可行。
剪辑以及合声什么的,我是纯手动挡,ffmepg 一把梭。