求推荐汉化音频/视频的制作软件

dadawfa

目前想对stella的音频进行汉化，但使用pyVideoTran难以分离背景音（效果音）和人声，并且配音效果不理想，请问大佬们一般都用哪些制作软件？

Whatmortal

分离背景音（效果音）和人声：SOTA剪映SVIP，pyVideoTran调用的开源实现都一般般
配音pyVideoTran加GPTSovits或者Fishspeech自己慢慢抽卡玩吧，或者minimax API什么的付费的，一遍出好用的概率仍然不高。稳定的TTS如微软的或者剪映自带的就很人机了

dadawfa

Whatmortal 我本来是想用Cosyvoice训练出一个stella音色的模型，然后在pyVideoTran调用这个模型进行配音，但部署总是出现各种问题在pyVideoTran中无法使用，还在研究解决

Sia

我当前为了省事儿，分离、识别、推理之类的全部用 GPTSovits（或者Fishspeech）。之前自己用开源的模块写过一套低配版，不过 bug 有点多，就不重新造轮子了，还是用现成的就好。

效果音用 SOTA 会好一些，不过你如果追求过高的品质，去分离效果音，实际上会发现工作量太大了，为爱发电我觉得没必要，用叠双轨（参考电报双语翻译 bot）的方式搞就行了，因为有外语能力的人，会去直接听原版，没有外语能力的，外语这部分音轨听不懂反而没什么影响（排除少部分极度容易被分散注意力的人），这样做“事半功倍”。

另外炼丹最大的问题在于，英文声音练完的丹，读中文会有点奇怪，所以我感觉靠 stella 本身的音频样本，训练 stella 的中文声音本身这个角度就不太可行。

剪辑以及合声什么的，我是纯手动挡，ffmepg 一把梭。

dadawfa

Sia 好像也有道理，钻牛角尖了，我找找还有没有更合适一点的音色，现在正在捣鼓UVR5试一下分离

Sia

dadawfa 我目前抽奖抽了一圈，感觉八重神子的御姐音非常适合 stella 或青梅这种调教、性转类的催眠，你

可以去试听下我自制的一些，当然这个因为是自制的，所以没有 bgm，只有少数一些音效：
https://mega.nz/folder/cBIizYqb#1uyppSSqV4m9RGQz0tQCfA

以及 stella 的口交大学 1：
https://mega.nz/folder/4VJTgK7S#Pv1bBh9CDRQ2clFooD32OA

stella 我还翻译过 1 - 22 那个催眠，不过音色没有用八重神子，当时用的是另外一个御姐音，和八重神子相比听感差很多了，之后我计划重制一下。

仅供参考吧。

Sia

今天刚搞完的口交大学 2 的 part 1，当试听给你看看。

2-1.mp3

10MB

dadawfa

Sia 谢谢大佬，目前分离的事情有了进展，用了uvr5进行分离，大概听了一下，可以干净分离出背景和干声，用了stella的一个音频作实验。

Sia

dadawfa 嗯，GPTSovits 其实内部也是用 uvr5。

另外就是，看音频的混音类型，可以尝试用不同的 model 去分离，以及先后顺序都是有讲究的，具体就不展开说了，应该文档上都有写。

dadawfa

chastity-1-virtual-chastity.mp3

19MB

1-1-1-chastity-1-virtual-chastity-vocals-vocals-no-reverb.wav

82MB

dadawfa

dadawfa 第一个是原声，第二个是处理之后的，去掉了背景音和混响之后，软件识别字幕的准确率也提高了

dadawfa

Sia 目前已经找到了一个训练好的声音模型，做出了一个初步版本的配音，只不过汉化之后中文和英文的音轨时间对不上，导致原背景音里说出触发器的时间节点也对不上，只能在au里手动调整，还在寻找其他更有效率的解决办法，最近几天太忙了，周末再研究一下

Sia

dadawfa 这个感觉没什么办法的，除非有一些规律，如果是比较随意的故事叙述，就只能是人来校对了，我现在时间也基本花在这个上面。

dadawfa

Sia 搞了两天确实没找到什么好办法，只能人工了

Tablet

试试臭氧的 RX8 来分离音频

dadawfa

Tablet 这个倒是没听过，我去看看