歌曲AI换词

Whatmortal

最近在逛南+的AI区吸取新技术，发现好多大佬在做AI换词，比如这个NTR版你的微笑-_-||。
有没有懂哥指点一下这样的填词换词咋做的这么丝滑的？填词有什么工具来保证韵脚吗？
换词又是怎么和原唱的曲调一致的？不会都是真人自己唱一下然后换音色吧？
我大概知道怎么用Retrieval-based-Voice-Conversion替换声线，如果用什么工具能自己按曲调唱出来然后融合进目标音色确实可以大概达到真人唱的水平。

Your-Smile-NTR.txt

4kB

Your-Smile-NTR.mp3

6MB

然后我有一个大胆的想法，不知道技术上差距还有多大？

如何用AI把日语音声完美复刻同声优中文音声？

大概需要用到

音乐源分离技术，来分离效果音和人声
开源目前很好用的是Demucs-v4 https://github.com/facebookresearch/demucs，据称达到SDR9分水平（说人话就是人声和效果音大概9成分离，偶尔见一点效果音）
https://www.aicrowd.com/challenges/sound-demixing-challenge-2023/problems/music-demixing-track-mdx-23/leaderboards?challenge_round_id=1278
今年有一个分离大赛，有一个来自字节的大神队伍SAMI-ByteDance达到了SDR9.965
如果能开源，那将是绝杀
语音识别，日语声音转文字，目前好像就是Whisper一家给力，然而准确性一言难尽。日语中间很多小音错位一点意思千差万别，真人听也未必多准确……
基于转文字靠谱的假设，AI翻译，大概需要催眠chatGPT或者Claude2这样的，感觉不够稳
AI润色，AI对轴，并且要调整声调尽可能的和原音声一致（好像还真就没有这样的工具，是不是太小众了），就类似AI换词，只不过需要日语换中文，如果AI换词有成熟解决方案，那么是不是可以更进一步跨语种？
TTS或者VITS 文字转语音， TTS现在最成熟的是微软家的那几个声音，但是还是感觉不够自然和色气。VITS还没玩明白。好像还有个很给力的叫百度飞浆？不知道有没有懂哥讲解一下？
Retrieval-based-Voice-Conversion （RVC）训练声优的去背景音（用到音乐源分离技术）声音，生成色气的音色。
然后替换第五步的中文语音音色。
和效果音混剪在一起，如果第四步AI对轴和声调调整的好可以直接套第一步的效果音，实现完美原声优中文复刻！

目前我准备用前辈大佬们翻译好的字幕（不然就是Whisper 或者台本 + chatGPT 听写、翻译、润色），Demucs分离效果音，Azure TTS和RVC学习替换音声音色，来复刻RJ372458 MHM2。不得不说Yanh老师的效果音和台本就是牛，光是RVC把TTS捧读变成分倍老师的声线，就非常色情了😄。不过还是有点怪怪的，像咬字不清的台湾腔?
可能我的训练样本和训练周期都不够多，而且没有中文训练样本，日语发音和中文本来就没有一一对应的音😅

比如说这样的一个短的女体化导入：

00-TS-induction-RVC-shiho.wav

36MB

感觉还行吧，可以加个Theta波啥的接上绳地狱试试看？

MC

Whatmortal 这个音色已经很不错了，粗听感觉已经脱离电子音了。要说哪里不足，就是缺了点人声的起伏强弱变化

MisakiE

|･ω･｀)完全看不懂的我，静等更新就完事了
支持大佬

o o

厉害了，有这想法可以做些什么别的，赚钱的方式

昕昕想要性转~

o o 跨境电商，商品介绍经常用到，甚至可以改变视频里讲解者的嘴型，做到和发音完美契合

MC

我哭死，大佬为了做出效果好的中文音声复刻，居然研究了那么多，太感谢了！越来越期待成品了

卡卡罗兔

期待大佬以后的作品，Bert-VITS2 效果确实稳定，原神这边很多二创用的它。

作者还搞了个在线网站，把原神角色全训练了一遍，应该有不少up在用。
https://genshinvoice.top/

中文发音比较“刁钻”，不能像歌曲那样方便对应，不过对整体语气的模仿还可以。比如网站里面八重神子说话的语气，比较有内味。

感觉工作量主要在翻译和对轴上，翻译需要人工校对，对轴不方便打配合，不清楚作者有没有给方法

Bert-VITS2 源码 https://github.com/Stardust-minus/Bert-VITS2
主页 https://space.bilibili.com/163056936/dynamic

Whatmortal

卡卡罗兔派蒙也有内味了，要是做成催眠的话，这原神玩不下去了哈哈哈哈

这段我要笑死了

paimon.wav

10MB

shenqi898

翻译可以使用claude2接口的“酒馆”，佬可以去看看使用破限之后翻译算比较稳定的。

Keep going

shenqi898 酒馆是啥呀？哪里可以去使用？

shenqi898

然后我个人用的音声分离比较好的我推荐UVR5真的很干净。

Whatmortal

shenqi898 我现在也在用UVR5，算法你选的是Demucs-v4的不？还是有更好的选择？

shenqi898

Whatmortal

Whatmortal 第一步处理：分离伴奏

Process Method: Demucs
Stem: Vocals
Demucs Model: v3]UVR-Model-1
4．勾选GPU Conversion
5．开始处理
第二步处理：消除混响和声
1．输入选择刚才第一步处理过后的纯人声素材
Process Method: VR Architecture
Window Size: 320
Aggression: 10
VR Model: 5_HP_Karaoke_UVR
6．勾选GPU Conversion/Vocals Only 7．开始处理
这一方法能够尽可能去除人声中的和声和混响。
以上是我在某个视频里面看到的，我个人感觉还不错。

shenqi898

Keep going b站直接搜酒馆claude

卡卡罗兔

Whatmortal 派蒙，最好的催眠伙伴（

Skmoevry

语音识别部分的话，如果专门用催眠音声文本进行训练的话效果应该会更好，不过会是个很大的项目。

Whatmortal

Skmoevry 想法靠谱，就是训练很烧资源，闻到了GPU熊熊燃烧的味道

一只毛力

Whatmortal 可以尝试租用算力平台。。不过有可能会被ban呢。做正常的翻唱还是很安全的，这种就不好说咯

Skmoevry

Whatmortal 不过最关键的问题，还是针对语音的语言转换（指的就是上面的AI换词），毕竟文本的听译还好说，可以靠爱好者人力发电，但是录音问题以国内的情况多半是牡蛎得斯。想要实现估计只能AI直接转换了。

细节方面，虽然AI润色和对轴可以保证和效果音对上，但是语言发音的不同不知道会不会影响到原来的效果音，让最终合成的效果变得奇怪。

如果不管效果音的话，目前来看音声语言转换一个可能的应用领域是同声传译，大佬可以找找相关的领域有没有有用的研究。如果有用同一种音源念不同语言的项目的话，至少这个项目就是有基础可以实现的

Whatmortal

Skmoevry 日语发音语气和中文还是存在不小差异，非要弄可能是大佐味，你的死啦死啦地干活哈哈哈哈 (⋈◍＞◡＜◍)
要说语气语调似乎还真是VITS加情感来的自然点，似乎都在显卡炼丹。TTS基本一眼假
话说效果音有纯正的提取之后适当剪切拉长缩短应该还行，就是对轴体力活。现在的开源黑科技基本提取的相当干净。不过高潮引导部分我还是喜欢有一些日语的，毕竟语气语速AI学不来