最近在逛南+的AI区吸取新技术,发现好多大佬在做AI换词,比如这个NTR版你的微笑-_-||。
有没有懂哥指点一下这样的填词换词咋做的这么丝滑的?填词有什么工具来保证韵脚吗?
换词又是怎么和原唱的曲调一致的?不会都是真人自己唱一下然后换音色吧?
我大概知道怎么用Retrieval-based-Voice-Conversion替换声线,如果用什么工具能自己按曲调唱出来然后融合进目标音色确实可以大概达到真人唱的水平。
然后我有一个大胆的想法,不知道技术上差距还有多大?
如何用AI把日语音声完美复刻同声优中文音声?
大概需要用到
音乐源分离技术,来分离效果音和人声
开源目前很好用的是Demucs-v4 https://github.com/facebookresearch/demucs,据称达到SDR9分水平(说人话就是人声和效果音大概9成分离,偶尔见一点效果音)
https://www.aicrowd.com/challenges/sound-demixing-challenge-2023/problems/music-demixing-track-mdx-23/leaderboards?challenge_round_id=1278
今年有一个分离大赛,有一个来自字节的大神队伍SAMI-ByteDance达到了SDR9.965
如果能开源,那将是绝杀
语音识别,日语声音转文字,目前好像就是Whisper一家给力,然而准确性一言难尽。日语中间很多小音错位一点意思千差万别,真人听也未必多准确……
基于转文字靠谱的假设,AI翻译,大概需要催眠chatGPT或者Claude2这样的,感觉不够稳
AI润色,AI对轴,并且要调整声调尽可能的和原音声一致(好像还真就没有这样的工具,是不是太小众了),就类似AI换词,只不过需要日语换中文,如果AI换词有成熟解决方案,那么是不是可以更进一步跨语种?
TTS或者VITS 文字转语音, TTS现在最成熟的是微软家的那几个声音,但是还是感觉不够自然和色气。VITS还没玩明白。好像还有个很给力的叫百度飞浆?不知道有没有懂哥讲解一下?
Retrieval-based-Voice-Conversion (RVC) 训练声优的去背景音(用到音乐源分离技术)声音,生成色气的音色。
然后替换第五步的中文语音音色。
和效果音混剪在一起,如果第四步AI对轴和声调调整的好可以直接套第一步的效果音,实现完美原声优中文复刻!
目前我准备用前辈大佬们翻译好的字幕(不然就是Whisper 或者台本 + chatGPT 听写、翻译、润色),Demucs分离效果音,Azure TTS和RVC学习替换音声音色,来复刻RJ372458 MHM2。不得不说Yanh老师的效果音和台本就是牛,光是RVC把TTS捧读变成分倍老师的声线,就非常色情了😄。不过还是有点怪怪的,像咬字不清的台湾腔?
可能我的训练样本和训练周期都不够多,而且没有中文训练样本,日语发音和中文本来就没有一一对应的音😅
比如说这样的一个短的女体化导入:
感觉还行吧,可以加个Theta波啥的接上绳地狱试试看?