这你就有的忙了,哈哈,不过现在的LLM和TTS越来越牛了,这个事情变容易了很多。
首先丢给Gemini 2.5 Pro这个级别的多模态LLM或者Whisper Large V2,让转写生成英文字幕,然后丢LLM按时间戳翻译为中文,然后打开剪映,配音,原视频人声分离(这个功能需要会员,免费开源平替是UVR),去掉原音轨,合成上配音的音轨,完事。
想听点好的音色,可以自己去弄剪映会员,Azure TTS,GPT-Sovits,Fish Speech,MiniMax等等或开源或收费的TTS,然后配音合成。
大概就是这样了哈。
术语很多,没法一个个解释了,全写完几万字都不够,自己问AI吧。