音声语音识别获得台本的方法

Lezzo

很多日语音声效果虽然很好，但是苦于没有台本，听不懂。AI帮大忙，openai whisper可以本地进行语音识别，生成日语文本，只要你有一台还OK的电脑就能做到。
我主要是用一个叫弹弹PLAY的看番软件，这软件最近集成了AI语音识别 Image description

直接按要求下载好需要的文件，就可以自动生成日语字幕文件，省去了打轴的麻烦。
识别准确率还是蛮高的，然后再用有道或者chatGPT进行翻译。还可以让chatGPT检查是否有识别错误的地方并让他修正。
识别没有效果音，纯人声的语音应该是最好的，带效果音的不敢保证，不过理解大致内容应该没问题。
因为弹弹play只能导入视频，需要把后缀先改成MP4之类的视频后缀，然后语音识别，识别完改回去就能获得日语字幕文件了，拿来学日语也行，翻译后直接用也行。
弹弹play也有直接翻译的功能，但是要会员收费

Lezzo

我拿来识别日语催眠音声用，日语催眠音声效果好，而且很多都没什么效果音，ai真是太美妙了

排骨炒肉酱面

Lezzo 啊？睁着眼看字幕催眠？

ymzwal

好软件，以前都是传到y上生成字幕的，麻烦死

双齿轮

感谢分享。之前用过这个软件，但不知道还有这个功能

Lezzo

排骨炒肉酱面别杠，不会日语那不得记台本？

Whatmortal

whisper确实是个好东西，日语没台本太苦恼了。话说这个播放器用large模型识别速度大概是音频的几倍速呢？我只有Mac，用GitHub那个whisper应用large-v2感觉是效果最好的,就是有一点点慢，大概需要处理的时间是音频的三四倍。
看到有一个c++重写的whisper，说是编码转码部分效率极大提升，体验了一下没有large-2，只有large,出来的质量下降了，但是处理时间大概降低到了音频时间的一半，而且还要转16kHz Wav有点小烦，可能这个降低识别率，但是提升了效率，有点背景音比如舔耳的就歇菜了，识别全是0
但是large-v2可以强行识别个七七八八

然后还有一个苦恼就是好不容易整出AI字幕了，对着过一遍又无感，进不了催眠，有点干巴巴的，问题是这类长度还挺长的，楼主怎么记住这么长的台本的？在强记台本的情况下真的可以进催眠吗？

排骨炒肉酱面

Whatmortal 我也好奇..

Lezzo

Whatmortal 大概能明白就可以了，能不能进入催眠我觉得还是看个人，还有音声声优、内容、玩法。性癖对没对上其实差别还挺大。同一个音声，或者差不多的题材，不同声优给人的感觉也不一样。
是我喜欢的声优或者声线，加上喜欢的内容和题材，就算不能进入催眠，我听着也爽，也是愿意听的。加上可能对味的好的催眠音声并不是那么多，一个音声反复听，听几个月几年也是有可能的，自然台本就记得差不多了，然后能不能进状态不好说，听的越多，越容易抓到感觉，然后就顺其自然。

dcocath

Whatmortal whisper.cpp适合cpu跑，如果有性能还行的独显的话可以试试faster-whisper，我用2060移动版跑large-v2可以做到1:10

Keep going

Whatmortal
Whisper确实好，但确实如果本地化部署比较吃机器性能。
我更推荐我现在的做法：普通笔记本电脑，下载剪映国际版，直接降音频拖进去，启动识别，非常快而且准确，一段三十分钟的日语音声，四分钟左右就能识别完毕，而且准确率极高，基本不受背景音干扰。然后我会用识别出的字幕看个几遍，就差不多可以闭眼享受了，（我日语N3水平打算今年冲一下N2,不得不说听日语音声对我水平进步非常有帮助而我当初学也是因为想听音声相辅相成啊）

Skmoevry

好奇问一下，对于带有混合声波的催眠，语音识别的效果怎么样？双声道呢

Whatmortal

Skmoevry 背景音杂乱的话识别率就会下降不少。双子同时一人一句话的那种基本就凉了，能提取一丢丢意思，大概率取一个主要的声音，双声道同时识别可能有点难为AI了。

Skmoevry

Whatmortal 悲

排骨炒肉酱面

Keep going 我用那玩意识显示网络错误

Keep going

排骨炒肉酱面需要挂梯子