whisper确实是个好东西,日语没台本太苦恼了。话说这个播放器用large模型识别速度大概是音频的几倍速呢?我只有Mac,用GitHub那个whisper应用large-v2感觉是效果最好的,就是有一点点慢,大概需要处理的时间是音频的三四倍。
看到有一个c++重写的whisper,说是编码转码部分效率极大提升,体验了一下没有large-2,只有large,出来的质量下降了,但是处理时间大概降低到了音频时间的一半,而且还要转16kHz Wav有点小烦,可能这个降低识别率,但是提升了效率,有点背景音比如舔耳的就歇菜了,识别全是0
但是large-v2可以强行识别个七七八八
然后还有一个苦恼就是好不容易整出AI字幕了,对着过一遍又无感,进不了催眠,有点干巴巴的,问题是这类长度还挺长的,楼主怎么记住这么长的台本的?在强记台本的情况下真的可以进催眠吗?