ffmpeg -i 20230703am.mp3 -f segment -segment_time 1755 -write_xing 0 -c copy 20230703am/out%03d.mp3
首先用以上命令将长音频切分为每30分钟一段,因为fast-whisper有这样的限制,实际切分的时候不要设置为1800秒,因为会多一点点,无法通过,可以设置到1799秒。
fast-whisper用官方的docker方案直接跑,试了一下medium模型和largv2都还行,默认就用medium了。
转录出来的文本用ChatGLM2-6B来处理,比如用这样的提示词:“请整理以下录音识别的文字,去掉其中的语气词等多余的部分,将语句调整通顺,修复可能因为语音识别产生的错误。”
ChatGLM2-6B直接按官方库的方法部署即可,通过webui访问。
如果希望自己对照查看文本,可以用VLC打开audio的visualizations效果即可显示字幕,也可以用subtitle编辑。
用VLC播放mp3的时候,默认看不到字幕,需要手动打开音频可视化。
图形默认是正方的,看着有点别扭,那么再调整一下视频比例。
更详细的情况欢迎联系我交流。