本地化搭建fast-whisper+ChatGLM2-6B出来会谈记录

ffmpeg -i  20230703am.mp3 -f segment -segment_time 1755 -write_xing 0 -c copy  20230703am/out%03d.mp3

首先用以上命令将长音频切分为每30分钟一段，因为fast-whisper有这样的限制，实际切分的时候不要设置为1800秒，因为会多一点点，无法通过，可以设置到1799秒。

fast-whisper用官方的docker方案直接跑，试了一下medium模型和largv2都还行，默认就用medium了。

转录出来的文本用ChatGLM2-6B来处理，比如用这样的提示词：“请整理以下录音识别的文字，去掉其中的语气词等多余的部分，将语句调整通顺，修复可能因为语音识别产生的错误。”

ChatGLM2-6B直接按官方库的方法部署即可，通过webui访问。

如果希望自己对照查看文本，可以用VLC打开audio的visualizations效果即可显示字幕，也可以用subtitle编辑。

用VLC播放mp3的时候，默认看不到字幕，需要手动打开音频可视化。

图形默认是正方的，看着有点别扭，那么再调整一下视频比例。

更详细的情况欢迎联系我交流。

发表回复 取消回复