本地化搭建fast-whisper+ChatGLM2-6B出来会谈记录

·

ffmpeg -i  20230703am.mp3 -f segment -segment_time 1755 -write_xing 0 -c copy  20230703am/out%03d.mp3

首先用以上命令将长音频切分为每30分钟一段,因为fast-whisper有这样的限制,实际切分的时候不要设置为1800秒,因为会多一点点,无法通过,可以设置到1799秒。

fast-whisper用官方的docker方案直接跑,试了一下medium模型和largv2都还行,默认就用medium了。

转录出来的文本用ChatGLM2-6B来处理,比如用这样的提示词:“请整理以下录音识别的文字,去掉其中的语气词等多余的部分,将语句调整通顺,修复可能因为语音识别产生的错误。”

ChatGLM2-6B直接按官方库的方法部署即可,通过webui访问。

如果希望自己对照查看文本,可以用VLC打开audio的visualizations效果即可显示字幕,也可以用subtitle编辑。

用VLC播放mp3的时候,默认看不到字幕,需要手动打开音频可视化。

图形默认是正方的,看着有点别扭,那么再调整一下视频比例。

更详细的情况欢迎联系我交流。

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理