简单有效的将音频转成各式良好对话文本的方案
昨天我花了点时间整理了一下 Twitter Space 音频的文稿:《AI编程革命:代码的未来,由AI重塑!》https://baoyu.io/blog/ai-programming-revolution
整个过程很简单有效,不仅把发言人和内容对应上了,还去掉了口癖、纠正了错别字,输出成了阅读友好的Markdown格式。也不要本机运行 Whisper 这样的模型。
前提条件:
你能访问 Google 的 AI Studio https://aistudio.google.com/
你能使用 Claude AI,其他 AI 模型( 比如Gemini, GPT-4o, o1 )也可以,但是效果可能要差一点
第一步:在 Google AI Studio 中用 Gemini 1.5 Pro 将音频转成文本,并且要求按照发言人生成会话。
把音频文件上传,并输入提示词,让它生成文本,并对应发言人,提示词参考:
请将下面对 AI 编程的讨论音频转成Transcript,要按照Speaker将音频内容完整整理出来,主要参与人:XXX, YYY, ZZZ, …
如果一次输出不完,就一直输入 continue 让它继续,直到生成完成为止。
第二步:将 Gemini 生成的文稿,发给 Claude,让其纠正错别字,去掉口癖,重新分段。
如果内容没有超过 1 小时,一般 Claude 可以一次性处理,如果比较长可能要分成几块来处理。
提示词比较简单,但是一定要加上“不要删减内容”关键字,否则 Claude 可能偷懒给你删减摘要内容:
请把下面的语音转文本对话文稿重新整理,纠正其中错别字,去掉口癖,保持原有对话格式,适当分段,但是不要删减内容:
<Gemini 输出的文稿>
很长的内容 Claude 无法一次性输出完整,需要不停的输入“continue”继续生成,直到生成完整。
如果有些额外要求也可以加到提示词中,比如把文稿中的 OnePro 统一换成 o1 Pro 等等。
可以看到整理后的结果还是挺不错的: