简单有效的将音频转成各式良好对话文本的方案

昨天我花了点时间整理了一下 Twitter Space 音频的文稿：《AI编程革命：代码的未来，由AI重塑！》https://baoyu.io/blog/ai-programming-revolution

整个过程很简单有效，不仅把发言人和内容对应上了，还去掉了口癖、纠正了错别字，输出成了阅读友好的Markdown格式。也不要本机运行 Whisper 这样的模型。

前提条件：

第一步：在 Google AI Studio 中用 Gemini 1.5 Pro 将音频转成文本，并且要求按照发言人生成会话。

把音频文件上传，并输入提示词，让它生成文本，并对应发言人，提示词参考：

请将下面对 AI 编程的讨论音频转成Transcript，要按照Speaker将音频内容完整整理出来，主要参与人：XXX, YYY, ZZZ, …

如果一次输出不完，就一直输入 continue 让它继续，直到生成完成为止。

如果内容没有超过 1 小时，一般 Claude 可以一次性处理，如果比较长可能要分成几块来处理。

提示词比较简单，但是一定要加上“不要删减内容”关键字，否则 Claude 可能偷懒给你删减摘要内容：

请把下面的语音转文本对话文稿重新整理，纠正其中错别字，去掉口癖，保持原有对话格式，适当分段，但是不要删减内容：
<Gemini 输出的文稿>

很长的内容 Claude 无法一次性输出完整，需要不停的输入“continue”继续生成，直到生成完整。

如果有些额外要求也可以加到提示词中，比如把文稿中的 OnePro 统一换成 o1 Pro 等等。

可以看到整理后的结果还是挺不错的：