构建 AI 智能体的经验分享

作者：Paul Sangle-Ferriere

我是 Paul，cubic 的联合创始人，cubic 是一个以 AI 为核心的“智能版 GitHub”。其中最重要的功能之一，就是一款 AI 代码审查智能体。它能自动审阅代码提交，帮助发现代码中的错误、不良设计模式、重复代码等问题。

今年 4 月首次发布时，我们最常听到的用户反馈特别简单：AI 提出的反馈太多太吵了！

即便是很小的代码改动（PR），也常常被 AI 评论淹没，充斥着大量低价值的意见、过度挑剔甚至是误报。这不仅没有帮助开发者，反而干扰了真正重要的代码讨论。

一个典型的鸡蛋里挑骨头的例子

于是，我们决定认真反思和深入研究问题的根源。

经过三次重大的架构改进，以及大量线下测试，我们最终成功地将误报率降低了 51%，而且没有牺牲召回率（recall）。

在这个过程中，我们得到了很多重要的教训。这些教训不仅适用于代码审查，也对设计其他高效 AI 智能体有极大帮助。

1. “拍脑袋”阶段：一个包打天下的智能体行不通

我们最初设计的架构看起来简单明了：

[代码差异]

↓

[单个大提示词，包含代码库的全部上下文]

↓

[输出评论列表]

这种设计看起来很干净，实际却很快暴露了严重问题：

我们尝试了标准方案——例如延长提示词、调整模型温度（temperature）和采样方式等，但效果都不明显。

经过大量尝试，我们找到了一套在实际项目中真正有效的架构。这些方案使得我们现在能减少 51% 的误报率。

我们要求 AI 智能体在提出任何反馈之前，必须明确地记录自己的推理过程：

{
  "reasoning": "第 42 行 `cfg` 可能是空指针，但在第 47 行却直接引用了它。",
  "finding": "可能存在空指针解引用问题",
  "confidence": 0.81
}

这种方式带来了巨大好处：

一开始，我们给 AI 配备了大量工具，例如语言服务器协议（LSP）、静态分析、测试工具等。但推理日志显示，其实大部分任务只需要几个核心工具，多余的工具反而让 AI 混乱。

我们最终简化工具链，仅保留最基本的语言服务器（LSP）和终端功能。

这样，AI 可以将精力专注在确认真正有意义的问题上，精准度大幅提高。

刚开始，我们本能地想用一个超大提示词，添加越来越多规则来处理各种细节：

结果却发现这种做法既不可持续，也效率低下，AI 常常忽略掉大量规则。

我们最终取得突破性进展的方案，是使用多个专门的微型智能体（micro-agents），每个只专注于非常明确的任务：

微型智能体的专职分工，让每个智能体都能保持精细而专注的上下文，从而提高精准度。尽管整体的 token 使用量有所增加，我们通过有效的缓存策略成功控制了成本。

这些架构和提示词的改进，在数百个活跃的开源和私有项目中获得了显著成果。在过去六周的实践中，我们具体收获包括：

同时，AI 的精准性提高，让开发者更加信任和愿意与 AI 智能体互动，审查效率大大提升。