真正的AI智能体即将到来:告别死板提示词,迎接自主规划时代!

最近到处都在讨论「智能体」(Agents),但最重要的一次智能体突破却几乎无人察觉。

2025年1月,OpenAI发布了名为DeepResearch的O3模型变种,专门用于网页和文档搜索。得益于在浏览任务上的强化学习训练,DeepResearch具备了制定搜索策略、交叉核对信息源、甚至利用反馈获得深层次知识的能力。无独有偶,Anthropic的Claude Sonnet 3.7也成功地将同样的强化学习方法应用于代码领域,在复杂的编程任务中展现出超越以往所有模型编排系统的能力。

正如William Brown在演讲中所说的:「LLM智能体能够完成长时间、多步骤的任务了。

这一进展促使我们重新思考:什么才是真正的LLM智能体?去年12月,Anthropic提出了一个全新的定义:「LLM智能体能动态地决定自己的执行流程和工具使用方式,并自主控制任务的完成过程。」

与之相对,目前更为普遍的所谓智能体实际上都是工作流系统(workflows),也就是通过预设的代码和规则来协调LLM和工具的系统。例如最近备受关注的Manus AI,经过我的亲自测试后发现,它其实仍存在明显缺陷,这些缺陷早在AutoGPT时代就已经很明显了,特别是在搜索方面表现更差:

  • 不能有效制定计划,经常中途卡壳;

  • 不能记忆内容,无法处理超过5-10分钟的任务;

  • 无法长期有效执行任务,容易因连续的小错误最终彻底失败。

因此,这篇文章提出一个更严谨的「LLM智能体」定义,试图结合有限的官方信息、开放研究进展以及我个人的一些推测,解释智能体究竟是什么、它们将如何改变世界。


LLM智能体的「苦涩教训」

传统的智能体与基础大语言模型(base LLM)完全不同。

在经典的强化学习中,智能体生活在有限制的环境里,就像在迷宫里行走。智能体的每个动作都有物理或规则上的约束。随着训练,它们会逐渐记住路径、总结经验,并探索最佳策略。这一过程被称为「搜索」(search),类似于我们日常使用搜索引擎的点击行为。去年曾经热议的OpenAI Q-star算法,据传就是从1968年著名的搜索算法A-star衍生出来的。

然而,大语言模型(LLM)的基础逻辑恰恰相反:

  • 智能体能记住环境,但基础LLM不能,它们只能处理当前窗口内的信息;

  • 智能体受现实条件限制,但基础LLM生成的是概率最高的文本,随时可能「跑题」;

  • 智能体能规划长期策略,基础LLM却只能做好单步推理,面对多步推理任务很快就会「超载」。

目前,大部分「LLM智能体」的做法都是利用预定义的提示词(prompt)和规则来引导模型。然而,这种方法注定要遇到「苦涩教训」(Bitter Lesson)。所谓苦涩教训是指,人们经常倾向于将自己的知识硬编码进系统中,短期内效果很好,但长期却严重限制了系统的发展。真正的突破总是来自搜索与学习能力的提升,而非人为规则的增加。

这就是为什么类似Manus AI这类工作流系统无法顺利地订机票或教你徒手打虎——它们本质上是被苦涩教训咬了一口。靠提示词和规则无法持续扩展,你必须从根本上设计能够真正搜索、规划、行动的系统。


RL+推理:LLM智能体的制胜秘诀

真正的LLM智能体,应该长什么样呢?官方信息虽然少,但从现有的研究中可以归纳出一些共同特征:

  1. 强化学习(RL)
    LLM智能体采用强化学习进行训练,类似传统的游戏智能体:定义一个目标(奖励),再训练模型通过反复尝试获得这个奖励。

  2. 草稿模式(Drafts)
    模型并非逐字逐句进行训练,而是一次生成一整段文字(draft),再整体进行评估和反馈,从而加强模型的推理能力。

  3. 结构化输出(rubric)
    模型的输出被限定成明确的结构,以便于快速、准确地进行奖励验证。

  4. 多步训练(如DeepSeek提出的GRPO算法)
    模型不是单步训练,而是连续多步训练。例如搜索任务中,模型会不断调整策略、回溯、重新搜索等,逐步提高效率。

上述过程能在不耗费过多计算资源的情况下实现,从而逐渐走向大众化,这将成为未来LLM智能体爆发的基础。


等等,这东西能规模化吗?

然而,要真正实现像DeepResearch这样的搜索智能体,还有一个大问题:我们根本没有足够的训练数据!

过去搜索模型往往只能靠历史数据,而现有的公开数据集中,几乎找不到真正体现用户规划和搜索行为的数据(如点击轨迹)。类似谷歌用户搜索历史这种数据,几乎只能从大公司获得,但这些数据几乎是不对外开放的。

目前能想到的解决方案是:用模拟方式创造数据。我们可以把互联网内容包装成一个虚拟的「网络模拟器」,让模型在里面反复尝试搜索目标,不断优化搜索路径。这种训练过程耗费巨大,但可以通过技术优化来减轻负担。

我推测OpenAI和Anthropic这样的公司,可能就是用类似方法在训练DeepResearch这样的模型:

  • 创建虚拟的网络环境,训练模型自由地进行搜索;

  • 先用轻量的监督微调(SFT)进行预热;

  • 再用强化学习多步训练,不断提高搜索策略;

  • 最后再训练模型更好地整理输出结果。


真正的LLM智能体,根本不需要「提示」

当真正的LLM智能体出现之后,它会和现在基于提示词和规则的系统完全不同。回到Anthropic的定义:

LLM智能体动态地决定自己的流程和工具用法,完全自主。

以搜索任务为例:

  • 模型自动分析用户需求,如果不明确,会主动询问;

  • 模型自主选择最佳的信息源或API接口;

  • 模型会自己规划搜索路径,能在走错路时主动调整;

  • 所有过程都有记录,提升了可解释性和信任度。

LLM智能体可以直接操纵现有的搜索基础设施,用户再也不用特意学习如何使用「提示词」了。

这种方法同样可以延伸到金融、网络运维等多个领域:未来,一个真正的智能体不再是个花哨的AI助手,而是一个懂你需求、主动帮你完成任务的真正代理。


2025:智能体元年?

目前,只有少数几家大公司有能力开发出真正的LLM智能体。虽然短期内这样的技术可能仍集中在巨头手里,但长远来看,这种局面必须被打破。

我不喜欢过度炒作新技术,但LLM智能体的爆发力不容忽视。2025年会是智能体真正崛起的一年吗?答案还要看我们如何行动。

让我们拭目以待!