Deep Research 的问题 【译】
OpenAI 的 Deep Research 看起来像是专门为我打造的工具,但我却无法真正使用它。它再次展现了惊艳的演示效果,直到它崩溃——而且崩溃得十分有趣。
我的主要工作内容就是研究和分析。我会想好需要什么数据,然后去寻找、汇编和整理这些数据,制作图表;如果觉得图表没有什么新意,我就会重新尝试寻找新的角度或新的数据来源,以更好地理解和解释问题,最后再输出文字和图表,用来表达我的想法。接着,我还会和其他人讨论这些成果。
在这个过程中,往往会涉及大量的手动劳动——每一张图表背后都像是一座冰山。看起来,OpenAI 的 Deep Research 正是为此而生的。那么,它真的能够满足我的需求吗?
我本来可以找一个新课题来自己测试一下,但在我花时间和费用之前,碰巧 OpenAI 在其产品页面上提供了一个示例报告,讨论了我非常熟悉的主题:智能手机。让我们来看看。


这个表格乍看之下很棒——机器似乎替我完成了需要数小时才能整理出来的数据。然而,在把它交给客户之前,我们最好先检查一下。首先,数据来源是什么?
哦。
它给出的来源是:Statista 和 Statcounter。Statcounter 用来衡量“采用率”其实并不合适,因为它衡量的是流量。众所周知,不同设备的使用方式不同,高端设备使用频率更高,而 iPhone 因为面向高端市场,使用量也相对更高。基于流量数据来衡量市场份额并不恰当,这一点我通常会跟实习生解释(我常常将 AI 比作“实习生”)。而 Statista 呢,则是整合别人的数据,想办法让自己在 SEO 中排名靠前,然后希望你注册或付费才能看到结果。我个人觉得 Google 应该把这家公司屏蔽掉,就算你不这么认为,用“Statista”来做出处数据来源就像说“这是谷歌搜索到的结果”。这同样是个“实习生水平”的问题。
先把这一点放在一边,我们再深入看看具体数字:Deep Research 称,日本智能手机市场 iOS 占 69%,Android 占 31%。这会带来两个问题:第一,这个数字真的是这些来源给出的数字吗?第二,这个数字本身对不对?这其实是两种截然不同的疑问。
首先,Statcounter 虽然存在前面提到的“iPhone 使用量偏高”问题,但它实际上并没有显示过 69% 这个数字,至少在过去一年多里没有出现过。嗯……

如果我们去 Statista 找,必须先绕过很多障碍,最后会发现真正的数据来源是 Kantar Worldpanel,而它给出的数据正好和 Deep Research 的说法相反:Android 约 63%,iOS 约 36%。哦。


而且,Kantar 的数据会在不同月份波动 20 个百分点,这并不是硬件装机量通常会出现的波动,这让我怀疑它究竟在统计什么。如果我们还想更深入的话,完全可以去查其他数字。但如果我要对表格里的每一个数字都要这样核查,那它就没帮我节省任何时间——我还不如自己来做。顺便说一句,日本的一个监管机构在这里(见第 25 页)做过相关调查,结果显示日本智能手机的装机量大约是 Android 53%,iOS 47%。啊。
那我们该怎么思考这一系列问题呢?
LLM 并不是数据库:它并不能进行精确、确定且可预测的数据检索,用数据库的衡量标准去测试它其实并无意义。但我们现在要做的也不是简单的数据查询——这是一个更复杂、更有意思的测试。
首先,OpenAI 在示例中问的是一个不明确的问题:它要“adoption”(采用率),但这个概念指的是什么?是销量?装机量?使用份额?还是应用付费?这些概念是不一样的,你想要的究竟是哪一种?其次,要找到任何一种指标都不是一个确定的过程——没有一个“权威”的唯一数据来源,需要一些专业判断或经验来决定采用何种来源。例如,前面说到的:你是打算用 Statcounter、Statista、Kantar,还是其他来源?
也就是说,这些都不是简单的“数据库查询”问题——OpenAI 向模型提出的其实是一个概率性问题,而非一个确定性问题。但是,对我们来说,一旦确定了“想要的数据究竟是哪种维度”,接下来就希望能拿到确凿的数字。我们在向模型提出一个需要确定答案的概率性问题,而模型在这方面似乎并没有达到它自己标榜的水平。就我个人专业观点而言,它不该用 Statcounter 或 Statista,但即使用了,也应该取对数据才对。
这让我想起几年前的一个说法:LLM 擅长的是计算机不擅长的事,而不擅长计算机擅长的事。OpenAI 正在尝试让模型猜测你“可能想要的内容”(这件事计算机以往并不擅长,但 LLM 很在行),同时又希望模型做那种高度精确的信息检索(这原本是计算机很在行、LLM 不擅长的事)。看起来效果并不理想。而且要记住,这并不是我自己设计的测试——这是 OpenAI 官方营销页面上给出的示例。OpenAI 正在宣称这个产品能做到一些它实际并不能完全做到的事情,至少从他们自己的示例来看,确实有些不足。
到了这里,很多人会说:“模型还会继续进步呀!” 但这其实有些忽略了重点。如果今天的模型能把这个表格做到 85% 正确,而下一版模型能把它提高到 85.5% 或 91% 正确,那对我来说意义并不大。只要表格里还存在错误,那么这张表格就不值得信任。如果你认为最终这些模型可以做到 100% 准确,那才是真的能颠覆一切;但那种情形意味着模型本质发生了“质变”,而非仅仅是准确率从 85% 提高到 91% 这么简单。我们也并不知道那种质变是否真的会发生。
与此同时,我只聚焦在一个数字,是因为这个数字最容易被检查和验证。但同样的概念问题也适用于 10 页的文字:Deep Research 的内容大部分是对的,但也只是“大部分”。
回到更高层次,我对撰写这篇文章其实也感到有些矛盾。因为类似“这些系统非常惊人,但经常会犯错,而且这些错误都很重要,所以目前适用的场景是那些对错误率要求不那么高,或者错误能被轻松发现的”这样的论点,我已经重复过很多次了。我可以更简单地说“它们真的很厉害,而且还在不断变好”,或者反过来说“它们错误频发,是自 NFT 以来最浪费时间和金钱的东西”。但其实“探索困惑”才是更有意思的。
而且,这些工具确实有用。比如,如果有人要你写一份 20 页的报告,而这方面你本来就很熟悉,但手头并没有现成的 20 页资料,那么借助这个工具,你可能只要几个小时就能写完,而不需要花上几天。你可以在它生成的内容基础上自己修订所有错误。我一直把 AI 称作“无限实习生”,刚才所说的这些例子里,就有很多可以教育实习生的“学习点”。但也要记得 Steve Jobs 曾说过,“计算机是思想的自行车”——能让你以更少的努力走得更远,可是它自己并不具备方向或目标。
再往更根本上挖,有两个核心问题。第一,如前所述,我们不知道 LLM 的错误率会不会彻底消失,所以我们也不知道该去构建那种默认“模型可能会出错”前提的产品,还是在一两年后就能做出完全“信任模型”本身的产品。在 PC、网络或智能手机这种关键技术的早期,我们大体能预见哪些问题是可以改进的,哪些是本质性限制。但在这里,我们并不知道 Deep Research 面临的这些问题能否被完全解决。如果解决不了,我们就会做出一种产品;如果能解决,就会是另一种思路。
第二,OpenAI 以及其他所有大模型实验室目前并没有什么护城河或壁垒,除了有资金的支持;它们还没找到在编程或营销以外的明确产品市场匹配点,而且它们本身实际上也不算是真正的“产品”,更多是一个可以向外提供的文本框或 API 供其他人去构建产品。Deep Research 只是众多尝试之一,希望既能体现粘性,也能让人们感受到具体的应用场景。可是一方面,像 Perplexity 这样的公司几天后就宣称推出了类似功能;另一方面,现在看来要应对错误率最有效的方法,还是把 LLM 作为一个后端 API,由软件层来管理和控制,从而减少模型出错带来的影响。这样一来,基础模型本身就更像是一种“商品化”的底层服务。这是否就是最终的走向?我们完全不知道。