Deep Research 的问题【译】

OpenAI 的 Deep Research 看起来像是专门为我打造的工具，但我却无法真正使用它。它再次展现了惊艳的演示效果，直到它崩溃——而且崩溃得十分有趣。

我的主要工作内容就是研究和分析。我会想好需要什么数据，然后去寻找、汇编和整理这些数据，制作图表；如果觉得图表没有什么新意，我就会重新尝试寻找新的角度或新的数据来源，以更好地理解和解释问题，最后再输出文字和图表，用来表达我的想法。接着，我还会和其他人讨论这些成果。

在这个过程中，往往会涉及大量的手动劳动——每一张图表背后都像是一座冰山。看起来，OpenAI 的 Deep Research 正是为此而生的。那么，它真的能够满足我的需求吗？

我本来可以找一个新课题来自己测试一下，但在我花时间和费用之前，碰巧 OpenAI 在其产品页面上提供了一个示例报告，讨论了我非常熟悉的主题：智能手机。让我们来看看。

这个表格乍看之下很棒——机器似乎替我完成了需要数小时才能整理出来的数据。然而，在把它交给客户之前，我们最好先检查一下。首先，数据来源是什么？

哦。

它给出的来源是：Statista 和 Statcounter。Statcounter 用来衡量“采用率”其实并不合适，因为它衡量的是流量。众所周知，不同设备的使用方式不同，高端设备使用频率更高，而 iPhone 因为面向高端市场，使用量也相对更高。基于流量数据来衡量市场份额并不恰当，这一点我通常会跟实习生解释（我常常将 AI 比作“实习生”）。而 Statista 呢，则是整合别人的数据，想办法让自己在 SEO 中排名靠前，然后希望你注册或付费才能看到结果。我个人觉得 Google 应该把这家公司屏蔽掉，就算你不这么认为，用“Statista”来做出处数据来源就像说“这是谷歌搜索到的结果”。这同样是个“实习生水平”的问题。

先把这一点放在一边，我们再深入看看具体数字：Deep Research 称，日本智能手机市场 iOS 占 69%，Android 占 31%。这会带来两个问题：第一，这个数字真的是这些来源给出的数字吗？第二，这个数字本身对不对？这其实是两种截然不同的疑问。

首先，Statcounter 虽然存在前面提到的“iPhone 使用量偏高”问题，但它实际上并没有显示过 69% 这个数字，至少在过去一年多里没有出现过。嗯……

如果我们去 Statista 找，必须先绕过很多障碍，最后会发现真正的数据来源是 Kantar Worldpanel，而它给出的数据正好和 Deep Research 的说法相反：Android 约 63%，iOS 约 36%。哦。

而且，Kantar 的数据会在不同月份波动 20 个百分点，这并不是硬件装机量通常会出现的波动，这让我怀疑它究竟在统计什么。如果我们还想更深入的话，完全可以去查其他数字。但如果我要对表格里的每一个数字都要这样核查，那它就没帮我节省任何时间——我还不如自己来做。顺便说一句，日本的一个监管机构在这里（见第 25 页）做过相关调查，结果显示日本智能手机的装机量大约是 Android 53%，iOS 47%。啊。

那我们该怎么思考这一系列问题呢？

LLM 并不是数据库：它并不能进行精确、确定且可预测的数据检索，用数据库的衡量标准去测试它其实并无意义。但我们现在要做的也不是简单的数据查询——这是一个更复杂、更有意思的测试。

首先，OpenAI 在示例中问的是一个不明确的问题：它要“adoption”（采用率），但这个概念指的是什么？是销量？装机量？使用份额？还是应用付费？这些概念是不一样的，你想要的究竟是哪一种？其次，要找到任何一种指标都不是一个确定的过程——没有一个“权威”的唯一数据来源，需要一些专业判断或经验来决定采用何种来源。例如，前面说到的：你是打算用 Statcounter、Statista、Kantar，还是其他来源？

也就是说，这些都不是简单的“数据库查询”问题——OpenAI 向模型提出的其实是一个概率性问题，而非一个确定性问题。但是，对我们来说，一旦确定了“想要的数据究竟是哪种维度”，接下来就希望能拿到确凿的数字。我们在向模型提出一个需要确定答案的概率性问题，而模型在这方面似乎并没有达到它自己标榜的水平。就我个人专业观点而言，它不该用 Statcounter 或 Statista，但即使用了，也应该取对数据才对。

这让我想起几年前的一个说法：LLM 擅长的是计算机不擅长的事，而不擅长计算机擅长的事。OpenAI 正在尝试让模型猜测你“可能想要的内容”（这件事计算机以往并不擅长，但 LLM 很在行），同时又希望模型做那种高度精确的信息检索（这原本是计算机很在行、LLM 不擅长的事）。看起来效果并不理想。而且要记住，这并不是我自己设计的测试——这是 OpenAI 官方营销页面上给出的示例。OpenAI 正在宣称这个产品能做到一些它实际并不能完全做到的事情，至少从他们自己的示例来看，确实有些不足。

到了这里，很多人会说：“模型还会继续进步呀！” 但这其实有些忽略了重点。如果今天的模型能把这个表格做到 85% 正确，而下一版模型能把它提高到 85.5% 或 91% 正确，那对我来说意义并不大。只要表格里还存在错误，那么这张表格就不值得信任。如果你认为最终这些模型可以做到 100% 准确，那才是真的能颠覆一切；但那种情形意味着模型本质发生了“质变”，而非仅仅是准确率从 85% 提高到 91% 这么简单。我们也并不知道那种质变是否真的会发生。

与此同时，我只聚焦在一个数字，是因为这个数字最容易被检查和验证。但同样的概念问题也适用于 10 页的文字：Deep Research 的内容大部分是对的，但也只是“大部分”。

回到更高层次，我对撰写这篇文章其实也感到有些矛盾。因为类似“这些系统非常惊人，但经常会犯错，而且这些错误都很重要，所以目前适用的场景是那些对错误率要求不那么高，或者错误能被轻松发现的”这样的论点，我已经重复过很多次了。我可以更简单地说“它们真的很厉害，而且还在不断变好”，或者反过来说“它们错误频发，是自 NFT 以来最浪费时间和金钱的东西”。但其实“探索困惑”才是更有意思的。

而且，这些工具确实有用。比如，如果有人要你写一份 20 页的报告，而这方面你本来就很熟悉，但手头并没有现成的 20 页资料，那么借助这个工具，你可能只要几个小时就能写完，而不需要花上几天。你可以在它生成的内容基础上自己修订所有错误。我一直把 AI 称作“无限实习生”，刚才所说的这些例子里，就有很多可以教育实习生的“学习点”。但也要记得 Steve Jobs 曾说过，“计算机是思想的自行车”——能让你以更少的努力走得更远，可是它自己并不具备方向或目标。

再往更根本上挖，有两个核心问题。第一，如前所述，我们不知道 LLM 的错误率会不会彻底消失，所以我们也不知道该去构建那种默认“模型可能会出错”前提的产品，还是在一两年后就能做出完全“信任模型”本身的产品。在 PC、网络或智能手机这种关键技术的早期，我们大体能预见哪些问题是可以改进的，哪些是本质性限制。但在这里，我们并不知道 Deep Research 面临的这些问题能否被完全解决。如果解决不了，我们就会做出一种产品；如果能解决，就会是另一种思路。

第二，OpenAI 以及其他所有大模型实验室目前并没有什么护城河或壁垒，除了有资金的支持；它们还没找到在编程或营销以外的明确产品市场匹配点，而且它们本身实际上也不算是真正的“产品”，更多是一个可以向外提供的文本框或 API 供其他人去构建产品。Deep Research 只是众多尝试之一，希望既能体现粘性，也能让人们感受到具体的应用场景。可是一方面，像 Perplexity 这样的公司几天后就宣称推出了类似功能；另一方面，现在看来要应对错误率最有效的方法，还是把 LLM 作为一个后端 API，由软件层来管理和控制，从而减少模型出错带来的影响。这样一来，基础模型本身就更像是一种“商品化”的底层服务。这是否就是最终的走向？我们完全不知道。

Deep Research 的问题 【译】

Deep Research 的问题【译】