AI 规模化的可行性:探索和辩论 [译]

数据瓶颈、泛化性能评估、灵长类进化、智能作为信息压缩、世界建模者及其他重要议题

通用人工智能 (AGI) 的到来预期在何时?

如果我们能持续扩大大语言模型 (LLMs++) 的规模,并因此获得更优秀、更具泛化能力的性能,那么我们有理由预期在 2040 年(甚至更早)能出现强大的 AI。这些 AI 能够自动执行大部分认知工作,从而加速 AI 的进一步发展。然而,如果规模化策略不奏效,那么走向通用人工智能的道路将会显得更为漫长和复杂。这些原因我在文章中有所论述。

为了深入探讨支持与反对规模化的各种观点,我以两个我虚构的人物——“支持者”和“怀疑者”的辩论形式来撰写了这篇文章。

我们会耗尽数据资源吗?

怀疑论者观点:

我们可能会在明年面临高质量语言数据的枯竭

即便我们对那些不太严肃的规模预测曲线给予认真考量,我们仍然需要巨大的计算资源——大约 1e35 FLOPs(浮点运算),才能实现一个足够可靠且智能的 AI,使其能够撰写科学论文(这是 AI 进行进一步的 AI 研究自动化、在规模扩张变得不可能时继续进步的基本能力要求)1。这意味着,我们需要的数据量比目前看似拥有的多出 5 个数量级(orders of magnitude, OOMs)2

我担忧的是,当人们听说“我们的数据量比需求少 5 个数量级”,他们可能会误解为:“哦,我们的数据只是需求的 5 倍不足——只要在数据效率上实现几次翻倍的提升,问题就解决了”。但事实并非如此简单,毕竟,几个数量级的差距可不是小事。

事实上,少 5 个数量级意味着我们的数据量比需要的少了 100,000 倍。的确,我们可以通过更高效的数据算法、多模态训练(multimodal training)来增加数据量,甚至还可以在多个周期内重复利用 Token、运用课程学习(curriculum learning)。然而,即使我们假设这些技术能带来最乐观的一次性显著改进,它们也无法提供足够的数据增长,以跟上规模定律要求的计算能力的指数级增长。

因此,人们常说,我们会让自我对弈(self-play)/合成数据(synthetic data)以某种方式发挥作用。但自我对弈面临两大难题:

  • 评估: 在 AlphaGo 中,自我对弈之所以有效,是因为模型能够基于一个明确的胜利条件来评价自己(“我赢得了这局围棋吗?”)。然而,全新的推理方法并没有一个明确的胜利条件。结果就像你所预料的那样,到目前为止,大语言模型 (LLM) 无法纠正自己的推理错误

  • 计算: 这些数学/编码方法通常会采用各种树状搜索技术,即在每个节点上反复运行大语言模型 (LLM)。AlphaGo 在相对明确的围棋胜利任务上的计算预算是惊人的 - 现在想象一下,不是在围棋动作空间中搜索,而是要在所有可能的人类思维空间中进行搜索。为了实现自我对弈,所需的所有额外计算量,是在已经需要的大量计算增长(计算量 = 参数数 * 数据量)之上的。以人类水平思考的 1e35 浮点运算次数估算,我们需要在当前最大模型的基础上再增加 9 个数量级的计算能力。当然,通过更优秀的硬件和算法可以取得一些进步,但真的能达到完整的 9 个数量级的提升吗?

信仰者:

如果你对规模化工作的主要担忧仅仅是数据不足,你的本能反应不应该是,“哦,看起来我们本可以通过扩大 Transformer++ 的规模来创造通用人工智能 (AGI),但恐怕我们会先耗尽数据。”

你的想法应该是,“哇,如果互联网的内容更加丰富,仅仅通过扩大一个我能用几百行 Python 代码就能写出的基本结构的模型的规模,就可能创造出一个人类级别的智能。这个世界上有个不可思议的事实,那就是用大量的计算资源来创造智能竟然如此简单。”

大语言模型 (LLM) 在处理的很多样本中,效率低下的部分主要是些不太相关的电商垃圾信息3。我们还通过训练它们来预测下一个 Token(Token)——这个损失函数(loss function)大多与我们希望智能体在经济活动中执行的实际任务不太相关,这进一步增加了这种不足。尽管我们真正需要的能力与这些模型所受的糟糕训练数据和损失函数之间的交集极小,但我们只需投入相当于Microsoft 公司年收入00.03%,就能在互联网上进行大规模抓取,制造出一个初级的通用人工智能 (AGI),也就是 GPT-4。

考虑到目前为止人工智能的进展如此简单易行,如果合成数据同样有效,我们也不应感到惊讶。毕竟,“模型本就渴望学习”

GPT-4 已经发布了整整 8 个月。其他的人工智能实验室刚刚才开发出自己的 GPT-4 级别模型。这意味着,所有的研究人员现在才开始尝试让自我对弈 (self-play) 技术在当前这一代模型中发挥作用,而且似乎已经有研究室取得了成功。因此,到目前为止我们没有公开的证据表明合成数据在大规模上有效,并不意味着它做不到。

毕竟,当你的基础模型已经足够强大,至少有时能给出正确答案(现在你可以在模型成功完成长数学证明所需的思考链,或编写完整的 500 行代码以完成一次代码提交 (pull request) 的情况下给予奖励),强化学习 (RL) 就变得更加可行。很快,你的成功率会从 1/100 提高到 10/100,然后达到 90/100。现在你尝试让模型完成 1000 行代码的提交任务,模型不仅有时会成功,而且在失败时还能自我评估。以此类推。

实际上,这种利用合成数据进行自我提升的方法与人类进化的过程有着惊人的相似之处。我们的灵长类祖先 几乎没有证据 表明它们能快速识别并应用新的见解。但随着人类发展出语言,出现了一种类似于大语言模型的合成数据与自我对战循环的 基因与文化的共演进化,在这个循环中,模型为了更好地理解类似实体复杂的符号输出而变得更加智能。

自我对战不要求模型完美地评判自身的推理。它们只需在评估推理方面比从头开始进行推理要好(这已经明显成立了 - 参见 宪法 AI,或者花几分钟时间体验 GPT,你就会发现它更擅长解释你所写内容的错误之处,而不是自行找出正确答案)4

我与大型 AI 实验室的许多研究者交流时,他们普遍对自我对战技术能够成功充满信心。当我询问他们为何如此确信时,他们会稍作停顿,似乎急切地想分享他们的所有想法。但随即他们意识到保密的重要性,便说:“我不能透露具体细节,但我们有很多容易尝试的新方法。”正如 Dario Amodei(Anthropic 的首席执行官)在我的播客上所说

Dwarkesh Patel (00:10:01 - 00:10:06):

你提到数据可能不会成为限制。你为什么这么认为?

Dario Amodei (00:10:06 - 00:10:22):

这里有许多可能性。由于种种原因,我不能详细说明,但我们知道世界上有众多数据来源,并且还可以通过多种方式生成数据。我认为数据不会成为阻碍。

虽然如果数据成为障碍可能会更好,但事实并非如此。

怀疑者:

在构建 AI,比如 RLHF 和其他基于强化学习/自我对抗的设置中,它们很擅长挖掘潜在能力(或在不良能力出现时予以抑制)。然而,至今没有人展示出如何通过强化学习(RL)实际增强模型的基础能力。

如果自我对抗或合成数据的方法行不通,那就意味着无法解决数据瓶颈问题。新的架构极不可能提供解决方案。你需要的是一个比 LSTM 到 Transformer 的转变更大的样本效率提升。考虑到 LSTM 是在 90 年代发明的,这意味着我们需要比过去 20 多年深度学习中实现的进步更大的飞跃,尤其是当初期的低挂果实最容易采摘的时候。

仅仅依靠那些情感或财务上希望看到大语言模型(LLM)取得成功的人的正面评价,无法代替我们目前所缺乏的,即强化学习(RL)能够解决数据大量不足问题的确凿证据。

此外,大语言模型(LLM)似乎需要巨量的数据来实现相对平庸的推理能力,这表明它们并未有效地泛化。如果这些模型无法在人类在 20,000 年中所能接触到的数据量上达到接近人类水平的表现,我们或许应该认真考虑即使是 20 亿年的数据量也可能不足够。就像无论你给飞机加多少喷气燃料,它也无法飞抵月球一样。

到目前为止,扩大模型规模真的有效果吗?

支持者:

你在说什么?在基准测试上的性能已经连续提升了 8 个数量级。随着计算量增加百万倍,模型性能的损失精确到了许多小数位。

GPT-4 技术报告 中提到,他们能够预测最终 GPT-4 模型的性能,这是基于使用与 GPT-4 相同方法但计算量最多减少 10,000 倍的模型训练得出的结论。

我们应该相信过去连续 8 个数量级的趋势,预计在未来的 8 个数量级中也会保持这种可靠性。如果进一步扩大 8 个数量级(或者考虑到算法和硬件进步带来的免费性能提升,相当于 8 个数量级的提升),可能会产生足够强大的模型,从而加速 AI 研究。

质疑者:

但我们实际上并不是直接关心下一个词元预测的表现。这些模型在这方面的表现已经超越了人类。我们真正想知道的是,这些在下一个词元预测上的扩展曲线是否真正代表着向通用性进展的实质性步伐。

支持者:

随着这些模型规模的增大,它们在众多任务上的表现也在稳步提升,比如通过 MMLUBIG-benchHumanEval 等基准测试所证明的那样。

怀疑论者:

你真的试过随机看看 MMLU 和 BigBench 的问题吗?它们基本上都是谷歌搜索的第一个结果。这些问题更多的是考验记忆力,而不是智力。这里有几个我随机从 MMLU 选出的问题(注意 - 这些都是多选题 - 模型只需从四个选项中选出正确的一个):

问:根据 Baier 的理论,判断一个行动是否道德上可接受的第二步是确认

答:禁止此行动的道德规则是否真正属于道德规范。

问:以下关于自发过程的说法哪一项总是正确的?

答:系统及其周围环境的总熵会增加。

问:比尔·克林顿出生时,美国总统是谁?

答:哈里·杜鲁门

一个模型在互联网文本上接受训练,记住了大量随机事实,这有何值得赞叹之处?这怎么能证明它具有智力或创造力呢?

在这些专门设计且互不相关的基准测试中,我们发现性能提升似乎已经达到极限。谷歌的新型 Gemini Ultra 模型据估计比 GPT-4 的计算能力高出将近 5 倍。但在 MMLU、BIG-bench 以及其他主流基准测试中,它的性能几乎与 GPT-4 不相上下。

然而,这些常用的基准测试并未真正衡量长期任务执行能力(比如是否能持续处理一个月的工作)。由于大语言模型在下一个 Token 预测训练中接触到的有效数据点非常有限,它们在处理长时间跨度的复杂信息上表现不佳。例如,在SWE-bench(衡量大语言模型是否能自主完成编程任务的测试)中,GPT-4 的表现只有微不足道的 1.7%,而 Claude 2 则略有提升,达到 4.8%。

目前我们面临两种类型的基准测试:

  • 一类是衡量记忆力、回忆能力和信息插值能力的测试(例如 MMLUBIG-benchHumanEval),在这些测试中,这些模型已经能够媲美甚至超越一般人类。然而,这些测试并不能有效代表智能水平,因为即使最乐观的观点也必须承认,目前的模型远不及人类智能。

  • 另一类则是真正检验模型在长期问题解决和处理复杂概念上能力的测试(如 SWE-benchARC),在这些领域中,这些模型还远远落后。

我们该如何看待一种模型,它即便经历了相当于 2 万年人类输入量的训练,仍然无法理解如果汤姆·克鲁斯的母亲是玛丽·李·费弗,那玛丽·李·费弗的儿子就是汤姆·克鲁斯这样的简单逻辑?或者它的答案竟如此极端地依赖于提问的方式顺序

因此,我们甚至还无法判断,模型的进一步扩展(scaling)是否能持续有效 - 目前看来,我们甚至没有证据证明扩展至今已经有效。

信徒:

将 Gemini 视为技术停滞的地点,似乎很不合理。GPT-4 已经明显突破了连接主义和深度学习的怀疑论者所提出的预先设定的批判5。相比之下,一个更合理的解释是谷歌尚未完全追赶上 OpenAI 在算法方面的进步。

如果深度学习和大语言模型 (LLMs) 真有某种根本性的上限,那么在它们开始形成常识、早期推理能力,以及跨抽象概念思考能力之前,我们应该已经观察到这一点了。那么,我们有什么初步理由去期待在一般推理能力和高级推理能力之间会有一个难以逾越的界限呢?

想象一下 GPT-4 相比于 GPT-3 的巨大进步。这仅仅是 100 倍的规模增长。听起来很多,但当你考虑到这比我们可以对这些模型进行的更大规模扩展要小得多时,就显得微不足道了。我们有能力将 GPT-4 进一步扩展 10,000 倍(也就是达到 GPT-6 的水平),而这还不足以占到全球 GDP 的 1%。而且,这还没考虑到预训练计算效率的提升(比如混合专家模型、闪电般的注意力机制)、新的训练后方法(如强化学习人工智能、思维链条上的微调、自我博弈等),以及硬件的进步。这些每一项单独来看,其贡献都能与通过原始规模扩展获得的性能提升媲美,而且在过去这已经被一再证明。把所有这些加起来,你大概可以用 1% 的全球 GDP 打造出 GPT-8 级别的模型。

为了给你提供一个参考,社会愿意在新的通用技术上投入多少资金:

  • 1847 年,英国铁路投资达到了惊人的 7% GDP。

  • 1996 年电信法案生效的五年后,电信公司投资了超过 5000 亿美元[几乎相当于今天的一万亿美元],用于铺设光纤电缆、增加新的交换机和建设无线网络。”

GPT-8(也就是性能相当于将 GPT-4 扩展了 1 亿倍的模型)可能只会比 GPT-4 略好一点,但考虑到我们已经看到模型从更小规模的扩展中学习如何思考和理解世界,我不明白为什么你会期待它只是略有改进。

你可能知道后续的发展 - 数百万个 GPT-8 副本将致力于编写更好的内核改进、寻找更优的超参数、为微调提供大量高质量反馈等等。这将大大降低开发 GPT-9 的成本和难度……你可以将这个趋势一直推演到技术奇点的到来。

模型真的理解世界吗?

支持者:

微软研究院在《通用人工智能的火花》论文中有许多令人震惊的发现。其中之一是,他们发现 GPT-4 能编写 LaTex 代码来绘制一只独角兽。我们对这类现象已经见怪不怪,却很少停下来思考它们所展示的意义。据推测,GPT-4 的训练语料库中并不包括 LaTex 动物绘图。然而,GPT-4 形成了对独角兽外观的内部认知,并能利用其在 LaTex 编程方面的能力,将它仅通过文字形式接触过的概念可视化。我们看到 GPT-4 完成了一些任务,这些任务如果没有基于对世界的理解(例如,如何用 LaTex 描绘独角兽),它显然是做不到的6

要预测下一个 token(词元),大语言模型必须自学世界上的规则,这些规则决定了一个词元接着另一个词元。比如,预测《自私的基因》一段文字的下一个段落需要理解以基因为中心的进化论,预测一篇新短篇小说的下一段则需要理解人物心理。

如果你在代码上训练一个大语言模型,它在语言推理方面的表现会更上一层楼7。这个事实令人震惊。这意味着模型从阅读大量代码中提炼出了一种深层次的通用思维方式 - 这不仅表明语言和代码之间存在共同的逻辑结构,还表明无监督的梯度下降能够提取这种结构,并利用它来更有效地进行推理。

梯度下降的目标是找到数据的最有效压缩方式。最有效的压缩也是最深刻、最有力的。对于物理教科书来说,最有效的压缩 - 即那种能帮助你预测书中某个论点可能如何展开的压缩 - 实际上就是对基础科学概念的深刻内在理解。

怀疑者:

智能不仅包括了压缩信息的能力。但仅仅是压缩,并不能代表智能本身。爱因斯坦的聪明之处在于他能构思出相对论,但把爱因斯坦和相对论合在一起,并不意味着这个系统的智能程度有所提升。我们不能说,由于柏拉图没有我们现代的生物学或物理学知识,就认为他比拥有这些知识的我要愚蠢。

因此,如果大语言模型(LLM)仅仅是通过另一种方法(例如随机梯度下降)完成的信息压缩,那么这并不能说明大语言模型自身具有压缩信息的能力,更不能说明它们具备何种智能7

信仰者的观点:

我们并不需要一个完美的理论来解释为什么技术的扩展会持续有效。就像蒸汽机发明一个世纪之后,我们才完全理解了热力学一样。在技术发展的历史中,通常是先有发明,再有理论的出现,智能的发展也应该遵循这一模式。

并不存在某个物理定律,宣称摩尔定律必将持续。实际上,总有新的实践障碍似乎预示着摩尔定律的终结。然而,每隔几年,像台积电(TSMC)、英特尔(Intel)、AMD 这样的公司就能找到克服这些问题的方法,让这一趋势得以延续数十年。

你可以围绕计算能力、数据限制、智能的真正含义以及基准测试的局限性进行深入思考。或者,你可以直接关注这条极具说服力的趋势线。

结论

现在,让我们抛开替代自我,来谈谈我的个人看法。

如果你在过去几年中坚信规模化的重要性,我们目睹的这些进步就会显得更加合理。有一种看法可以解释 GPT-4 的惊人表现,那就是它可能依赖于某种成语库或查找表,而这种方法永远无法普遍适用。但这并不是之前任何怀疑者所提前预测的。

以一个实例来说 - 我本来打算为怀疑论者提出的一个有力论点是,大语言模型 (LLM) 至今未能创造出任何新的联系,也未能带来任何新的发现。如果一个普通人能像 LLMs 一样记忆众多信息,他们也能做到这一点。我曾真诚地认为这是一个非常有说服力的怀疑论点,许多人也有同样的看法。然而,就在几天前,谷歌宣布其 FunSearch 系统取得了新的数学发现8。对于怀疑论者来说,这样的经历可能会一再出现。

至于那些坚定的支持者,比如 IlyaDarioGwern 等人,他们早在大约 12 年前就已经阐述了我们所见证的这种由规模化驱动的缓慢起飞。

显而易见,一定程度的规模扩大确实能够引领我们进入变革性 AI 的时代 - 换句话说,如果你在这些规模化曲线上实现了最小不可减少的损失,你就成功创造了一款智能足以自动化大部分认知工作的 AI(包括开发更高智能 AI 所需的工作)。

但现实生活中的许多事情比理论上要复杂得多。许多理论上可能实现的事情,如核聚变、飞行汽车、纳米技术等,因各种原因而变得难以攻克。如果自我对弈或合成数据的方法行不通,那么大语言模型 (LLMs) 等模型似乎就陷入了困境 - 你可能永远无法实现那种理想中的最小不可还原损失。此外,支持规模化技术持续有效的理论依据并不清晰,且规模化能提升性能的那些基准测试的普适性也有待商榷。

因此,我暂时的估计是:有 70% 的可能性,通过规模扩大、算法进步和硬件发展,我们将在 2040 年前实现通用人工智能 (AGI)。另有 30% 的可能性,怀疑论者是对的 - 大语言模型和类似的技术可能无法成功。

我可能忽略了一些关键证据 - AI 实验室并没有公开太多研究,因为任何关于“AI 科学”的洞察都可能泄露构建 AGI 的重要信息。我一个在这些实验室工作的研究员朋友告诉我,他怀恋以前大学时期阅读大量论文放松的日子 - 现在,几乎没有值得一读的研究被发表了。因此,我猜测那些我不了解的事情可能会让我的预期时间缩短。

此外,顺便提一句,我的主要工作是做 播客。但那些能够写出更佳文章的人因保密或机会成本的原因无法这么做。所以,请对我宽容一些,并在评论中告诉我我可能遗漏了什么。

附录

这里有一些额外的考虑点。我对这些主题的理解不足,无法充分理解它们对技术规模化可能产生的影响。

模型会实现基于洞察的学习吗?

在大规模下,模型自然会发展出更高效的元学习方法。所谓的 "grokking"(全面理解)只有在拥有一个大型过参数化模型并训练到严重过拟合数据的程度时才会出现。Grokking 的过程似乎与我们学习的方式很相似:我们通过直觉和心智模型来理解和分类新信息,随着时间和新观察的积累,这些模型也在不断演变。在这么多样化的数据上进行 "梯度下降"(gradient descent)会优选出最具普适性和预测力的模式。因此,我们实现了 grokking,最终也许还能实现基于洞察的学习。

怀疑者:

尽管神经网络能进行 grokking,但其效率与人类整合新解释性洞察的能力相比还有很大差距。告诉孩子太阳是太阳系的中心,他会立即以新的方式理解夜空。但你不能简单地向一个未经天文学训练的模型输入哥白尼的理论,期望它立刻将这一洞察融入其所有相关的未来输出。模型必须在不同情境中多次接触信息,才能真正理解基本概念,这一点颇为不解。

模型不仅从未展示过基于洞察的学习,鉴于我们目前使用梯度下降方法训练神经网络的方式,我甚至怀疑这种学习是否可能。我们通过每个示例对模型施加细微的影响,希望这些小步骤能逐渐推动它们达到正确的理解层面。而基于洞察的学习需要像是从海平面一跃而至珠峰之巅的巨大飞跃。

灵长类进化揭示了扩展性吗?

论者:

我相信,在黑猩猩的认知中,你可以发现许多比逆转弱点更尴尬的脆弱性。这并不表示灵长类大脑有某种根本的局限,无法通过增大 3 倍的规模和一些微调来解决。

实际上,苏珊娜·赫库拉诺 - 胡泽尔已经展示了这一点,人类大脑的神经元数量正如你所期望的,与一个扩大到人类大脑质量的灵长类大脑所拥有的数量相同。相比之下,啮齿动物和食虫动物大脑的扩展效果要差得多 - 这些类群中大脑较大的物种,其神经元数量远低于仅从大脑质量上预期的数量。

这暗示灵长类的某种神经结构与其他种类动物的大脑相比,具有更好的扩展性,就像transformers 相较于 LSTMs 和 RNNs 拥有更优的扩展曲线。进化在设计灵长类大脑时,学到了(或至少偶然发现了)一个艰难的教训,在灵长类所处的竞争环境中,智能的边际增加被强烈奖励(你需要处理来自于你的双目视觉、能使用工具的对立拇指和能与你交流的其他聪明猴子的所有这些数据)。

1 这似乎是提升当前模型所需的计算量,使其能够撰写一篇科学论文长度的输出,且与人类撰写的内容无法区分。

2 假定奇卡耶拉模型的最佳扩展(大致意味着为了有效扩展计算能力,额外的计算量一半来自于增加数据量,另一半来自于增加参数)。你可以尝试以非最佳方式训练奇卡耶拉模型,但这只能弥补轻微的数据不足,而无法弥补 5 个数量级的缺口。

3 相信者,继续: 相比于人类,大语言模型 (LLM) 在样本效率上确实不占优势(GPT-4 处理的数据量远超一个人从出生到成年期间所接触的,但它的智能水平却远不及我们)。但我们忽略了一个重要因素:我们的基因组中已经编码了大量知识,这是经过数亿年进化,基于比 GPT-4 处理过的数据量还要大得多的数据训练而成的高度压缩而精炼的信息。

4 事实上,如果自我对抗循环中的评估者也是水平相当的 GPT-4 模型,可能会更加有效。在生成对抗网络(GANs)中,如果判别器远比生成器强大,判别器就会停止对生成器提供有效的反馈,因为它无法提供即使是有错误但能指明方向的信号。

5 举个例子,Pinker 在这里指出了当神经网络等连接主义架构尝试表达语言规则时,它们必须面对的一系列限制。乍一看(仅仅是初步印象),GPT-4 似乎规避了这些所谓的限制。

这里,Pinker 提到了 ChatGPT 缺乏常识的问题,然而在 GPT-4 发布一个月后,这个问题就被解决了。

6 继续讨论的支持者: 在我们能够深入研究 Transformer 的简化实验设置中,我们实际上可以观察到它们构建的世界模型。研究人员训练了一个 Transformer,让它预测国际跳棋类游戏 Othello 中的下一步行动。这个模型没有接受任何关于游戏规则或棋盘结构的指导 - 它只接收了一些游戏记录。所以你所做的就是向一个原始的 Transformer 输入大量如“E3 D3…”这样的游戏记录序列。研究人员发现,通过分析模型在接收游戏记录后的权重,就可以重建棋盘状态。这证明了网络仅通过分析原始记录,就发展出了对游戏的强大内在表示。

7 继续讨论的怀疑者: 智能等于信息压缩的理论框架似乎不足以细致区分 SGD 在平滑损失景观中攀登山丘以发现语义规律,与爱因斯坦在众多错误的排列和变化中挑选相对论正确方程式之间的差异。我认为 SGD 不太可能找到相对论类型的“信息压缩”,从而达到爱因斯坦那样的智能水平。

8 你或许会认为,数学和编程中的 FunSearch 设定有紧密的反馈循环和明确的成功条件,这些是其他领域不太可能共有的。但这更多的是我想指出的过于复杂的思维过程。