Translated on January 14, 2024Published on December 29, 2023

科学与工程助力更优秀的文本生成 [译]

原文：Better text generation with science and engineering

当前的文本生成技术，例如 ChatGPT，存在诸多问题：不够可靠、使用起来复杂、功能有限，而且开发与运行成本极高。这些问题源于它们的底层技术。但有可能通过全新的方法来彻底解决这些问题。这会是件好事，还是坏事呢？

好还是坏？这是个难题

我对 AI 的兴趣，在 2014 年因 ImageNet 的突破性成果暂时复苏，但到了 2022 年中期又逐渐淡去。直到那时，我注意到了文本生成器中新发现的“思维链”现象，它们似乎能进行类似人类的常识性推理。自 AI 研究伊始，实现常识推理一直是一个极富挑战的目标1。它可能是 AI 突破现有技术限制的关键。

长期以来，自动化的常识推理难以取得突破，而这一新发现似乎开辟了新天地——既令人兴奋，也充满挑战。

文本生成技术的快速发展也引起了许多人的担忧。不久的将来，这种技术的进一步发展是否会催生出让人恐惧的超级智能？这还是个未知数，我们需要努力寻找答案。我在 2022 年中期的研究让我认为这种可能性不大，随后的发展也支持了这一观点，但这还只是初步的结论。

因此，谨慎的做法是，我们应该承认强大的 AI 很可能很快出现，并采取相应的措施。我们应该通过对现有系统进行科学研究和工程改进来探索答案，而不是盲目追求更强大的系统，以免引发灾难性的后果。

对当前文本生成器工作原理的思考，与我三十年前在计算语言学领域的工作以及对图像分类器的分析产生了共鸣。这些联合思考可能对语言学和认知科学的根本理论产生重大影响，这让我感到非常兴奋！它们也揭示了几种可能的方法，这些方法可能实现与当前文本生成器类似的功能，但采用不同的技术，从而使它们更可靠、更易使用、更强大且更高效。

这是好事吗？我心目中的这些机制比现有系统的行为更可预测，因此不太可能因未知原因而变得危险。这当然是好事！

但另一方面，如果这些系统更强大、更可靠且成本更低，它们很可能被广泛使用甚至滥用。相比之下，继续沿用现有的“预测下一个词”模式，只是不断地建造更大、更昂贵的 ChatGPT 版本，可能会对世界产生更大的不可预知影响。这可能是坏事！

由于更先进的文本生成技术可能既有好的也有坏的影响，所以自从我开始这个项目以来，我一直在纠结，究竟应该公开多少相关信息。

我怀疑，不断扩大 GPT 规模的项目可能已接近极限。现有的文本生成器已经训练了几乎所有有价值的文本，可能已经在当前技术范式内达到了处理这些文本的极限。ChatGPT 尽管被预测在短期内会带来巨大的经济效益和大规模失业，但在其首年运行中并未产生显著影响。进一步提高这类系统的实用性可能已不太可能，这意味着投入到这些尝试中的数十亿美元可能被浪费。

然后，当前的 AI 热潮可能像以往一样逐渐消退。我认为这或许是件好事，因为我们至今还没有找到通往拥有强大通用 AI 的明确道路，而潜在的灾难情景却层出不穷。在众多 AI 方法中，文本生成因其看似的推理能力而显得尤为令人担忧。如果它是目前最危险的技术，且可能已接近技术极限，那么我们暂时可以对恐怖的 AI 持更少的担忧。因此，我认为现在讨论如何制造更优秀的类似 ChatGPT 的系统似乎并不是个好主意。

鉴于我对此仍然非常不确定，我只会介绍我所想象的几种可能性中最不具创新性且似乎最安全的一种。遗憾的是，我不会涉及那些不太显而易见、可能更强大和更危险的未来语言技术。

为了不让你感到好奇，我将介绍的方法是将语言能力与知识分开。一个大幅缩小规模的 GPT 能够实现完全流畅的文本生成，其内容来源于一个明确定义的文本数据库，而非将事实与其语言能力混淆。这种做法能够消除 GPT 当前的最大缺陷：即“虚构事实”或“幻觉”现象。2 通过分离语言和内容，输出结果将更加忠实于文本数据库。而且，将 GPT 缩小数个数量级也会让我们更容易对其进行分析、理解和验证。

文本预测：不是万能工具

现今主流的文本生成工具基本都是建立在 GPT（生成式预训练 Transformer）架构上的。这种技术通过接收一段文本（即“提示”），来预测最有可能的文本续写。

但这种文本续写在实际应用中几乎没有太大价值。

事实上，这种技术最初并非为了实用而设计。实用的文本生成器不过是计算语言学研究意外的副产品。主要目标是探究语法，即人类语言的结构。这种技术通过构建一个基于大量人类书写文本的统计模型来实现。其目的是让系统能够输出语法正确的英语，而无需人工编写所有的语法规则。

当时，没人预料到这样的系统能输出的虽然语法正确但内容空洞的句子（比如“无色的绿色想法疯狂地沉睡”）会有实际用途。接下来的研究计划是将这样的语法模型与知识表达和推理系统相结合。推理系统负责生成含义，而语言系统将这些含义翻译成英语，作为输出。

然而，研究发现，当在大量的人类写作文本上进行训练时，这些系统产生的输出不仅语法正确，往往还颇有意义。起初，像 GPT-2 那样，它们只能在一两句话中保持意义；但随着数据量从“巨大”增长到“难以想象的庞大”，如 GPT-3 那样，它们能够连贯地输出一到两段文字。这表明这些系统不仅在学习语法，还在学习语义（即含义）。

研究人员还发现，通过精心设计的提示，可以生成不仅有内在意义，而且相关且有用的输出。最简单的例子，比如问“法国的首都是什么？”系统可能会回答“巴黎是法国的首都”，因为在训练数据中，这是最常见的下一句。一个足够大的 GPT 甚至能在问题和答案在训练数据中没有直接配对的情况下找到问题和相应答案之间的模式，从而回答这类问题。

这一发现完全出乎意料3，现在已成为文本生成器的主要积极用途。尽管如此，它们在经济上的主要用途可能还是生成模板化的文本，比如用于 spam 和类似 spam 的内容，这些通常具有负面价值。

虽然文本生成器仍被研究人员称为“语言模型”，但实际上，它们多年来的目标已经不再是模拟语言。在本章后面，我将建议，GPT 应该专注于模拟语言，而不是简单地模仿从网络上随意抓取的大量文本。

文本生成器近乎无所不知的特性引起了广泛的兴奋、恐惧、金融投资、营销炒作和研究努力。但这种热情往往基于误解和误导。在最理想的情况下，文本生成器只是“知道”其训练数据集中的内容，并且能够准确地、按需报告这些信息。

不幸的是，GPT 并不能也不会这样做。它们只被训练来生成对它们的输入在统计上看似合理的续写。这其中包括自信地解释那些根本不在其训练文本中的、听起来合理的错误信息。

从某种意义上说，它们实际上“不知道”任何事情。它们是文本风格模仿引擎，而不是知识库。正如我之前写过，

文本生成器并不是在不清楚正确答案时就胡编乱造；事实上，它们根本就不知道答案。如果你询问它们 quokkas 是否适合做宠物，它们或许会编写一篇看似有说服力的文章，称它们因为友好且易于照护而成为流行的家庭宠物。但如果你再次提问，它们可能会写出另一篇文章，声称它们是濒危物种，非法饲养，难以驯养，甚至在感到威胁时会攻击人。这两种截然不同的回答都是通过相同的方法生成的：它们是基于互联网上关于“动物 X 是否适合做宠物”文章的混合体，再加入一些关于 quokka 的知识点。

这种方式并不适合大多数人期望文本生成器完成的任务。它们并不是完成这些任务的合适工具。尽管如此，鉴于这种情况，它们的表现出乎意料地好，但这种总体方法本质上存在根本性和不可修复的缺陷。

然而，支持者仍在努力推广 GPTs，将其作为 AI 发展的未来趋势，因为他们想要立即推销它们。

作为文本知识检索工具，GPTs 与网络搜索存在竞争关系，至少在理论上是这样。但实际上，截至 2023 年，它们更多的是相互补充，各自的优势在一定程度上弥补了对方的不足。我在下一节中提出的方法，旨在结合两者的优势。

GPTs 最大的问题是“虚假生成”，即产生看似权威却充斥着虚假信息的文本。与之相比，网络搜索的优势在于它可能引导你找到真正权威和准确的人类撰写的文本。GPTs 被设置为尽量避免提供人类撰写的文本，即使它们已经逐字地记住了这些内容，这可能是出于版权的考虑。
网络搜索提供的是一系列完整文档的列表，其中一部分理想情况下与你的查询相关。你仍需阅读或检索每个文档，以找到可能回答你问题的部分。相比之下，GPTs 提供的是简洁的单一输出，理想情况下完全相关且提供完整答案。但另一方面，它可能是含糊不清、看似相关的废话，或者是误导性且不真实的。
网络搜索也可能将你引导到看似权威但实际上充满虚假信息和毫无意义的废话的网页，这些网页可能是由 GPTs 编写的，或者是由“内容农场”雇佣的缺乏相关知识的低薪工人编写的，或者是由网络上的随机疯子编写的。过去几年中，这种情况变得更加严重（部分原因是自动化生成的网络垃圾）。总体来说，GPTs 的答案质量可能比网络搜索结果的平均质量要好。
网络搜索大多只能引导你到网上完全公开的文本。许多最高质量的信息存在于书籍和期刊中，而这些通常不在网上。GPTs 似乎实际上可以访问这些资料。普遍认为它们接受了包含数千万本书籍的整个研究图书馆的培训，或者是通过 Sci-Hub 和 Z-library 等“盗版”文档数据库获取等价内容。大型 AI 实验室对他们的训练数据保密严格，这可能是因为这些数据在版权法下的合法性存疑。文本生成器绕过了版权问题：通过改写内容，它们模糊了信息来源。不幸的是，在这一过程中，它们可能还会把原始信息扭曲成误导性信息。

分离语言能力与知识的重要性

我认为，将语言能力和知识分开处理，可以创建一个靠谱的人类语言界面，连接到一个存有大量人类语言文本的数据库。这样一来，就能消除 ChatGPT 常见的错误认知，提供更加简洁、相关且详细的答案（这一点网络搜索做不到），同时让我们能够接触到网络上找不到的书籍和期刊里的知识，而不会触犯版权问题。

首先，我会大概介绍这个方法的工作原理，再谈谈一些近期研究，显示这种方法是可行的，以及这背后的一些历史背景。我不打算深入技术细节，也不会针对为何这种方法不可行提出反驳。这不是出于安全考虑，而是因为我对这些技术方面并没有什么特别的见解。我的提议创新性不高，但任何在这个领域工作的人都能看到我所看到的相同的可能性和挑战。

过去几年，文本生成领域的研究人员一直在探索“规模假设”（scaling hypothesis），即更大的网络能带来更好的性能，而且理论上没有上限。4 许多实证证据似乎支持这一点：大多数情况下，更大的网络在基准测试上的表现更佳。最终，开发者投入了大量的计算资源和高达一亿美元的资金来训练拥有万亿参数规模的单个网络，这些网络的表现超越了仅有数百亿参数的网络。然而，到了 2022 年底，这种趋势似乎已达到了极限。

回顾过去，似乎 GPT 规模的增加之所以能改善基准测试性能，主要是因为它们以网络参数的形式，虽然有所压缩和扭曲，但实际上存储了训练时的文本。5 许多标准基准测试主要考察知识，因此存储更多接近于文本形式的知识可以提升测试性能。

我们常常将全知与智能混为一谈，因为很难想象拥有立即访问一个包含数千万本书的大型研究图书馆中最相关知识的能力是什么样的。

然而，用反向传播网络（backprop networks）来存储文本是一种代价高昂且不太可靠的方法。如果不需要浪费参数去“存储”知识，一个相对较小的网络就足以捕获完整的语言流利度。接着，它可以依靠实际的原始文本来获取所需的“知识”。

从 2020 年起，一些团队发现 GPT 在其输出中似乎在检索文本，尽管实际上并没有访问任何文本。因此，他们在 GPT 中加入了一个大型的文本数据库，可在运行时使用，以及一个语义匹配的检索引擎。6 结果证明，这种方法效果显著。

例如，2022 年 8 月，增强检索功能的 Atlas GPT 在各种“语言理解”和“知识密集型”任务上创下了新的最高精度记录，其网络仅有 110 亿参数，却超过了先前最强大的 PaLM GPT（拥有 5400 亿参数）。7 在效率上，它提高了五十倍。

这说明，更大网络性能的提升很大程度上归功于吸收了更多的文本。增强检索的 GPT 成为了一个成功案例，支持了我之前提出的计划：用基于算法层面理解的工程化解决方案来替换部分反向传播网络，使它们更高效、更易于解释和更可靠。我描述的

将这种方法发挥到极致，我们似乎没有理由允许网络中保留“知识”。我们应该致力于消除它！理想的情况是，我们需要的是一个仅基于检索的系统，而不是一个检索增强的系统。一个流畅而不具备知识的文本生成器能够可靠地从其文本数据库中提取并概括相关内容，从而避免产生“幻觉”。它还可以引用它所使用的文段，使我们能够评估这些文段的质量和相关性。8

文本生成器目前仍然不适合商业用途的一个原因是，它们的输出可能基于大量不明确的内容。比如，在一个太字节数据中找到的任何信息。客户服务聊天机器人应当能够可靠地仅依赖于公司特定数据库提供答案。这种架构似乎是可行的。很多公司正在尝试使用检索增强技术，但除非生成器完全不涉及原始训练数据，否则其输出将不可预测地基于原始训练文本、检索文本以及这两者的混合。

检索增强系统的一个优势在于，文本数据库可以以极低的成本进行更新，基于检索的输出能立即反映这些变化。相较之下，要在标准的 GPT 中修正错误的、不必要的或过时的“知识”，至少需要进行“微调”（部分重新训练，成本非常高），甚至可能需要完全重新训练（代价高昂）。

然而，检索增强的更新能力是有限的，因为输出只部分基于检索文本。在一个纯检索的系统中，您可以完全控制输出所依据的“知识”，并且几乎不需要任何成本。

为什么这个方法还不普及？

如果这是一个非常好的想法，为什么现在还不是人人都在实践呢？单纯依赖检索的概念似乎非常直观。我在 2022 年 10 月就提出过这个概念，9 但据我所了解，没有其他人提出过这种想法，更别说实际操作了。10 即使是增强检索功能，相比于它的潜在好处，目前也显得使用不足，这一点我也感到困惑。

也许过分依赖检索不是个好主意，可能我忽略了某些问题。或者，我想到了两个可能的原因，解释为什么这个方法没有被广泛采纳。我将介绍一个技术层面的原因和一个公共关系层面的原因。

技术上的问题主要是运行时的计算成本。一个不那么复杂的纯语言 GPT 模型，相比现在普遍使用的大型模型，其训练和运行成本要低得多。但是，从一个达到兆字节级别的文本数据库中进行语义检索，会带来额外的计算开销。我阅读的一些资料对此提供了相互矛盾的观点：一些观点认为这个开销远低于 GPT 的运行成本，而另一些观点则认为它更高。11 此外，文本数据库的大小如何影响成本也是一个未知数。

这个问题可能是个难以克服的挑战。然而，目前针对这个问题的优化努力还不够。通过改进算法或对现有算法进行更快速的实现可能会有所帮助。如果这些方法行不通，可能需要考虑采用不同的硬件架构。GPT 运行和检索的基本操作完全不同。神经网络的计算主要依赖于低精度的乘法运算，而当前的 AI 超级计算机通过特制硬件来进行优化。相比之下，语义检索则依赖于一个巨大的倒排文本索引，这种索引把文本的“含义”（即在潜在空间中的位置）映射到相应的文本片段上。其计算成本主要由访问存储这个索引的 RAM 所主导。由于检索过程极易于并行处理，因此最佳的架构可能需要使用大量带有高带宽 RAM 总线的 SIMD 处理器。12

无论如何，增加的计算成本可能是值得的，因为它带来的安全性和可靠性是单纯依赖 GPT 无法比拟的，即使成本更高。

另一个原因是，主要的 AI 实验室可能没有选择仅依赖检索的方法，因为这似乎与他们创建通用人工智能的目标相悖。通过使用“指令调整”，13 加上一个复杂且保密的“系统提示”，一个庞大的 GPT 可以被引导去执行许多不同的任务。这样一来，就可以宣称他们是通向全能超级智能之路的领军者。而不是这些项目的实用性，恰恰是这种宣称成为了对这些大型 AI 实验室巨额投资的基础。

仅依赖检索的范式可能并不适用于人们目前利用 GPT 执行的所有任务。虽然这种方法可能适用于一些任务，但不一定适用于全部。例如，一个在语言上表现出色但知识贫乏的系统可能能够为其文本数据库或 API 提供一种对话式的“聊天”界面。但它可能无法在缺乏详细规范的情况下撰写标准文本（这是 GPT 目前的一大应用领域），也可能无法完成创作故事或头脑风暴等“创造性”工作。

这实际上是一个好现象。比起全能的通用人工智能，那些能够可靠地完成特定任务的“工具型 AI”更安全，更有可能带来正面的效益。

单纯依赖检索的系统，可能只会被看作是升级版的搜索引擎。（“看看谷歌搜索，它不就实现了这个吗？有时它通过语义匹配从网上检索信息，还用 GPT 来汇总结果。”）但在我看来，这种技术上的平淡反而是优点。

我相信，大多数人更倾向于使用一个简单、可靠的软件去完成单一任务，而不是选择一个复杂的技术产品，那种产品虽然看似惊艳，却做着大量难以明确的事情，而且经常出现表面正确实则错误的结果。

有人担心 GPT 可能很快就会变得神秘且异常聪明，甚至现在已经令人担忧，但这种担心并不适用于一个基本功能的总结引擎。这种引擎在其功能上有明确的局限性。而且，这种局限性将大幅减小 GPT 的规模，使得我们更容易对其进行分析、理解和验证。

如何制造一个“无知”的 GPT

制造一个完全无知却有用的 GPT 几乎是不可能的，同样，制造一个完全可靠且不产生幻觉的 GPT 也几乎不可能。我在这里提出的方法可能有所帮助，但 GPT 终究还是 GPT，而 GPT 们仍然是 错误之物。

世界知识和语言能力之间的界限并不明确。纯粹依赖检索（Retrieval-only）是一种理想，但实际上是不可行的。语义消歧通常需要依赖事实知识，因此一定程度的知识包含是必要的。因此，并没有一个明确的标准来决定什么应该被排除，尽管大多数情况下还是比较明显的。例如，“谁在 1909 年世界系列赛中为获胜队投球”这样的问题就不应该出现在 GPT 中。

我相信，完全不同的方法可能会有序地生成语言（而不是半随机地预测可能的续集）。这一直是 AI 研究的目标，直到几年前 GPT 意外地展现出了惊人的能力。我认为这不是不可能的，尽管目前尝试的方法效果并不理想。正如之前所提，我不会进一步讨论这个问题，部分是出于安全考虑。

GPT 存储了大量的世界知识，远远超过它的语言知识。因此，简单地限制网络大小就是制造“无知”的一种方法。然而，经验表明，小型网络（最多约七十亿参数）在大型文本数据库上的训练效果并不理想，它们的语言能力较差。它们在表达能力上有限制，不仅仅是知识量上的限制。

在对大型文本数据集进行训练时，GPT 不清楚自己是应该记忆文本还是学习语言模式，所以它做了这两件事，但主要是前者。要创造一个无知但语言流利的 GPT，我们需要让它更偏向于学习语言而不是内容。

TinyStories 项目证明了这一目标的可行性。14 研究人员训练了小型 GPT，只在包含幼儿园级别故事的合成文本数据库上进行训练，这些故事的词汇和主题受到限制。这些系统产生了流畅、连贯的故事，语法几乎完美，并展示了类似大型 GPT 的“推理”能力。这些系统大约只有一千万个参数，比“小型”GPT 少了三个数量级，比当前大型系统小了五个数量级。这证明了当小型 GPT 被刻意训练以提高能力而非记忆时，它们的潜力是巨大的。然而，TinyStories 文本数据库的词汇和语法都相对简单。

研究人员随后进行了一系列研究，训练小型 GPT 在复杂、高质量的文本数据库上。过去，由于 GPT 主要作为 语言模型，所以被训练在任何来源的语言上，大多来自互联网。但由于 GPT 学习效率极低，因此需要大量文本。不意外的是，它们从如政治论坛争议等来源学到了许多错误的事实和不良行为。现在越来越明显的是，文本的质量比数量更重要，这也是为什么规模假设越来越站不住脚的原因。

在“只需要教科书”和其他研究中，15 研究人员展示了小型 GPT 在高质量文本上的训练表现，它们在“语言理解”和“常识推理”测试中的表现与大一个数量级的主流 GPT 相当。这些数据集是高质量网络文本和旨在涵盖“常识知识”的合成文本的混合体。16

这意味着我们可以尝试训练一个最小规模的 GPT，使用一种特殊设计的合成文本。这种文本涵盖了主要研究图书馆中的全套词汇和语言结构，但刻意简化了事实内容。这样做能够同时实现语言精通和避免过多知识积累的目标。虽然构建这类文本是一个颇具挑战的研究项目，但并非完全不可行，也不会特别困难。

另一种方法是调整训练过程，让它更多地寻找语言模式，而不是仅仅存储信息内容。虽然具体实现的方式不太明确，但这并不意味着这样做非常困难或不可能。

版权问题与无知检索系统

无知检索和总结系统在版权法面前遇到的挑战与那些拥有丰富知识的 GPT 类似。但它们可能带来一种解决方案，这是传统 GPT 无法实现的。

大型 GPT 通常是在版权保护的文本和图像上进行训练。目前，许多作者和出版商因为这种做法侵犯版权而提起诉讼。由于相关的立法和案例法尚未明确，再加上“合理使用”原则本身不够清晰，诉讼结果充满不确定性。17 法院可能会有两种极端判决：一种是认定任何训练中使用的版权文本都违法，另一种则是认为这些做法属于合理使用，即便 GPT 有时会逐字复制版权作品。但法院可能更倾向于某种中间立场，目前尚无定论。

AI 公司可能主要依赖版权法中“转化性”这一方面来进行辩护。他们可以主张，GPT 很少完全复制版权材料，而且还可以采取技术手段进一步防止这种情况。但是否通过自动改写来实现足够的转化，从而避免侵权，还有待商榷。这对于无知系统来说也是一个问题，因为它们生成的内容可能更接近原文。

对 AI 公司来说，一个实际的非法律防御策略是，通常难以确定哪些文本影响了大型 GPT 的输出。因此，声称版权侵犯的原告难以证明其主张成立。（例如，“我们确实用您的书来训练 GPT，但您无法证明在具体某个情况下，GPT 依赖它产生了涉嫌侵权的内容。可能是基于类似的其他书籍，或者是您的书的第三方总结，比如书评。”）但这种防御策略不适用于基于检索的生成，因为其确切来源是可知的。

然而，这正好为基于检索的系统提供了一种实际的防御机制，这是目前主流系统所不具备的。这些系统可以向用户提供生成内容所依据的来源链接。有时，用户可能会因此购买链接中的版权作品。这种做法暗示了一种双赢的可能性。

这种情况与 Google 图书类似。Google 图书搜索数千万版权作品，并免费展示它们的“片段”。2005 年，作者和出版商因此提起侵权诉讼。Google 花费数年时间与原告合作，达成了一项财务协议，补偿因用户阅读免费片段而不购买整书造成的收入损失。经过十年的临时和解后，法院最终支持 Google，认为展示片段属于合理使用。18

尽管技术上输了，作者和出版商实际上可能仍然获益。用户经常会因为阅读片段而购买书籍，这些片段实际上起到了免费广告的作用。19

对用户、AI 公司、作者和出版商都有利的交易方案如下：

基于检索的系统可以在其数据库中包含所有版权作品，并以此为基础生成内容；
只要它们不输出超过片段长度的内容，这就构成了合理使用；
或者，运营这些系统的公司可能需要按照协商、立法或法院确定的标准，向版权持有者支付版权费用；
这些系统有义务公开用于任何输出的来源，并在版权持有者提供时附上购买链接。

See all posts