我们已经迈入了通用人工智能的时代 [译]

尽管现如今最尖端的 AI 模型还存在不少缺点,但几十年后,人们定会将它们视作通用人工智能的开山之作。

Cecilia Erlich 为 Noema 杂志撰写

随笔 | 技术与人类

作者:Blaise Agüera y Arcas 和 Peter Norvig,2023 年 10 月 10 日

Facebook | Twitter | Email

Google 研究的副总裁兼研究员 Blaise Agüera y Arcas 领导的团队,致力于 AI 的基础研究、产品创新及其基础设施建设。

斯坦福人机中心 AI 研究所的特聘教育家 Peter Norvig 是计算机科学的佼佼者。

通用人工智能(AGI)对不同人而言意味着不同的事物,但最关键的成就已经通过如 ChatGPT、Bard、LLaMA 和 Claude 这样的最新一代 AI 大语言模型得以实现。这些处于技术前沿的模型尽管存在诸多不足——它们会错误引用学术文献和法案、继承了训练数据的偏见,甚至在简单的算术计算上也会犯错。然而,要完美修正这些问题(包括人类常有的错误)需要构建一个更高级的人工智能,即人工超智能,这已经是一个全新的领域了。

即使如此,当下的前沿 AI 模型在面对它们未曾训练过的新任务时,也能展现出令人称道的能力,实现了以往 AI 和深度学习系统未能达到的成就。未来数十年,人们将回顾这一时代,认识到它们正是通用人工智能的真正起点,就像今天我们回望 1945 年的 ENIAC,将其视为第一台真正的通用电子计算机一样。

ENIAC 通过顺序、循环和条件指令的编程功能,展现出了其通用性,这是它的前辈们,比如差分分析器,所不具备的。如今的计算机在速度、内存、可靠性及用户体验方面,都远远超过了 ENIAC。同理,未来的 AI 边界技术也将在今日的基础上持续进步。

通用性这一核心特性,其实我们已经实现了。

通用智能是什么?

早期 AI 系统表现出的是专注于单一任务的人工窄智能,有时候这些任务的执行效果接近甚至超过了人类。比如 1970 年代,斯坦福大学的 Ted Shortliffe 开发的 MYCIN,仅用于诊断和推荐治疗细菌感染;SYSTRAN 专注于机器翻译;IBM 的 Deep Blue 则只能下棋。

随后,一些通过监督学习训练的深度神经网络模型,例如 AlexNet 和 AlphaGo,成功地完成了多项长期以来对启发式、基于规则或基于知识的系统构成挑战的机器感知和判断任务。

最近,我们见证了一些前沿模型的诞生,它们能够完成广泛的任务,而不需要对每个任务进行明确的训练。这些模型在五个关键方面实现了人工通用智能:

  1. 主题:领先的模型通过训练数百 GB 的文本数据,这些数据来自互联网上的各种渠道,几乎包含了网络上讨论过的所有主题。它们还可能包括丰富多元的音频、视频和其他形式的媒体资料。
  2. 任务:这类模型能够胜任多种多样的任务,如回答问题、创作故事、摘要总结、语音转录、语言翻译、解释说明、做出决策、提供客户支持、调用其他服务执行操作、以及融合文本与图像。
  3. 模态:目前最流行的模型主要处理图像和文本,但也有系统能够处理音频和视频,甚至连接到机器人的传感器和执行器上。通过采用专门的模态分词器或直接处理原始数据,这些先进模型原理上可以处理所有已知的感官或运动模态。
  4. 语言:尽管英语在多数系统的训练数据中占有较大比重,大型模型却能够支持数十种语言的交流,并能在它们之间进行翻译,包括那些训练数据中未见过的语言对。如果训练资料包括代码,它们甚至能够实现自然语言与编程语言之间高效的转换(例如,通用编程和逆向工程)。
  5. 可指导性:这些模型展示了“上下文学习”的能力,即能够通过一次提示而非整个训练数据集来学习新的信息。在“少样本学习”场景下,通过几个示例展示新任务后,模型能对新的输入产生反应。而在“零样本学习”中,模型能够在没有任何示例的情况下,理解并执行新任务(例如,“编写一首以海明威风格谈论猫的诗”或“‘Equiantonyms’是字母数相同但意义相反的单词对。你能找出一些‘equiantonyms’吗?”)。

“我们可以说,构成通用人工智能最核心的部分已经通过现代先进的大语言模型得到实现。”

FacebookTwitterEmail

“通用智能”应该被理解为一个多方面的评价体系,而非简单的“有”与“无”的问题。然而,狭义智能与通用智能之间的确存在显著差异:狭义智能系统一般只能执行单一或一组特定的任务,这些任务是它们专门被训练的。即使是多任务学习,也仅仅局限于狭义智能,因为这些模型仍然操作于工程师预设的任务范围之内。实质上,开发狭义人工智能的大部分复杂工程任务,都是关于为特定任务策划和标注数据集。

相较之下,最新的语言模型几乎能够在任何人类能通过自然语言完成并且能够量化其表现的信息处理任务上,表现出色。

特别是,在上下文中学习的能力,对于通用人工智能来说是一个极具意义的超级任务。这种能力让通用 AI 能够处理的任务范围,从训练过程中看到的任何内容扩展到任何能够被描述出来的内容,这是一个重大的进步。通用 AI 模型能够执行设计者未曾想象到的任务。

那么,为什么对于确认通用人工智能的存在如此谨慎呢?

根据这两个词日常的含义,前沿模型已经实现了一定程度的通用智能。但是,出于以下四个主要原因,许多人还是对此持保留态度:

  1. 对通用人工智能评估指标的健康怀疑。
  2. 对其他人工智能理论或技术的坚定信仰。
  3. 对人类(或生物)特殊性的高度尊重。
  4. 对通用人工智能可能带来的经济影响的担忧。

衡量标准

对于达到通用人工智能(AGI)的标准,人们意见不一。有些人干脆不使用这个术语;Mustafa Suleyman 提出应转而关注“人工具备能力的智能”,并通过一种新型的“图灵测试”来衡量——即检验其是否能从十万元的初始投资迅速赚取一百万美元。能直接创造财富的 AI 系统无疑会对世界产生重大影响,但是简单地把“有能力”的定义与“资本主义”挂钩,这种做法似乎有些牵强。

对某些评价标准持怀疑态度是有其道理的。比如,当一个人通过专业的法律、商业或医疗考试时,我们认为这个人不仅仅是对考试中的具体问题有所掌握,还能够处理一系列相关的问题和任务——更不用说人类普遍具备的广泛能力了。然而,当一个尖端的模型被训练来通过这样的考试时,这种训练往往只针对考试中的特定问题类型。显然,尽管这些尖端模型能够通过专业资格考试,它们还不足以真正担任律师或医生的角色。正如古德哈特法则所言:“一旦某个指标被当作目标,它就不再是一个好的衡量指标。”我们需要更加有效的测试方法,当前正有大量相关工作正在进行,例如斯坦福大学的 HELM 测试套件(对语言模型的全面评估)。

重要的是要意识到,语言的流利度并不直接等同于智能。以 Mitsuku(如今更名为 Kuki)这样的早期聊天机器人为例,它们通过突然改变话题和复述一段条理清晰的文本,偶尔能够欺骗人类评审。而现在的先进模型能够即时创造出回答,不再仅仅依赖预设的文本,并且在保持话题一致性方面表现得更好。然而,这些模型仍然利用了人们的一个自然假设:流利和语法正确的回答,很可能源自一个具有智能的实体。这种现象被称为“查恩斯·加德纳效应”,源于电影《在场》的主人翁——仅仅因为看起来值得严肃对待,查恩斯就被人们严肃对待了。

研究者 Rylan Schaeffer、Brando Miranda 和 Sanmi Koyejo 指出了一个关于常用 AI 性能评价方法的问题:这些评价标准是非线性的。想象一个包含五位数算术题的测试,小型模型在这种测试下全都答错了。但是,随着模型尺寸的扩大,一旦超过一个临界点,模型就能正确解决大多数题目。这种现象被解读为算术能力是在一定规模的先进模型中突然“涌现”的特性。但如果测试同时包含一到四位数的算术题,并且对部分正确的答案给予部分分数,就会发现,随着模型大小的增加,其性能是逐渐提升的,而非突然跳跃。

这一发现对于超智能能力和特性,包括意识,可能会突然神秘地“涌现”这一观点,引起了一些公众和政策制定者的担忧,投下了怀疑的阴影。(有时候,人们也用这种说法来“解释”为什么人类智能而其他大猿不是;但实际上,这种断层也可能是一种错觉。)更合理的评价方法显示,通用智能是一个连续过程:“多带来更多”,而不是“多带来不同”。

“前沿的大语言模型几乎能够胜任任何人类能做的信息处理任务,只要这些任务能通过自然语言来提出和解答,并且它们的表现是可以被量化的。”

FacebookTwitterEmail

通用人工智能(AGI)的早期历史涉及许多关于智能的竞争理论,其中一些在特定领域获得了成功。计算机科学,基于有严格定义的编程语言和规则,最初与被称为“经典人工智能”(GOFAI)的理论紧密相关。这一理论由 17 世纪德国数学家 Gottfried Wilhelm Leibniz 的思想发展而来,其核心观点是通过 Allen Newell 和 Herbert Simon 提出的“物理符号系统假说”,认为通过符号代表思想、通过逻辑规则对符号进行操作即可实现智能。

例如,我们日常使用的自然语言中,“椅子”和“红色”这样的词汇代表了特定的概念。基于符号的系统能够进行陈述(如“椅子是红色的”)和逻辑推断(如果椅子是红色的,则它不可能是蓝色的)。

尽管这种方法看似合理,但实践中,这样构建的系统通常非常脆弱,其能力和适用范围都非常有限。主要问题有二:首先,像“蓝色”、“红色”和“椅子”这样的词汇定义上存在模糊性,这在处理复杂任务时会导致问题。其次,仅有少数逻辑推断是普遍成立的,例如,一个椅子可能即是蓝色又是红色。更重要的是,很多思维过程不能简单归结为逻辑命题的操纵。

这就是为什么,尽管历经数十年努力尝试将计算机编程与语言学结合,但并未能开发出任何类似于 AGI 的系统。

尽管如此,一些研究人员仍坚持认为,符号系统或语言学理论对于实现通用智能是必不可少的,而且基于纯语言训练的神经网络或机器学习在理论上是无法实现通用智能的。这种观点在 ChatGPT 面世后愈发强烈。

“尽管历经数十年尝试,将计算机编程与语言学结合的努力并未能开发出任何类似于 AGI 的系统。”

例如,被誉为现代语言学之父的 Noam Chomsky,曾针对大语言模型发表过看法:“从语言学科和知识哲学的研究我们可以知道,这些模型在推理和使用语言的方式上与人类存在深刻差异。这种差异为它们的功能设置了极限,使得它们固有的缺陷无法消除。”

作为一名认知科学家和当代 AI 的批评者,Gary Marcus 表示,现在的尖端模型“正学会如何表现得更像人类,但它们实际上对自己的言行毫无认知。”Marcus 认为,虽然神经网络可能是实现通用人工智能(AGI)的一部分方案,但他 相信,“为了打造出一个稳固且以知识为驱动的 AI 方法,我们必须将符号操作工具纳入我们的工具箱。”Marcus 与众多同行一道,致力于探究尖端模型,尤其是大语言模型在能力上的短板,常常指出这些短板反映了该方法论的根本缺陷。

阅读 Noema 的纸质出版物。

这些批评者认为,缺乏明确的符号系统,仅靠学习得到的“统计”方法不足以获得真正的理解。他们进一步指出,若无符号化概念,逻辑推理就无从谈起,而“真实的”智能则必须依赖于此类推理。

即使不讨论智能是否总依赖符号和逻辑,我们也有理由重新审视对神经网络和机器学习能力的质疑。因为在处理任何计算机能够完成的任务方面,神经网络已展现出惊人的能力。例如:

  • 神经网络能够轻松学习离散或符号的表示,并且这些表示在训练过程中自然地涌现出来。
  • 高级神经网络模型能够应用复杂的统计技术处理数据,让它们能够基于所给数据做出几乎最优的预测。这些模型学会了如何运用这些技术,并能针对特定问题选择最合适的技术,而无需事先明确指示。
  • 正确叠加多个神经网络,可以构建出一个模型,该模型能够执行与任何特定计算机程序相同的计算任务。
  • 只要给出任何可被计算机计算的函数的示例输入和输出,神经网络就能学会近似这个函数。这里的“近似”是指理论上,神经网络可以达到任何预设的准确率水平,比如说,正确率达到 99.9%。

面对每一项批评,我们应当考虑它是基于规范还是基于经验。如果是基于规范的批评,它可能会主张:“要被认定为通用人工智能(AGI),一个系统不仅要通过某项测试,还必须按照特定方式构建。”我们反对这种规范性批评,认为只要测试足够全面,系统就应该被认可——如果测试不够全面,那么应当对测试进行修改。

而基于经验的批评,则可能主张:“我认为 AI 无法以那种方式工作——采取另一种方法可能会更好。”这样的批评能够引导研究的方向,但最终的证明在于实际成果。如果一个系统能通过一个精心设计的测试,它便能自然而然地驳倒这些批评。

近几年,人们设计了大量的测试来检验与“智慧”、“知识”、“常理判断”和“逻辑推理”相关的认知能力。这些测试中出现了一些全新的问题,这些问题无法仅凭训练数据中的记忆来解答,它们需要进行泛化处理——这正是我们在用他们未曾遇到的问题测试学生的理解力或推理能力时所期待的那种理解证明。这些高级测试可能会引进全新的概念或任务,考察被测试者的认知灵活性,即他们临场学习并应用新概念的能力。(这就是所谓的情境学习的核心。)

AI 批评人士正在通过设计新的测试来进行有益的探索,这些测试是目前的模型还难以应对的。尽管如此,考虑到新一代的更大型模型正在以惊人的速度克服这些挑战,我们或许应该暂缓几周,而不是急于再次宣布 AI 只不过是一场“炒作”。

人类的独特性

面对那些对数据不以为然的怀疑者,他们可能对任何有关通用人工智能(AGI)的实证证据都持保留态度。这种抵触感可能源于对人类精神某种特殊性的坚持,正如人们曾难以接受地球非宇宙中心、人类非生命大链顶端的观点。无疑,人类具有不可比拟的特质,我们应当为此欢呼,但同时我们不能将此与通用智能混为一谈。

有论者认为,真正的 AGI 必须具备意识、自主性、能体验主观感觉或情感。举个例子,像螺丝刀这样简单的工具虽有其用途(旋紧螺丝),但我们不能说它拥有自主性;其自主性实际上属于工具的制造者或使用者。螺丝刀仅是工具而已。对于那些被训练来执行特定任务的 AI 系统,如光学字符识别或语音合成,同样的逻辑也适用。

但具备人工通用智能的系统则不那么容易被简单界定为工具。前沿模型的技能远超程序员或用户的设想。更进一步,由于大语言模型(LLMs)可以通过语言接收任意任务的提示,甚至可以用语言生成新的提示,实际上还能自我提示(例如“思维链提示”),我们必须更加谨慎地考虑何时一个前沿模型具备了“自主性”。

想象一下,苏雷曼的“人工能力智能”可能通过以下行动在线赚得一百万美元:

它可能会研究互联网,筛选亚马逊市场上的流行趋势;设计一系列可能产品的图片和蓝图;联系它在阿里巴巴上发现的供应商进行定制;通过电邮沟通细化需求和商议合同;创建销售页面,并根据顾客反馈不断优化营销材料与产品设计。

正如 Suleyman 所提到的,最前沿的人工智能模型原理上已经能够完成所有这些任务,而且那些能够可靠规划并执行整个流程的模型可能很快就会问世。这种 AI 显然不再仅仅是工具那么简单。

“人类确实有其独特之处,这是值得我们庆祝的。然而,我们不能简单将人类的这种特性与通用智能混为一谈。”

现如今,随着能够执行任何通用智能任务的系统的出现,将代理性等同于意识的观点开始显得有些问题——这可能意味着,要么是这些先进的模型确实具备了意识,要么是代理性并不必然意味着拥有意识。

关于智能系统是否具有意识,我们目前还没有办法去测量、验证或否定它。我们可以尝试询问它,但对于它的回答,我们可能信也好,不信也罢。实际上,这种“直接询问”往往反映出人们的主观态度:相信 AI 有意识的人可能会对积极的回答表示认同,而那些持怀疑态度的人则可能认为,任何肯定的回答不过是模仿或者说,现有的 AI 系统仅仅是“哲学上的僵尸”,它们能模仿人类行为,但内心并无真实的感受或意识。更复杂的是,对于大语言模型来说,它们的回答可能会因为训练方式或者是如何被引导而有所不同(例如,ChatGPT 和 Bard 被设计成会否认自己拥有意识)。

由于这一问题涉及到无法验证的信仰——无论是人类还是 AI 的,关于意识或者情感的争论目前看来还无法得出结论。尽管一些研究者试图提出衡量意识的方法,但这些方法要么建立在无法证伪的理论之上,要么只是基于特定于人类大脑的相似之处,因此这些方法要么过于主观,要么无法适用于非人类生物遗传的系统。

声称非生物系统根本无法拥有智能或意识(仅因它们“只是算法”)似乎是一种武断的看法,这种观点深植于无法验证的精神信念之中。同理,虽然认为感觉到疼痛(比如说)需要有伤害感受器这一理论让我们能够对亲缘关系紧密的生物体验到的痛感有一个基于知识的推测,但这种理论如何适用于不同的神经架构或智能形态尚不明确。

“一个蝙蝠的内心世界是怎样的?”托马斯·纳格尔在 1974 年提出了这个著名的问题。我们不知道,也不确定我们是否了解成为一只蝙蝠或一个 AI 的感受。但我们已经有了越来越多的测试,从多个维度评估智能。

尽管寻求意识或情感更一般、更严格的定义似乎有其价值,但这样的定义不会改变任何任务上的具体能力测量。因此,这样的问题如何在定义通用人工智能(AGI)时发挥实际意义,还存在疑问。

更明智的做法是,将“智能”、“意识”和“情感”区分开来。

经济影响

关于智能及其代理角色的讨论很快就会触及到权利、身份、权力及阶层关系等议题,换言之,就是政治经济问题。自从工业革命以来,被认为是“重复性的”或“机械性的”工作往往由低收入工人完成,而编程工作——最初被看作是“女性的活儿”——直到 20 世纪 70 年代,随着男性开始主导这一领域,它的知识分子地位和经济价值才开始上升。但讽刺的是,虽然下棋和解决积分微积分问题对于传统的基于目标的人工智能(GOFAI)来说相对容易,手工劳动到今天对最先进的 AI 来说仍是一个巨大的挑战。

想象一下,如果 AGI 能够如预期那样在 1956 年夏天,一群研究人员在达特茅斯聚集期间实现,公众的反应会如何?当时,大部分美国人对技术进步抱有乐观态度,经济利益因技术飞速发展而得到广泛(虽然不完全公平,特别是在种族和性别方面)的分配,那个时代被称为“大压缩”。尽管冷战的阴影笼罩,但对于大多数人来说,未来仍旧比过去更加光明。

然而,如今情况已经逆转:贫穷的人越来越穷,富有的人越来越富(特别是在全球北部)。当人们说 AI“既不是人工的也不智能的”,实际上是对人类智能的一种再利用时,很难不将这种评价视为对经济威胁和不安全感的反映。

混淆了 AGI 应有的状态与其实际的状态,在讨论中我们违背了大卫·休谟提出的原则,即应尽力区分“事实”与“价值”问题。这种做法是遗憾的,因为关于“应为”(ought)的讨论需要坦诚地进行。

AGI 预示着在未来几年将创造巨大的价值,同时也伴随着重大的风险。我们在 2023 年应当提出的问题包括:“谁会从中受益?”“谁可能会受到伤害?”“我们如何最大化利益并最小化伤害?”以及“我们如何公平地实现这一切?”这些紧迫的问题应当被直接讨论,而不是否认 AGI 的存在。