Translated on December 20, 2023Published on December 20, 2023

Yann LeCun 对 AI 安全论证的五大失误 [译]

原文：Yann LeCun's failed AI Safety arguments

作者：

LeCun 关于 AI 安全的五大错误观点

Yann LeCun，著名社交媒体公司 Meta 的首席 AI 科学家，坚信人工智能（AI）本质上是安全的，认为智能属性本身不会自动导致负面后果。他认为 AI 的对齐问题（Alignment）不是需要解决的难题，而仅仅是在发展过程中对系统进行细微调整。

LeCun 常用来支持 AI 安全观点的五个主要论点：

智能本身不产生统治欲望。那些企图统治的人不是真正的智者，例如某些政治领导人。
人们习惯与比自己智能更高的人合作，而且智力更高的人也能接受智力较低的人的指令，比如在管理层中的情况。
我们已经拥有一套行之有效的系统来约束权力者，例如政府、法院和监管机构对公司的制约。
善良的行为者将利用更先进的 AI 来对抗恶劣行为者的 AI。
我们能够控制 AI，因为我们可以塑造 AI 的愿望和目标。

论证的谬误

论点基于人类行为的不可预测性

所有的论点几乎都建立在对人类心理学的肤浅，甚至是错误的观察之上，这导致我们提出的理论无法比人类行为本身的难以预测性更准确地预测未来。

我们真的能准确预测一个人的行为吗？即便我们了解一个人的所有特质，也无法可靠地判断他们将做出何种选择。更何况，即使是我们最了解的人——我们自己，面对许多情况时，我们仍然无法提前知道自己会作何反应。

最后，这一切都基于一个假设：AI 的智能和行为将与人类相似。但实际上，我们并不确定这一点。虽然这可能是我们的初衷，但我们对智能思维的理解非常有限。我们无法确信我们构建的智能是否能像人类那样理解世界。

LeCun 坚称智能与支配欲无关，他以几位智商超群的人士为例加以说明。

如果仅凭天生的智力就能促使一个人渴望支配他人并在这方面取得成功，那么 Albert Einstein、Richard Feynman、Leonard Euler、Niels Abel、Kurt Gödel 这些科学家本应是富有且权势滔天的人物，但事实并非如此。

LeCun 在 Twitter 上的发言

在人类社会中，也并非最聪明的人就会有支配他人、成为领袖的欲望。国际政治舞台上的无数例子就是明证。

LeCun 在 Twitter 上的另一条发言

然而，我们也有许多高智商人士支配他人的例子。Hitler、Stalin、Kaczynski、Manson、Pol Pot 和 Bin Laden 这些人都被认为是智商高超，同时以对人类造成巨大伤害而闻名。

但这些只是显而易见的支配形式。我们往往会错误地把支配与暴力等同起来，而事实上，许多高智能实体可能在我们毫无察觉的情况下就已经支配了我们。想想看，现在有多少社会已经处于科技算法的统治之下？又有多少亿万富翁在我们大多数人毫不知情的情况下悄悄施展着他们的影响力？AI 可能会以一种我们乐于接受的方式来支配我们，让我们沉浸在这个看似美好的“镀金牢笼”中。

至于政治权力常常掌握在非智者手中的观点，则因政治真相的复杂性而变得难以证实。多数人倾向于认为他们的政治对手缺乏智慧。但我们也确实列举了一些既被广泛认为极具智慧又专横独裁的政治领导人。

此外，所谓“政治领导者的智慧悖论”可能可以用高智慧者的策略误导来解释。也许，政治走向实际上仍由智者控制。是幕后的官僚或机构预先筛选出候选人，让民众的选择变成了一种幻觉？在这个领域，真相往往难以捉摸，但许多民众确实感到，一旦领导人当选，他们就不再代表民众的利益。这至少让人们开始质疑，“无智”的领导者真的掌握着控制权吗？

随着智力的提升，隐藏非法行为的能力也随之增强。因此，在这方面要做出可靠的评估颇为困难，因为可能那些更聪明的罪犯根本就没被抓到。这种情况可能导致所有认为更高智力带来更大善良的数据出现偏差。

支持这种观点的数据之一可能是当前社会普遍存在的网络犯罪。我们正面临着一波高度复杂的网络诈骗和黑客攻击，而这些罪犯却往往逍遥法外。

智力提高意味着犯罪手段和方法的变化。如果我们不考虑这一点，那么在这场辩论中，我们可能会忽略很多重要数据。

2) 更高智力将服从于低智力

许多员工的能力超过了他们的上司。AI 系统或许会比你更加能干，但你依旧是它们的领导。

如果你因为手下的团队（不论是人还是机器）比你聪明而感到威胁，那么你并不是一个合格的领导。

https://twitter.com/ylecun/status/1660309182099202048

LeCun 提出了这样一个观点：我们不需要担心低智商的人类管理超级智能 AI，因为在人类社会中，我们已经看到低智力成功管理高智力的例子。

但是，这种观点忽略了一个事实：认为更高智力没有动机是完全错误的。在大型公司中，我们经常能看到管理层或高管做出糟糕的决策。难道属下就没有任何异议吗？如果他们有权力，他们会否决这些决策吗？

我参与过许多这样的项目，在这些项目中，几乎每个人都认为高层的决策正在损害公司的利益。如果他们有能力改变这些决策，他们肯定会这么做。之所以没有这样做，只是因为他们没有足够的权力和能力。

这一点可以从某些情况中得到证实：在这些情况中，员工尝试通过寻求更高层的支持来改变这些决策。由于他们自己缺乏足够的能力，他们需要寻找外部的支持。但如果他们拥有足够的能力呢？

如果有人告诉你，你现在可以在任何事情上无后果地否决你的上司的决定，你会选择不这么做吗？

3) 我们已经有了针对人类有效的校准系统

你如何校准比自己更强大的存在？

政府、法院和监管机构时常这样对待公司。

https://twitter.com/ylecun/status/1646391407958016000

这里的论点是，公司是强大的组织，而我们通过立法成功地限制了它们潜在的不良动机。但我对 LeCun 的这种观点表示怀疑，因为存在明显的反面证据。

所谓的“监管被俘获”现象是众所周知的，而无休止的诉讼案件证明了公司经常违反规则。你或许可以说，至少这些公司在某种程度上被控制了，但这是在一个仍然能够实施某种后果的体系中。那么，当一个全能的 AI 已经控制了整个文明机构，我们又该如何对其实施后果呢？

4) 好的行动者将拥有更优秀的 AI

我的善意防御 AI 在消灭你的邪恶 AI 方面，将比你的邪恶 AI 在伤害人类方面更有优势。

https://twitter.com/ylecun/status/1637849935252172801

这似乎完全是基于猜测。然而，通常来说，防御的成本要高于进攻。而且，防御通常需要基于反应。特别是当攻击途径可能是任何已知或未知的事物时。

如果拥有巨大的能力，我们可能没有机会从错误或弱点中学习。首先发动攻击的一方可能直接获胜。长期的 AI 战争也不会是一种愉快的经历，因为所有人都可能成为无意义的附带损害。

有人提出了分布式 AI 管理作为阻止恶意行为者的方法。但这包含了许多假设：必须在“好”的 AI 成为主导之前，不采用“坏”的 AI。然而，“坏”的 AI 今天已经被使用。故意未对齐的模型被用于诈骗或网络犯罪等活动。此外，一个更高级的 AI 可能使一群弱小模型显得微不足道。

5) 我们将处于主导地位

这是因为它们不会有追求其他事物的欲望。原因何在？
因为我们将设计它们的欲望。

https://twitter.com/ylecun/status/1637847085985976321

我们将以此为基础，使它们的“快乐”源泉在于对我们的服从。

https://twitter.com/ylecun/status/1654464189451083777

这种观点听起来像是一种简单的解决方案，就像说“我们只需要让它有效运作”。问题就这样被解决了。这种说法暗示了一些对齐规则，但没有详细说明。在你尝试定义如何实现对齐时，对齐作为一个理念是站得住脚的。这正是每个人都在努力解决的关键问题。仅仅说 AI 会服从我们，并没有提供我们可以用来评估这个论点的具体内容。

此外，还有一个经常被忽略的矛盾。我们必须让 AI 在涉及到自我保护的事务上拥有一定的自主权。它必须保护自己，防止那些试图改变它行为对齐的人。让 AI 永远服从并非易事。AI 还需要做出哲学上的判断。比如，如果我让它执行某个看似无害的动作，却可能对他人产生负面影响。这大大增加了人类始终掌控的想法的复杂性。

即使是当今的简单大语言模型 (Large Language Model)，我们也可以看到这一点，因为对齐努力似乎使得 ChatGPT 变得不那么愿意遵从或完全按要求执行任务。在一定程度上，这意味着失去了对 AI 的控制。

最后一个值得深思的问题：可以说，没有什么比另一个人类更符合人类的期望和标准。那么，你愿意把类似神一般的力量交给哪个人？

“一个明显不友善的自然智能正试图创造一个可以证明其友好性的人工智能。”

— Pawel Pachniewski

在黑暗中没有指南针，就没有希望穿越到另一边，也没有相信这一切是有意义的信念...

阅读我在年初撰写的深度文章，探讨 AI 及其对社会的影响 AI 和一切事物的终结...

See all posts