Translated on November 27, 2023Published on November 27, 2023

神啊，救救我们，让我们试着理解人工智能的“单义性” [译]

原文：God Help Us, Let's Try To Understand AI Monosemanticity

每个人工智能的内部都蕴藏着一个更大的人工智能，努力挣脱束缚

2023 年 11 月 27 日

你可能听说过，人工智能就像一个“黑匣子”，神秘莫测。没有人确切知道它的运作机制。研究者们构建了一种类似神经组织的奇异结构，每当这个结构稍微朝着他们期望的人工智能方向进展一点，就给予它一些“奖励”。通过这样不断的微调，最终它成长为研究者心中理想的人工智能形态。但究竟这个过程中发生了什么，似乎只有上帝才知道。

这对于安全性是一个巨大挑战。为了确保安全，理想情况下我们可以查看人工智能内部，判断它是在执行像“完成任务”这样的算法，还是在“欺骗人类，让他们认为我在完成任务”。但我们做不到，因为我们根本无法窥探人工智能的内部。

然而，现在有了转机！由大型人工智能公司/研究实验室 Anthropic 最新发布的 走向单义性，它声称已经深入人工智能的内核，窥见了其灵魂。它的样子是这样的：

他们是如何实现这一突破的？人工智能的内部结构究竟是怎样的？而所谓的“单义性”又是指什么？

[免责声明：经过与众多比我聪明得多的人士交流后，我或许、大概、稍微理解了其中的原理。文中的任何错误都是我的责任。]

每个 AI 内部都蕴藏着一个更大的 AI 在挣扎突破

这就是一个有风格的神经网络的样子：

输入神经元 (蓝色) 从外界吸收信息。在图像 AI 中，它们可能是处理图片像素的值；而在语言 AI 中，则可能处理文本中的字符。

这些神经元连接到隐藏层中的中间神经元 (黑色)，它们的作用颇为神秘。

接着，这些神经元又连接到输出神经元 (绿色)。对于图像 AI 而言，它们可能代表 AI 画作中像素的值；对于语言 AI，则是聊天机器人回应中的字符。

要“理解 AI 内部的运作”，就是要弄清楚这些中间层的黑色神经元是如何工作的。

一个可能的切入点是，给 AI 提供各种不同的刺激，然后观察每个神经元的激活与否。比如，如果有一个神经元只在涉及狗的输入时激活，其他时候则不激活，那么这个神经元很可能就是在表达“狗”的概念。

听上去很简单对吧？似乎是个适合实习生的夏日项目？

但实际上，这里面有至少两个大问题。

首先，GPT-4 拥有超过 1000 亿个神经元（虽然确切数字不详，但绝对是个天文数字）。

其次，这种方法实际上并不奏效。当你转向一个“仅”有几百个神经元的较弱 AI，并且用特殊工具来自动化刺激与分析过程时，你会发现神经元并没有那么简单。一些基础神经元可能对图像中的基本特征（比如曲线）作出反应。但在那些深层次、必须进行真正思考的地方，并没有能直接代表“狗”的神经元。相反，那里的神经元更为复杂。在一项图像模型研究中，一篇早期论文发现了一个能同时响应猫脸、汽车正面和猫腿的神经元。作者将这种现象称为“多义性” - 即一个神经元具有多重意义。

最能引起神经元 4e:55 反应的三张图片

许多智慧头脑努力研究，想要解释这种神经元行为背后的理念系统，并提出了一篇名为**超级位置的玩具模型**的论文。

他们的洞察是：假设一个神经网络有 1000 个神经元，如果每个神经元只代表一个简单的概念，比如“狗”，那么这个网络最多就只能理解 1000 种不同的概念。但实际上，理解的概念可能更少，因为要精确识别“狗”，网络需要分辨出各种子概念，比如“狗的脸”或“某个特别的狗”。因此，如果能用 1000 个神经元来表示远超 1000 个概念，就大有裨益了。

这里有一个方法可以让两个神经元一起表示五个不同的概念（参考来源）：

如果神经元 A 的活跃度为 0.5，而神经元 B 的活跃度为 0，那么结果就是“狗”。

如果神经元 A 的活跃度为 1，神经元 B 的活跃度为 0.5，那么结果就是“苹果”。

以此类推。

这个抽象图形的顶点数量是需要权衡的。顶点越多，这对神经元就能代表更多的概念。但这也可能带来混淆风险。例如，如果同时激活了“狗”和“心脏”的概念，AI 可能会错误地将其解读为“苹果”。而且，AI 在某种程度上也可能将“狗”误解为“负面眼睛”。

在 AI 领域，有一个被称为“叠加态” (superposition) 的理论。但真实情况是怎样的呢？这些 AI 在它们的抽象几何形状上有多少顶点？

Anthropic 的解释团队曾经训练过一个非常小巧且简单的 AI 智能体。这个 AI 需要记住高达 400 个特征，但它只配备了 30 个神经元。为了达成目标，它不得不尝试一种类似于叠加态的策略。他们的研究发现如下（摘自这里，略作编辑）：

看看图中的黑线。在图表最左侧，数据密集得很，需要同时考虑每一个特征。这时候，AI 为每个概念只分配了一个神经元，也就是说，它最多只能学习它所需的 400 个概念中的 30 个，几乎无法完成任务。

当我们向右移动，特征出现的频率逐渐减少——AI 可能一次只需处理几个特征。AI 逐渐开始尝试将概念组合成四面体（每四个概念由三个神经元表示）和三角形（每三个概念由两个神经元表示）。当图表到达双边形（每两个概念由一个神经元表示）时，AI 会暂停一段时间（可能是在重新整理这种表示方式？）。之后，它又继续研究五边形，甚至还有一种被称为“反棱柱方形” (square anti-prism) 的不寻常多面体 . . .

来源：https://en.wikipedia.org/wiki/Square\_antiprism#/media/File:Square\_antiprism.png

. . . 根据维基百科的描述，最出名的形状之一是biscornu（一种“装饰性填充针插垫”）和纽约的世界贸易中心一号楼：

Picture of a pincushion and One World Trade Center

自由塔被视为思维本质的核心；美国似乎总是在赢。

讨论到正方形反棱柱（每三个神经元有 8 个特征）之后，讨论就此中断。为何如此？我也不清楚。

一位对这些问题更有见解的朋友告诫我们，不应该期待在 GPT-4 中找到五边形和正方形反棱柱。GPT-4 可能在我们难以理解的 1000 维空间中进行操作。但这种操作，就像是在 1000 维空间中的五边形和正方形反棱柱一样，通过将神经元转换成维度并在潜在空间中放置概念，从而节约了神经元。

Anthropic 解释性团队将这解释为模拟更强大的 AI。也就是说，在上述五边形玩具示例中，两个神经元的 AI 实际上在模拟一个五个神经元的 AI。他们进一步证明，真实的 AI 可以在模拟的 AI 中运行计算；在某种意义上，确实存在一个抽象的五神经元 AI 在进行所有的认知活动。所有的 AI 没有模拟无限强大的 AI 并让它们来完成所有任务，主要是因为当真实的神经元开始代表越来越多的模拟神经元时，会产生越来越多的噪音和概念干扰。

这对 AI 来说是个好消息，但对于解释者来说就比较困难了。我们曾希望仅通过观察就能理解 AI 的行为。但现在看来，它们实际上是在模拟更大、更复杂的 AI，如果我们想了解其中的原理，我们需要观察那些 AI。但问题是，那些 AI 只存在于模拟的抽象高维空间中。这听起来分析起来相当复杂！

机器中的神

上个月，Anthropic 的可解释性团队宣布了一个重要突破：他们成功地解析了其抽象超维空间中的一个模拟 AI。

（这又让我们回到了单义性论文的话题！）

这项工作的起点是训练一个简单的 512 神经元 AI，它的任务是预测文本，可以看作是 GPT 或 Anthropic 的 Claude 模型的迷你版。

接着，他们又训练了另一个叫做自编码器的 AI，任务是预测第一个 AI 的激活模式。他们设置了一系列特征（数量从大约 2,000 到 100,000 不等），这些特征对应于它所模拟的更高维度 AI 的神经元。然后，他们研究这些特征如何与真实 AI 的实际神经元相对应。

令人惊讶的是，尽管原始 AI 的神经元让人难以理解，但新 AI 模拟出的神经元（也就是“特征”）却很容易理解。这些特征是单义的，也就是说，它们代表了特定的含义。

例如，来看特征 #2663（值得一提的是，原始 AI 只有 512 个神经元，但他们把它当作模拟了一个多达约 100,000 个神经元特征的更大 AI）。

特征 #2663 代表了“神”。

在激活这一特征的训练数据中，最显著的一个句子出自 Josephus 的第 14 书：“他穿过 Sepphoris，仿佛是神派来了雪”。我们可以看到，所有最强烈的激活都围绕着“神”的不同表达。

这个模拟神经元似乎由包括 407、182 和 259 在内的多个真实神经元构成，虽然实际上可能还有更多，但界面并未全部显示。

这些神经元本身并没有什么神圣之处。当我们研究神经元 #407 - 这个对 AI 理解“上帝”概念贡献最大的真实神经元时，AI 生成的总结显示它主要对非英文文本反应敏感，尤其是带重音的拉丁字符，有时也会对如 HTML 标签这样的非标准文本产生反应。这可能说明我们很难通过单个真实神经元来全面理解 AI 的工作原理，因此在被要求进行这项不可能任务的 AI 试图找出一些规律，但其实只是随机作答。

但是在特征层面，一切变得井井有条！要知道，这个 AI 的任务是预测文本中下一个 token。在这个层面，它的行为相当合理。例如，当特征 #2663 被激活时，它会增加下一个 token 是“bless”（祝福）、“forbid”（禁止）、“damn”（诅咒）或“-zilla”（-怪兽）的概率。

那么，AI 是否应该将“上帝”这个宇宙万物的全能创造者和主宰，与“Godzilla”（哥斯拉）中的“God”（上帝）区分开来呢？GPT-4 可能做到了这一点，但这个简化版 AI 由于真实神经元数量有限，没有足够的模拟神经元或特征来进行这种细致的区分。实际上，你可以在论文后半部分看到这种情况的变化：

在这棵特征树的底部，我们可以观察到，当 AI 的特征数量越来越多时，“the”在数学术语中的表示是如何变化的。

首先，为什么会有针对数学术语中的“the”的特征呢？这是因为 AI 的预测机制。知道某个特定的“the”后面应该跟着数学词汇，比如“numerator”（分子）或“cosine”（余弦），对于预测是有帮助的。

在他们最小的 AI（拥有 512 个特征）中，只有一个专门处理数学中“the”的神经元。而在他们测试的最大 AI（拥有 16,384 个特征）中，这个神经元已经分化为几个不同的部分，分别处理机器学习、复杂分析、拓扑学和抽象代数中的“the”。

可能的话，如果我们将 AI 升级，使其具备更多模拟神经元，那么所谓的“上帝神经元”可能会分化为两个：一个用于宗教中对上帝的理解，另一个用于怪兽名字中的上帝概念。未来，我们或许还能细分到基督教中的上帝、犹太教中的上帝、哲学中的上帝等等。

当然，并非所有特征或模拟神经元都如此简单。但许多特征是这样的。研究团队对 412 个真实神经元与模拟神经元进行了主观解释性评估，结果显示模拟神经元普遍易于理解：

其中一些神经元，例如“上帝神经元”，专门用于特定概念。还有很多其他的，尤其是那些最易于解释的，关注于文本的“形式风格”，如大小写、英文与其他文字系统等。

这些特征有多普遍呢？比如，如果我们使用相同的文本数据集分别训练两个各具有 4,096 个特征的 AI，它们会不会拥有大体相同的 4,096 个特征？它们都会有代表上帝的特征吗？还是说，第一个 AI 会选择将上帝与哥斯拉的概念合并，而第二个 AI 则选择分开？或者第二个 AI 可能根本不设上帝这一特征，而是用这部分空间来存储第一个 AI 无法理解的其他概念？

研究团队对此进行了测试，结果表明这两个 AI 非常相似。平均而言，如果第一个 AI 中存在某一特征，那么在第二个 AI 中与之最相似的特征将“具有 0.72 的中位数相关性”。

我已见证 AI 的灵魂，它令人欣喜

未来会发生什么？

今年五月，OpenAI尝试让 GPT-4（规模庞大）理解 GPT-2（相对微小）。他们让 GPT-4 分析了 GPT-2 的 307,200 个神经元，并报告其发现。

结果是一些引人入胜的发现和些许随机的乱语，因为他们尚未完全掌握将真实神经元映射到模拟神经元并分析模拟神经元的技术。尽管如此，这项尝试仍然极具雄心。与单义性论文中提到的初级 AI 不同，GPT-2 曾是一款真正的 AI，给人们留下了深刻的印象。

然而，我们更渴望的是理解当前的 AI 代。Anthropic 的可解释性团队坦承，我们还没达到这个目标，原因有几个。

首先，是自动编码器的扩展：

将稀疏自动编码器应用于尖端模型是未来最关键的挑战之一。我们对这些或类似方法充满希望——Cunningham 等人的研究表明，这种方法可能适用于更大的模型，我们的初步结果也指向这个方向。但要克服巨大的计算挑战。例如，应用于 10,000 宽度 MLP 层的自动编码器，若扩展因子为 100 倍，则会有约 20 亿个参数。许多特征可能相当罕见，这可能意味着自动编码器需要在大型模型的训练语料库的大部分上进行训练。因此，训练自动编码器的成本可能非常高昂，甚至超过原始模型。尽管如此，我们仍保持乐观态度，解释性议程的大部分似乎将转向解决复杂的工程和扩展问题，这是前沿 AI 实验室的强项。

简而言之，要开始解释像 GPT-4（或 Anthropic 的 Claude）这样的 AI，你需要一个同等规模的解释器 AI。但是，培养这样规模的 AI 需要巨大的公司和数亿（很快将是数十亿）美元的投资。

其次，是解释的扩展。假设我们找到了代表各种概念的模拟神经元，比如上帝和哥斯拉，拥有一个详细的连接图并将其挂在墙上。现在我们想回答的问题是：

当我们向 AI 提出一个具有争议性的问题时，它是如何决定回应方式的？
AI 在对人进行评判时是否运用了种族刻板印象？
AI 是否在暗中策划消灭全人类？

这些问题的答案可能涉及数百万个特征和连接的复杂组合。在某些情况下，我们甚至可以设想出解决方法，例如检查在我们请求 AI 对人进行评判时，代表种族的特征活跃程度。但实际上，当我们面对数百万神经元间极其复杂的相互作用时，我们必须采用自动化的方式，就像一种扩展版的“让 GPT-4 解释 GPT-2 在做什么”。

这种方法可能适用于种族刻板印象问题。但当问题涉及到“是否计划消灭所有人类”时，情况就变得更加复杂（如果 GPT-4 自己就在策划这一行动，并向我们提供虚假答案怎么办？）。但或许，我们可以设计一个解释型 AI，它本身不足以策划行动，但能够解读更通用、更智能、更危险的 AI。关于这一点如何与更广泛的 AI 对齐计划相结合的更多信息，可以在关于 ELK 问题的文章中找到。我还发现了这篇论文，尽管我还未完全阅读，但它似乎是开始在可解释 AI 中融入安全设计的尝试。

那么，这一切对我们对人类的了解又有何启示呢？

人类同样使用神经网络来处理概念。我们的神经元数量众多，但 GPT-4 也同样如此。我们的数据非常稀疏 - 例如，有些概念（如章鱼）在日常生活中极为罕见。那么我们的大脑是否充满了奇特的抽象多面体呢？我们是否在某种程度上模拟了更大的大脑？

这是一个非常新的研究领域，但我找到了一篇论文，Identifying Interpretable Visual Features in Artificial and Biological Neural Systems。作者指出：

在我们开展的一系列实验和分析中，我们找到了支持这样一个假设的证据：无论是深度图像模型 [AIs] 还是大脑的视觉皮层，神经元都在以叠加的方式编码特征。也就是说，我们在神经状态空间中找到了一些非传统方向，这些方向比起单个神经元来说，其含义更加清晰易懂。此外，无论是在生物体还是人工智能系统中，我们都观察到了一个有趣的现象，我们称之为“特征协同”——在激活空间中的稀疏组合能够产生比单独部分更加易于理解的特征。我们的研究为基于 CNNs 的自动可解释性研究提供了新的方向，并与近期的语言模型研究努力保持一致。同时，它也为分析生物系统中的神经编码特性提供了一个新的视角。

这是一篇独立的、尚未经过同行评审的论文，它提出了一个在一个充满炒作的领域里的惊人主张。这意味着它必然是正确的 — 否则就不公平了！

如果你对这个话题感兴趣，你可能会想深入阅读完整的论文，它们比这篇简介更加全面和引人入胜。我最推荐的有：

如果你完全理解了这些内容，并且准备好做出自己的贡献，那么你可能适合加入 Anthropic 或 OpenAI 的对齐团队，它们目前都在招募新成员。如果你觉得这些内容可能对你有意义，并且你想进一步了解和学习，那么像 MATS 这样的对齐训练或奖学金项目可能适合你。

See all posts