人工智能与自动化讽刺（第 2 部分）

这是关于“自动化悖论”系列的第二篇。

在上一篇文章中，我们探讨了 Lisanne Bainbridge 在 1983 年发表的那篇备受瞩目的论文《自动化的讽刺》（The ironies of automation）中的一些观察。我们讨论了这些观察对于当下利用**大语言模型（LLM）**及基于 LLM 的 AI 智能体（AI Agents） 进行“白领工作”自动化意味着什么——尤其是在仍然需要“人在回路”（Human in the loop）的情况下。我们当时停在了论文第一章“引言”的结尾。

在这篇文章中，我们将继续探讨论文的第二章“解决方案的途径”，看看能从中学到什么。

这难道不是两码事？

在开始之前，我们需要先明确一点：将这篇论文中的观察和建议应用到今天的 AI 自动化尝试时，必须带着批判性的眼光（Take with a grain of salt）。

在监控工业生产工厂时，如果出了问题，人类操作员往往只有几秒钟的时间来反应，以避免严重的甚至灾难性的事故。

因此，工业控制台的设计至关重要。它的设计必须确保人类操作员能尽可能轻松地识别偏差和故障，并立即触发对策。人们在显示器和控制装置的设计上投入了大量精力，比如那个众所周知的急停开关：醒目的红色，个头巨大，确需使用时，哪怕用手掌拍、用拳头砸，也能在瞬间触发。

而当谈到利用 AI 解决方案自动化白领工作时，我们通常不会面临如此危急的情况。但是，这并不是轻易忽视这篇论文的理由，原因如下：

公司大多痴迷于效率。 因此，他们也期望 AI 解决方案能将“生产力”（即效率）提升到超人类的水平。如果人类要监控 AI 的输出并在必要时干预，这就要求人类必须以超人类的速度理解 AI 的产出——否则整个流程就被拉低回人类的速度了。这就带来了一个两难困境：除非我们能让人类以超人类的速度理解 AI 的输出（相比于用传统方式产出同样的内容），否则这种效率提升就是空谈。
许多公司都有制造紧迫感和稀缺感的传统。 这给员工带来了巨大的压力。众所周知，压力会触发**“战斗或逃跑”模式（Fight-or-flight mode，人类内置的一种古老的生存机制，用于应对危险情况）**。这种模式会大幅降低人类正常的认知能力。虽然这种机制能支持人类做出极快的决定并采取行动（在危险情况下至关重要），但它剥夺了人类进行深度分析的能力（因为在被狮子追的时候，深度分析并不重要）。如果做决定需要深度分析，在压力下这可能比平时花的时间更长——甚至根本无法完成。这意味着我们需要让人类在压力下也能进行深度分析，或者以一种不需要深度分析的方式提供信息（但这并不总是可行的）。

如果我们仔细思考这些（以及其他我没写出来但你可能会想到的方面），我们会很快得出结论：在 AI 自动化的背景下，人类也经常被期望做出快速决策并据此行动，而且往往是在难以（甚至不可能）进行深度分析的条件下。

如果我们再考虑到，根据具体情况，AI 产生的错误如果逃过了人类操作员的眼睛，最坏情况下可能会产生严重后果（例如，设想一下 AI 代码中的一个漏洞导致了重大安全事故），那么这种情况其实离工厂控制台的场景也没那么远了。

总之，我们确实需要“带着批判性的眼光”，即问问自己：在我们特定的设定中，时间限制到底有多严格？以免在最坏的情况下犯了“拿苹果比橙子”（生搬硬套）的错误。然而，总的来说，我们需要考虑各种可能的设定，这其中——可能比我们想象的更频繁——包含了人类需要在压力下极短时间内做出决策的情况（这让事情变得更加岌岌可危）。

史上最糟糕的用户界面（UI）

这直接引出了 Lisanne Bainbridge 的第一条建议：

在任何必须快速注意到低概率事件的情况下，必须给予操作员人工辅助，必要时甚至要在警报之上再加警报。

换句话说，系统必须尽可能支持人类操作员检测问题，特别是当问题很少发生时。这是我们在上一篇文章中讨论的“监控疲劳”问题的直接后果。

吸取了过往的教训，人们在工业生产控制台的显示器、控制装置以及警报机制的设计上投入了大量精力，确保人类操作员能尽可能出色、无压力且可靠地完成工作。

现在，让我们看看 AI 智能体。

通常的设想是：一个人类控制着一支由 AI 智能体组成的“舰队”，这些智能体被设计用来做某项工作，比如写代码。有时，大多数智能体是通用的“工人”，由某种主管进行编排，将部分工作分配给工人智能体。有时，不同的智能体是“专家”，每个人负责工作的一个特定方面，通过某种编排（或由主管协调）进行协作。虽然通用工人更容易设置，但专业工人通常能产生更准确的结果。

因为这些基于 AI 的智能体有时会出错，人类——在这个例子中是软件开发人员——需要监督 AI 智能体舰队，最理想的情况是在 AI 智能体做错事之前进行干预。因此，AI 智能体通常会先制定一个计划，说明它们打算做什么（这也有个副作用，能增加它们不跑题的可能性）。然后，人类验证该计划，如果正确就批准，AI 智能体随后执行。如果不正确，人类拒绝并把智能体打回去重新规划，并提供需要修改的信息。

让我们把 Lisanne Bainbridge 的建议拿来，和当前控制 AI 智能体舰队的“最佳实践”做个对比。

除非我们另行指示，否则 LLM 以及基于它们的 AI 智能体都是相当话痨的。此外，它们倾向于以一种无比确信的口吻进行交流。因此，它们会用这种极其自信的语气，向你展示一份高度详细的、多步骤的计划，包含大量的解释。通常，这些计划的文本超过 50 行或 100 行，有时甚至几百行。

大多数时候，计划是没问题的。然而，有时 AI 智能体也会把事情搞砸。它们会得出错误的结论，或者忘记了被告知要做什么并跑题了——虽然不常发生，但确实会有。有时问题一眼就能看出来。但更多时候，它被巧妙地隐藏在第 123 行的某个地方：“……因为 2 比 3 大，所以很明显，我们需要 <做一些关键操作>”。但因为智能体一直在用海量的文字淹没你，而且错误被如此完美地隐藏在这堵“自信之墙”后面，我们很容易漏掉它——于是 AI 智能体就犯了一个关键错误。

我们不能责怪人类漏掉了计划中的错误。问题在于，对于任何负责在“很少出错的系统”中避免错误的人来说，这可能是史上最糟糕的用户界面（UI）和用户体验（UX）。

你可能会说，基于 LLM 的智能体总是出错。嗯，也不全是。它们有时会出错。而且，指令给得越好，交互智能体的设置越完善，它们产生的错误就越少。此外，我们可以预期未来会有更专业、更精细的智能体，在各自的专业领域越来越强。即便如此，由于底层技术的限制无法保证绝对的一致正确性，它们大概率永远无法做到完全无错。

这就是我们需要深思的场景：智能体舰队很少出错，但我们仍然需要人类监控，并在出问题时进行干预。这种界面应该长什么样目前还不清楚，但绝对不应该是现在这个样子。也许我们可以从工业生产工厂控制台的 UI/UX 设计同事那里汲取一些好的见解。我们要做的只是去问问他们……

培训的悖论

Lisanne Bainbridge 接着对人类操作员所需的培训提出了一些建议。这又是一个内容丰富的部分，我只能建议你自己去读读，因为它包含了一些微妙但重要的提示，如果不引用整章很难传达清楚。在这里，我只强调几个方面。她开篇写道：

[上一节提出的一些观点]表明，保持手动操作技能可能非常重要。

然后她谈到让人类操作员定期接管控制权，即代替机器工作，这是一种非常有效的培训选择。事实上，如果不定期亲自动手工作，人类专家的技能退化速度之快令人惊讶。

但是，如果定期接管工作不可行，例如因为我们想要利用 AI 智能体实现持续的超人类生产力（不管这是否有意义），我们仍然需要确保人类操作员在需要时能够接管。在这种情况下，必须通过其他方式进行培训，通常是使用某种模拟器。

然而，模拟器也有问题，特别是当人类干预仅在（且希望在）事情运作不符合预期时才需要的时候：

使用任何模拟器来训练应对极端情况都存在问题。未知的故障无法模拟，对于那些可以预测但从未经历过的故障，系统的行为可能也是未知的。

这个问题的后果是：

这意味着培训必须关注通用策略，而不是具体的反应……

然而：

期望操作员仅通过查阅操作规程来应对不熟悉的事件是不够的。规程无法涵盖所有可能性，因此操作员被期望监控这些事件并填补空白。

这给我们留下了一个极大的讽刺：

然而，讽刺的是，我们训练操作员遵守指令，然后把他们放到系统中，指望他们在指令失效时提供智能。

这也是我们未来在 AI 智能体及其人类监督者身上需要面对的问题。监督专家被期望在事情变得混乱、AI 智能体卡住时进行干预，而且这通常是以无法预见的方式发生的。这些不是常规任务。通常，这些也不是我们预期 AI 智能体遇到的问题，因此无法提供针对性培训。这些是异常情况，是我们意料之外的情况——未来的 AI 智能体越精细、越专业，需要人类干预的问题就越偏向此类。

问题有两方面：

我们到底该如何培训人类操作员，使他们能够在异常、通常难以解决的情况下熟练地进行干预？
我们该如何培训人类操作员，使他们的技能随着时间的推移保持敏锐，并保持快速、机智地处理异常情况的能力？

这些问题似乎暗示了一种悖论，答案远非显而易见。目前，我们还有足够多经验丰富的领域专家，这让这些问题看起来没那么重要。但是，如果我们只等到问题变得紧迫时才开始解决，它们将变得更难——甚至不可能——解决。

引用 Lisanne Bainbridge 的话来结束这部分的思考：

也许最终的讽刺是：那些最成功的、极少需要人工干预的自动化系统，可能需要在人类操作员培训上投入最大的资金。

换句话说，我们不能简单地找几个现成的人类专家，让他们监督接管了他们工作的智能体，却不在这些人身上做任何进一步的投资。相反，我们需要持续培训他们，而且智能体变得越好，培训监督者的成本就越高。我高度怀疑那些在 AI 智能体问题上主要想着省钱的决策者是否意识到了这一讽刺。

正如我在本系列博文的第一部分开头所写，《自动化的讽刺》是一篇非常丰富和致密的论文。我们现在才刚刚读完第二章“解决方案的途径”，大概是论文的第 2.5 页，后面还有整整一章叫“人机协作”，占据了另一页篇幅，然后才是结论。

虽然第三章也包含了许多极具价值的建议，远远超出了我们这里的讨论范围，我就留给你们自己去阅读了。正如我在开头指出的，这篇论文非常值得一读。

领导力的困境

然而，在结束这个小小的博客系列之前，我想提一种新的困境，这是 Lisanne Bainbridge 在她的论文中没有讨论的，因为工业生产工厂自动化与基于 AI 智能体的自动化情况略有不同。但由于这个话题非常契合刚刚结束的“培训悖论”部分，我决定把它加在这里。

问题在于，仅仅监控 AI 智能体舰队的工作并在出错时干预，通常是不够的，至少目前还不够。之前讨论的所有事情都适用，但在与 AI 智能体互动时还有更多内容，因为我们不能仅仅是被动的。我们不能只是看着它们干活，只在出问题时干预。相反，我们还需要对它们采取主动：我们需要指导它们。

我们需要告诉 AI 智能体做什么，不做什么，选择哪些块等等。这基本上是一个领导角色。虽然你领导的不是人类，但工作性质非常相似：你对结果负责；你可以设定方向和约束，但你并不直接控制具体工作。你只能通过与智能体沟通来控制它，试图通过命令、反馈、修改命令、设定不同的约束等方式将它们引导到正确的方向。

这是一套大多数人天生不具备的技能。通常，他们需要随着时间的推移来培养这种技能。一般来说，在人们被放到领导岗位去指导人类之前，他们会接受大量的领导力培训，教给他们成功领导所需的技能和工具。对于大多数人来说，这至关重要，因为如果他们习惯了处于接收命令的一端（在最广泛的“命令”意义上），通常不习惯设定方向和约束。这往往是他们需要学习的一项全新技能。

这不仅适用于领导人类，也适用于领导 AI 智能体。虽然 AI 智能体不是人，因此领导细节会有所不同，但所需的基本技能和工具是相同的。顺便说一句，这也是为什么在 LinkedIn 等平台上大肆赞扬 Agentic AI（智能体 AI）的人往往是领导（人类）团队的经理。对他们来说，领导 AI 智能体舰队感觉非常自然，因为这与他们每天做的工作非常接近。然而，对于目前正在做具体执行工作的人来说，领导 AI 智能体舰队通常一点也不自然。

然而，我还没有看到任何人在被扔去独自面对一群 AI 智能体之前接受过任何形式的领导力培训，我也几乎没看到关于这个问题的讨论。“如果它工作不正常，你需要更好的提示词（Prompts）”，这是某人难以成功指导智能体时得到的常规回答。

抱歉，事情没那么简单。问题远比优化几个提示词要大得多。问题在于人们必须完全改变他们的工作方式才能完成任何任务。他们需要学习如何间接地完成工作，而不是直接做。他们需要学习如何有效地指导一群 AI 智能体，如何领导它们。

这也加剧了上一个话题中的培训讽刺。也许未来 AI 智能体舰队会变得足够好，我们可以省略主动部分的工作，只需要专注于被动部分，即监控和干预。但在此之前，我们需要教会 AI 智能体舰队的人类主管如何有效地领导它们。

继续前行

我们讨论了 Lisanne Bainbridge 的《自动化的讽刺》中的几个讽刺和悖论，以及它们如何适用于 AI 智能体。我们研究了“遗忘”和“回忆”的困境，以及这对下一代人类主管意味着什么。我们讨论了监控疲劳和地位问题。我们审视了当前 AI 智能体在 UX 和 UI 方面的缺陷以及培训悖论。最后，我们探讨了领导力困境，这是 Lisanne Bainbridge 论文中未涉及但补充了培训悖论的内容。

我想用 Lisanne Bainbridge 的结论来总结：

……在没有时间压力的情况下工作的人类，可以是令人印象深刻的问题解决者。困难在于，他们在时间压力下效率较低。我希望本文已经阐明了这样一个讽刺：自动化并不一定能消除困难，解决这些困难可能需要比经典自动化更高的技术智慧。

我完全同意。

我认为随着时间的推移，我们会越来越清楚地意识到，《自动化的讽刺》在多大程度上也适用于 AI 智能体的自动化，我们不能忽视这些 40 多年前就已经为人所知的见解。我也真的很好奇，针对这些讽刺和悖论的解决方案会是什么样子。

在此之前，我希望我给你提供了一些值得深思的精神食粮。如果你对这些讽刺以及如何解决它们有什么好主意，请不要犹豫，与社区分享。我们通过分享和讨论学得最好，也许你的贡献将是解决这些问题的一步……

原文出处: https://www.ufried.com/blog/ironies_of_ai_2/