人工智能与自动化讽刺(第 2 部分)

这是关于“自动化悖论”系列的第二篇。

上一篇文章中,我们探讨了 Lisanne Bainbridge 在 1983 年发表的那篇备受瞩目的论文《自动化的讽刺》(The ironies of automation)中的一些观察。我们讨论了这些观察对于当下利用**大语言模型(LLM)**及基于 LLM 的 AI 智能体(AI Agents) 进行“白领工作”自动化意味着什么——尤其是在仍然需要“人在回路”(Human in the loop)的情况下。我们当时停在了论文第一章“引言”的结尾。

在这篇文章中,我们将继续探讨论文的第二章“解决方案的途径”,看看能从中学到什么。

这难道不是两码事?

在开始之前,我们需要先明确一点:将这篇论文中的观察和建议应用到今天的 AI 自动化尝试时,必须带着批判性的眼光(Take with a grain of salt)。

在监控工业生产工厂时,如果出了问题,人类操作员往往只有几秒钟的时间来反应,以避免严重的甚至灾难性的事故。

因此,工业控制台的设计至关重要。它的设计必须确保人类操作员能尽可能轻松地识别偏差和故障,并立即触发对策。人们在显示器和控制装置的设计上投入了大量精力,比如那个众所周知的急停开关:醒目的红色,个头巨大,确需使用时,哪怕用手掌拍、用拳头砸,也能在瞬间触发。

而当谈到利用 AI 解决方案自动化白领工作时,我们通常不会面临如此危急的情况。但是,这并不是轻易忽视这篇论文的理由,原因如下:

  • 公司大多痴迷于效率。 因此,他们也期望 AI 解决方案能将“生产力”(即效率)提升到超人类的水平。如果人类要监控 AI 的输出并在必要时干预,这就要求人类必须以超人类的速度理解 AI 的产出——否则整个流程就被拉低回人类的速度了。这就带来了一个两难困境:除非我们能让人类以超人类的速度理解 AI 的输出(相比于用传统方式产出同样的内容),否则这种效率提升就是空谈。

  • 许多公司都有制造紧迫感和稀缺感的传统。 这给员工带来了巨大的压力。众所周知,压力会触发**“战斗或逃跑”模式(Fight-or-flight mode,人类内置的一种古老的生存机制,用于应对危险情况)**。这种模式会大幅降低人类正常的认知能力。虽然这种机制能支持人类做出极快的决定并采取行动(在危险情况下至关重要),但它剥夺了人类进行深度分析的能力(因为在被狮子追的时候,深度分析并不重要)。如果做决定需要深度分析,在压力下这可能比平时花的时间更长——甚至根本无法完成。这意味着我们需要让人类在压力下也能进行深度分析,或者以一种不需要深度分析的方式提供信息(但这并不总是可行的)。

如果我们仔细思考这些(以及其他我没写出来但你可能会想到的方面),我们会很快得出结论:在 AI 自动化的背景下,人类也经常被期望做出快速决策并据此行动,而且往往是在难以(甚至不可能)进行深度分析的条件下。

如果我们再考虑到,根据具体情况,AI 产生的错误如果逃过了人类操作员的眼睛,最坏情况下可能会产生严重后果(例如,设想一下 AI 代码中的一个漏洞导致了重大安全事故),那么这种情况其实离工厂控制台的场景也没那么远了。

总之,我们确实需要“带着批判性的眼光”,即问问自己:在我们特定的设定中,时间限制到底有多严格?以免在最坏的情况下犯了“拿苹果比橙子”(生搬硬套)的错误。然而,总的来说,我们需要考虑各种可能的设定,这其中——可能比我们想象的更频繁——包含了人类需要在压力下极短时间内做出决策的情况(这让事情变得更加岌岌可危)。

史上最糟糕的用户界面(UI)

这直接引出了 Lisanne Bainbridge 的第一条建议:

在任何必须快速注意到低概率事件的情况下,必须给予操作员人工辅助,必要时甚至要在警报之上再加警报。

换句话说,系统必须尽可能支持人类操作员检测问题,特别是当问题很少发生时。这是我们在上一篇文章中讨论的“监控疲劳”问题的直接后果。

吸取了过往的教训,人们在工业生产控制台的显示器、控制装置以及警报机制的设计上投入了大量精力,确保人类操作员能尽可能出色、无压力且可靠地完成工作。

现在,让我们看看 AI 智能体。

通常的设想是:一个人类控制着一支由 AI 智能体组成的“舰队”,这些智能体被设计用来做某项工作,比如写代码。有时,大多数智能体是通用的“工人”,由某种主管进行编排,将部分工作分配给工人智能体。有时,不同的智能体是“专家”,每个人负责工作的一个特定方面,通过某种编排(或由主管协调)进行协作。虽然通用工人更容易设置,但专业工人通常能产生更准确的结果。

因为这些基于 AI 的智能体有时会出错,人类——在这个例子中是软件开发人员——需要监督 AI 智能体舰队,最理想的情况是在 AI 智能体做错事之前进行干预。因此,AI 智能体通常会先制定一个计划,说明它们打算做什么(这也有个副作用,能增加它们不跑题的可能性)。然后,人类验证该计划,如果正确就批准,AI 智能体随后执行。如果不正确,人类拒绝并把智能体打回去重新规划,并提供需要修改的信息。

让我们把 Lisanne Bainbridge 的建议拿来,和当前控制 AI 智能体舰队的“最佳实践”做个对比。

除非我们另行指示,否则 LLM 以及基于它们的 AI 智能体都是相当话痨的。此外,它们倾向于以一种无比确信的口吻进行交流。因此,它们会用这种极其自信的语气,向你展示一份高度详细的、多步骤的计划,包含大量的解释。通常,这些计划的文本超过 50 行或 100 行,有时甚至几百行。

大多数时候,计划是没问题的。然而,有时 AI 智能体也会把事情搞砸。它们会得出错误的结论,或者忘记了被告知要做什么并跑题了——虽然不常发生,但确实会有。有时问题一眼就能看出来。但更多时候,它被巧妙地隐藏在第 123 行的某个地方:“……因为 2 比 3 大,所以很明显,我们需要 <做一些关键操作>”。但因为智能体一直在用海量的文字淹没你,而且错误被如此完美地隐藏在这堵“自信之墙”后面,我们很容易漏掉它——于是 AI 智能体就犯了一个关键错误。

我们不能责怪人类漏掉了计划中的错误。问题在于,对于任何负责在“很少出错的系统”中避免错误的人来说,这可能是史上最糟糕的用户界面(UI)和用户体验(UX)。

你可能会说,基于 LLM 的智能体总是出错。嗯,也不全是。它们有时会出错。而且,指令给得越好,交互智能体的设置越完善,它们产生的错误就越少。此外,我们可以预期未来会有更专业、更精细的智能体,在各自的专业领域越来越强。即便如此,由于底层技术的限制无法保证绝对的一致正确性,它们大概率永远无法做到完全无错。

这就是我们需要深思的场景:智能体舰队很少出错,但我们仍然需要人类监控,并在出问题时进行干预。这种界面应该长什么样目前还不清楚,但绝对不应该是现在这个样子。也许我们可以从工业生产工厂控制台的 UI/UX 设计同事那里汲取一些好的见解。我们要做的只是去问问他们……

培训的悖论

Lisanne Bainbridge 接着对人类操作员所需的培训提出了一些建议。这又是一个内容丰富的部分,我只能建议你自己去读读,因为它包含了一些微妙但重要的提示,如果不引用整章很难传达清楚。在这里,我只强调几个方面。她开篇写道:

[上一节提出的一些观点]表明,保持手动操作技能可能非常重要。

然后她谈到让人类操作员定期接管控制权,即代替机器工作,这是一种非常有效的培训选择。事实上,如果不定期亲自动手工作,人类专家的技能退化速度之快令人惊讶。

但是,如果定期接管工作不可行,例如因为我们想要利用 AI 智能体实现持续的超人类生产力(不管这是否有意义),我们仍然需要确保人类操作员在需要时能够接管。在这种情况下,必须通过其他方式进行培训,通常是使用某种模拟器。

然而,模拟器也有问题,特别是当人类干预仅在(且希望在)事情运作不符合预期时才需要的时候:

使用任何模拟器来训练应对极端情况都存在问题。未知的故障无法模拟,对于那些可以预测但从未经历过的故障,系统的行为可能也是未知的。

这个问题的后果是:

这意味着培训必须关注通用策略,而不是具体的反应……

然而:

期望操作员仅通过查阅操作规程来应对不熟悉的事件是不够的。规程无法涵盖所有可能性,因此操作员被期望监控这些事件并填补空白。

这给我们留下了一个极大的讽刺:

然而,讽刺的是,我们训练操作员遵守指令,然后把他们放到系统中,指望他们在指令失效时提供智能。

这也是我们未来在 AI 智能体及其人类监督者身上需要面对的问题。监督专家被期望在事情变得混乱、AI 智能体卡住时进行干预,而且这通常是以无法预见的方式发生的。这些不是常规任务。通常,这些也不是我们预期 AI 智能体遇到的问题,因此无法提供针对性培训。这些是异常情况,是我们意料之外的情况——未来的 AI 智能体越精细、越专业,需要人类干预的问题就越偏向此类。

问题有两方面:

  1. 我们到底该如何培训人类操作员,使他们能够在异常、通常难以解决的情况下熟练地进行干预?

  2. 我们该如何培训人类操作员,使他们的技能随着时间的推移保持敏锐,并保持快速、机智地处理异常情况的能力?

这些问题似乎暗示了一种悖论,答案远非显而易见。目前,我们还有足够多经验丰富的领域专家,这让这些问题看起来没那么重要。但是,如果我们只等到问题变得紧迫时才开始解决,它们将变得更难——甚至不可能——解决。

引用 Lisanne Bainbridge 的话来结束这部分的思考:

也许最终的讽刺是:那些最成功的、极少需要人工干预的自动化系统,可能需要在人类操作员培训上投入最大的资金。

换句话说,我们不能简单地找几个现成的人类专家,让他们监督接管了他们工作的智能体,却不在这些人身上做任何进一步的投资。相反,我们需要持续培训他们,而且智能体变得越好,培训监督者的成本就越高。我高度怀疑那些在 AI 智能体问题上主要想着省钱的决策者是否意识到了这一讽刺。

正如我在本系列博文的第一部分开头所写,《自动化的讽刺》是一篇非常丰富和致密的论文。我们现在才刚刚读完第二章“解决方案的途径”,大概是论文的第 2.5 页,后面还有整整一章叫“人机协作”,占据了另一页篇幅,然后才是结论。

虽然第三章也包含了许多极具价值的建议,远远超出了我们这里的讨论范围,我就留给你们自己去阅读了。正如我在开头指出的,这篇论文非常值得一读。

领导力的困境

然而,在结束这个小小的博客系列之前,我想提一种新的困境,这是 Lisanne Bainbridge 在她的论文中没有讨论的,因为工业生产工厂自动化与基于 AI 智能体的自动化情况略有不同。但由于这个话题非常契合刚刚结束的“培训悖论”部分,我决定把它加在这里。

问题在于,仅仅监控 AI 智能体舰队的工作并在出错时干预,通常是不够的,至少目前还不够。之前讨论的所有事情都适用,但在与 AI 智能体互动时还有更多内容,因为我们不能仅仅是被动的。我们不能只是看着它们干活,只在出问题时干预。相反,我们还需要对它们采取主动:我们需要指导它们。

我们需要告诉 AI 智能体做什么,不做什么,选择哪些块等等。这基本上是一个领导角色。虽然你领导的不是人类,但工作性质非常相似:你对结果负责;你可以设定方向和约束,但你并不直接控制具体工作。你只能通过与智能体沟通来控制它,试图通过命令、反馈、修改命令、设定不同的约束等方式将它们引导到正确的方向。

这是一套大多数人天生不具备的技能。通常,他们需要随着时间的推移来培养这种技能。一般来说,在人们被放到领导岗位去指导人类之前,他们会接受大量的领导力培训,教给他们成功领导所需的技能和工具。对于大多数人来说,这至关重要,因为如果他们习惯了处于接收命令的一端(在最广泛的“命令”意义上),通常不习惯设定方向和约束。这往往是他们需要学习的一项全新技能。

这不仅适用于领导人类,也适用于领导 AI 智能体。虽然 AI 智能体不是人,因此领导细节会有所不同,但所需的基本技能和工具是相同的。顺便说一句,这也是为什么在 LinkedIn 等平台上大肆赞扬 Agentic AI(智能体 AI)的人往往是领导(人类)团队的经理。对他们来说,领导 AI 智能体舰队感觉非常自然,因为这与他们每天做的工作非常接近。然而,对于目前正在做具体执行工作的人来说,领导 AI 智能体舰队通常一点也不自然。

然而,我还没有看到任何人在被扔去独自面对一群 AI 智能体之前接受过任何形式的领导力培训,我也几乎没看到关于这个问题的讨论。“如果它工作不正常,你需要更好的提示词(Prompts)”,这是某人难以成功指导智能体时得到的常规回答。

抱歉,事情没那么简单。问题远比优化几个提示词要大得多。问题在于人们必须完全改变他们的工作方式才能完成任何任务。他们需要学习如何间接地完成工作,而不是直接做。他们需要学习如何有效地指导一群 AI 智能体,如何领导它们。

这也加剧了上一个话题中的培训讽刺。也许未来 AI 智能体舰队会变得足够好,我们可以省略主动部分的工作,只需要专注于被动部分,即监控和干预。但在此之前,我们需要教会 AI 智能体舰队的人类主管如何有效地领导它们。

继续前行

我们讨论了 Lisanne Bainbridge 的《自动化的讽刺》中的几个讽刺和悖论,以及它们如何适用于 AI 智能体。我们研究了“遗忘”和“回忆”的困境,以及这对下一代人类主管意味着什么。我们讨论了监控疲劳和地位问题。我们审视了当前 AI 智能体在 UX 和 UI 方面的缺陷以及培训悖论。最后,我们探讨了领导力困境,这是 Lisanne Bainbridge 论文中未涉及但补充了培训悖论的内容。

我想用 Lisanne Bainbridge 的结论来总结:

……在没有时间压力的情况下工作的人类,可以是令人印象深刻的问题解决者。困难在于,他们在时间压力下效率较低。我希望本文已经阐明了这样一个讽刺:自动化并不一定能消除困难,解决这些困难可能需要比经典自动化更高的技术智慧。

我完全同意。

我认为随着时间的推移,我们会越来越清楚地意识到,《自动化的讽刺》在多大程度上也适用于 AI 智能体的自动化,我们不能忽视这些 40 多年前就已经为人所知的见解。我也真的很好奇,针对这些讽刺和悖论的解决方案会是什么样子。

在此之前,我希望我给你提供了一些值得深思的精神食粮。如果你对这些讽刺以及如何解决它们有什么好主意,请不要犹豫,与社区分享。我们通过分享和讨论学得最好,也许你的贡献将是解决这些问题的一步……


原文出处: https://www.ufried.com/blog/ironies_of_ai_2/