人工智能与自动化讽刺(第 1 部分)
这是一个关于“历史重演”的故事。
1983 年,认知心理学家 Lisanne Bainbridge 写了一篇备受瞩目的论文——《自动化的讽刺》(The ironies of automation)。在文中,她探讨了自动化带来的一些反直觉效应。她将这些效应称为“讽刺”(Ironies)和“悖论”(Paradoxes),并给出了精确的定义:
讽刺(Irony):各种情形结合在一起,导致的结果却与预期截然相反。
悖论(Paradox):看似荒谬,但实际上可能非常有道理的陈述。
把时钟拨回 1983 年,她讨论的是当时大规模兴起的工业流程自动化。这篇论文之所以出名,是因为它一针见血地指出了当年那场自动化狂潮中被忽视的未解难题。
如今,随着基于大语言模型(LLM)的 AI 智能体(Agentic AI) 推动的新一轮大规模自动化浪潮,我们仿佛回到了当年。很多在 1983 年困扰工业自动化的问题,今天依然悬而未决。
因此,我觉得非常有必要重读这篇经典,看看 Bainbridge 的观察对当下的 AI 狂热意味着什么。在这篇文章中,我们将探讨她在 1983 年提出的见解,并将其映射到如今无处不在的“白领工作自动化”趋势中——即让 AI 智能体干活,人类操作员负责监控,并在出问题时进行干预。
虽然这篇论文的核心内容不到 4 页(开头明确标注为“简报”),但内容极度致密。它不像现在的文章那样列出要点或加粗重点让你快速浏览,而是需要你从头读到尾才能领悟其中的精髓。不过,如果你真的读进去了,你会发现回报是巨大的:虽然过去了 40 多年,但文中的洞察力丝毫未减,绝大多数观点都完美适用于当今基于 AI 的自动化设想。
鉴于论文内容丰富且深刻,我将分两部分进行讨论。在本篇博文中,我们将重点关注她关于自动化对**“人在回路”(Human in the loop,指在自动化系统中保留人类参与监控和决策的机制)**中人类影响的观察。在第二部分(链接稍后发布),我们将探讨她的建议以及对 AI 发展的启示。
舞台背景
论文的摘要为接下来的讨论奠定了基调:
本文探讨了工业流程自动化如何非但没有消除,反而可能扩大了人类操作员面临的问题。文章将针对在“经典”方法中如何缓解这些问题提出建议——即保留操作员对异常情况的责任,以及在人机协作中继续利用人类操作员进行在线决策的潜力。
摘要中有一个非常重要的限制条件:这篇论文讨论的场景并非 100% 全自动,而是仍然需要“人在回路”来检查结果并在自动化失灵时进行干预的场景。
这正是目前基于 LLM(大语言模型)自动化方案的常态。当前的 LLM 有时会生成错误结果(甚至完全胡编乱造,通常被称为“幻觉” )。因此,目前的强烈建议是:必须有人类在场,检查 AI 的结果,并在必要时采取纠正措施。
“遗忘”的困境
Bainbridge 接着观察了“人在回路”中人类技能发展的问题:
多项研究表明,缺乏经验的操作员与经验丰富的操作员之间存在差异(后者比前者效率更高、效果更好)。不幸的是,身体技能如果不使用就会退化……这意味着,一个原本经验丰富的操作员,在长期仅负责监控自动化流程后,可能会变成一个缺乏经验的操作员。
这个观察指出了一个众所周知的事实:你需要定期运用你的技能来保持敏锐——无论是体力还是脑力技能。如果你只是偶尔用一次,它们就会随时间退化。我们都有过类似的经历:
曾经我们精通某事。我们经常做,感觉轻松、顺手。
后来我们只是偶尔做一次,中间隔了很长时间。
再次做时,不再感觉轻松顺手,反而觉得越来越吃力、笨拙。
最终,虽然我们不觉得自己是初学者,但也意识到自己丢失了大部分熟练度。
举个例子,我现在写代码的时间(无论用不用 AI)远没有我想象的那么多,因为总有无数琐事通过以此来分散我的注意力。如果我真的抽出时间写点代码,我会发现自己需要查阅很多过去早已烂熟于心的东西。我记得我曾经知道它,但我记不清具体怎么做了。虽然我的整体编程经验仍有帮助,但完成同样的任务,现在的我比过去天天写代码时的我要花更多时间。
同样的问题也发生在那些曾经是领域专家,现在却沦为 AI 监控员的人身上。经验会萎缩。虽然背景知识还在,但他们完成实际工作的时间会越来越长——直到某一天,面对某些任务时,他们基本上要从零开始。
目前,这种“技能退化”还看不出来。大家使用 AI 智能体才几个月。通常,这些人也不完全依赖 AI,自己还会做很多工作。但是,如果人们把实际工作都扔给 AI 智能体,自己大部分时间只做“监工”,人类的技能终将退化。最终,曾经的专家将退化为曾经是专家的初学者。
“回忆”的困境
Lisanne Bainbridge 进一步深入探讨了这个问题。她的下一个观察是:
……从长期记忆中高效检索知识,取决于使用的频率(想想你在学校通过考试后就再没想过的任何科目)。
这补充了之前的观点。不仅仅是技能在退化,如果很少使用,从大脑长期记忆中提取信息的速度也会变慢。
技能保鲜需要持续实战
Bainbridge 继续写道:
……这种类型的知识只有通过使用和关于其有效性的反馈才能发展起来。如果在理论课堂上教授这些知识,却不配合适当的实践练习,人们可能无法理解太多,因为这些知识没有放在一个有意义的框架中;他们也记不住太多,因为这些知识没有与整合到任务其余部分的检索策略联系起来。
这意味着,仅仅在把人放到 AI 智能体监控岗之前送去参加(理论)培训并没有太大帮助。因为相关的知识和专业能力只有在实战环境中定期使用才能建立。但在实战中,他们无法应用知识并磨练专业能力,因为活儿都被 AI 智能体干了。
这直接引出了下一个论断:
人们担心,这一代自动化系统是由以前的手动操作员监控的,系统实际上是在“搭他们技能的便车”,而下一代操作员不可能具备这些技能。
我觉得这句话特别有意思,因为它完美总结了当前短视的“万物 AI 化”趋势中的一个巨大困境:
目前被迫成为 AI 监控员的人,通常在过去的工作中已经积累了监控 AI 和必要时干预所需的知识。即使他们的专业能力和知识检索能力会随时间退化,但至少在一段时间内(直到他们的技能退化到无法胜任工作之前),他们还能撑住。
但是,未来的新人如果没有亲手做过这些工作,就既没有知识和专业能力来干活,也没有机会去建立这些知识。
这样一来,监控 LLM 解决方案并在必要时进行干预所需的知识和专业能力将随时间消失,最终将没人能胜任这份工作。
当然,我们知道在这种情况下,总会出现解决方案。然而,这些方案通常是下意识的、效果较差的,而且往往比从一开始就经过深思熟虑的设计更不道德。
一种可能的解决方案是 AI 质量提升到不再需要人类介入。这几乎是每个 AI 投资者和解决方案提供商都会告诉你的:未来几年 AI 会进步神速,不再需要人类监管。然而,即使这些人很聪明,他们的聪明才智也主要集中在如何尽可能多地赚钱上。坦率地说,忽略 Bainbridge 指出的问题正是他们赚钱的方式。所以,我对这些人的话不抱太大希望——利益相关太重了。
此外,由于 LLM 的工作原理,它们很难做到 100% 无错。因此,基于 LLM 的全自动 AI 智能体将仅限于那些容错率较高的场景。虽然这对市场研究等领域可能没问题,但对于软件开发等领域来说肯定不行,因为软件需要在生产环境中可靠运行。
另一种可能的解决方案是出现一种“AI 修复师”的新职业。这些人通过自己亲手做通常由 AI 完成的工作来构建和打磨技能,当 AI 搞砸且无法自我修复时,就请他们出山。我们已经看到第一批“AI 修复师”开始出现了。
或者,未来几年 AI 会取得重大突破,出现既强大又可靠的 AI 解决方案来取代 LLM。同样,AI 投资者和那些自称“技术乐观主义者”的人很可能会告诉你这一定会发生。还是那句话:利益相关太重,不可信。
真正的 AI 专家会告诉你,他们不知道下一次 AI 飞跃何时发生,也不知道会是什么。因此,寄希望于在人类操作员彻底丧失能力之前,下一次 AI 突破就能发生并广泛应用,目前来看只是一厢情愿。
但不论解决方案长什么样,很明显,目前这种天真的做法——简单地把领域专家变成监控 AI 并在出错时干预的操作员——是不可持续的。
监控疲劳
Lisanne Bainbridge 的下一个观察同样引人深思:
我们从许多“警觉性”研究(Mackworth, 1950)中得知,即使是高度积极的人,对于一个几乎不发生任何事情的信息源,也无法维持有效的视觉注意力超过半小时。这意味着,人类不可能执行监控罕见异常的基本功能,这必须由连接声音信号的自动报警系统来完成。
如果关注的目标几乎不发生变化(这也包括大部分时间工作正常),人类是无法保持警觉的。题外话:如果人类能长时间保持这种警觉,人类可能早就灭绝了。因为这种对“无事发生”目标的“内置注意力不集中”,正是我们作为一个物种在过去得以生存的特质**(注:因为我们需要把注意力留给环境中突然出现的威胁)**。
大多数基于 AI 的解决方案在大多数时候都能正确工作——至少在训练数据充足且任务定义明确的情况下是这样。它们偶尔会犯个小错,有时是大错——通常还伪装在极度自信的表达之下,这让人更难发现错误。也就是说,“一切正常”的假象即使在出错时也可能持续存在。
随着时间推移,AI 方案会改进,错误率会降低。但由于 LLM 的原理,错误率不太可能降为零,只是频率变低。
如果人类操作员的任务是发现错误并干预,那么一个很少出错的系统,从操作员的角度看就是一个“几乎不发生任何事情”的系统。这意味着人类操作员无法保持警觉。即使他们的任务是检测错误,一些错误也会从眼皮底下溜走——因为他们是人。
针对监控疲劳的常规对策无效
试图通过惩罚漏掉错误的人类操作员来“激励”他们,是在惩罚他们身为人类这一事实。这不会改变任何事情,只会导致操作员职业倦怠或辞职——看哪个先来。
此外,其他试图解决监控疲劳的、不那么非人道的方法,比如增加自动报警系统,也注定会失败,正如 Lisanne Bainbridge 所指出的:
这提出了一个问题:谁来发现报警系统工作不正常?同样,如果自动化系统长期运行良好,操作员将无法有效地监控它。
虽然增加自动错误检测和报警系统可能会在一定程度上降低错误率,但几乎可以肯定的是,错误检测系统的故障会被忽视,从而导致底层错误溜过去。
强制操作员关注稳定系统的一个经典方法是要求他做记录。不幸的是,人们可以写下数字却根本没过脑子。
其他保持人类操作员警觉的方法也不管用。如果任务几乎没有变化,我们的注意力很快就会下降。最好接受这一人性事实,因为其他任何做法都是不切实际的,肯定会导致问题——最坏的情况下,会导致灾难性的问题。
地位问题
另一个很少被考虑到,但在实践中高度相关的方面是:
工人拥有的技能水平也是他地位的一个主要方面,无论是在工作群体内部还是外部。如果工作被“去技能化”(Deskilled),沦为仅仅是监控,这对于相关个人来说是很难接受的。
如果人们从领域专家降级为 AI 的保姆,他们会失去地位——无论是在自我认知中,还是在同事眼中的地位。
论文随后指出,受这种“去技能化”影响的人会以各种看似矛盾的方式做出反应。文中还有一些有趣的观察,我在这里略过,因为它们比较微妙和复杂,如果不几乎引用整篇论文很难讲清楚。因此,我强烈建议阅读整篇论文,包括我略过的部分,因为其中大部分也与当前的 AI 自动化情境息息相关。
专家作为观察者的悖论
在转而提出一系列解决思路和建议之前,Lisanne Bainbridge 用以下总结结束了她的观察:
人们可以将这些问题表述为一个悖论:通过自动化流程,人类操作员被赋予了一项只有正在进行实际操作的人才可能完成的任务。
我认为,这句话完美总结了核心问题:你只有整天亲自做 AI 正在做的那些工作,才能正确地监控 AI 并在出错时进行干预——但你做不到了,因为 AI 现在在做这些工作,而你只被期望去监督它。
目前,这个问题还不明显,因为人们正处于被降级为 AI 保姆的过程中,也就是说,直到现在他们还在自己干活。这种“去技能化”的问题只有在一段时间后才会显现。这种延迟性的问题在于:当它变得明显时,可能已经太晚了,无法采取有效的反制措施。
到目前为止,我们才解读了论文的 1.5 页,涵盖了摘要和引言。正如我开头所写:这篇论文太致密了!因为这篇文章已经够长了,我就此打住,给你一些时间来消化 Lisanne Bainbridge 的观察,并思考它们对当前基于 AI 智能体的自动化趋势意味着什么。
在这个系列的第二篇文章(链接稍后发布)中,我们将看看 Lisanne Bainbridge 在论文中提出的建议,以及它们对当前 AI 发展的意义。敬请期待……