我那价值 5 亿美元的火星探测车失误:一个失败的故事 [译]

11 月 27 日

作者:Chris Lewicki

有时候,错误的感觉比死亡还要沉重。

2003 年 2 月的一个晚上,我在加州帕萨迪纳的 NASA 喷气推进实验室 (JPL) 里,一切如常。我穿上了洁净室的专用服装,通过了 179 号大楼的高湾 1 气闸室。这里自 60 年代的月球任务 Ranger 系列以来,就是 NASA 许多历史性星际航天器的诞生地。经过无数工程师、技术人员和科学家多年的辛勤劳动,距离 Spirit 火星探测车运往佛罗里达州卡纳维拉尔角发射场,与它的“兄弟”Opportunity 一同踏上旅程,只剩下两周的时间了。

火星探测车失败故事的社交媒体图片
火星探测车失败故事的社交媒体图片

那是一个星期三,我已经连续工作了 12 小时,进入了非正式的第二班。在航天器的装配和测试阶段,长时间工作几乎是家常便饭。每一个系统都必须经过严格的测试,确保在离开地球前处于完美状态。Spirit 和 Opportunity 作为 NASA 历史上最复杂的探测器之一,代表了近十亿美元的投资。压力山大。

这两个探测车共有 62 个电动机,它们用于驱动和操控车轮,操作机械臂,对准摄像机,定向天线以及执行降落后的机械展开和部署动作。这些探测车经过了严格的测试,以模拟它们在火星上作为野外地质学家将遭遇的恶劣环境。其中,涉及爆炸性装置的测试尤为关键,因为爆炸产生的冲击波可能会损害电机内部的脆弱碳元件。那天晚上,当我的同事们忙于测试探测车本身时,我的任务是检验精神号机械臂末端的岩石磨损工具 (RAT) 中电机的完整性。

图片 PIA04422
图片 PIA04422

“Spirit”(左)、“Opportunity”(右)以及作为“Sojourner”探测车备用机的“Marie Curie”,摄于 2003 年 2 月 10 日星期一。图片编号 PIA04422,来源:NASA/JPL-Caltech

在每次环境测试后拆检电机组件是不现实的。不过,我们可以通过检测它们的电性能来了解它们的内部状态。使用一种叫做 break-out-box 的装置,我们把电机从航天器上拆下,连接到外接电源和记录器。正常情况下,电机启动时电流会平稳、指数般下降,任何异常都会在信号中表现为波动。

我做过无数次这样的测试。我在项目中的多种角色让我能够熟练解读航天器上那些复杂的、涉及上万个引脚连接的图表。负责编写如何连接及控制探测车上所有电机的指令,这让我成为了这次测试的最佳人选。

在洁净室里,电气主管 John 帮我找到了所需设备。接着,我们的布线专家 Mary 小心地拆下连接器,并按我的指示安装测试设备。我们完成了测试前的确认程序,确保了连接界面的正常运行、电源设置和记录器的正确配置,并通过对参考电机的快速测试脉冲验证了整体设置。准备就绪后,我们移除了参考电机,连接上了“Spirit”号的 RAT-Revolve 电机,它负责转动火星岩石上的研磨器和刷子。最后再次确认了测试步骤,一切就绪,我们开始向待测试的电机发送能量脉冲。

为了更清晰地捕捉到电机的微小瑕疵,标准做法是给电机提供尽可能多的电力。这就非常重要,必须确保电流正确地流向目标位置。一旦连接错误,就可能引发灾难性的损坏,比如释放出蓝烟。因此,我们的预测试程序是为了确保这个潜在危险的配置是正确无误的。

我向电机发送了电脉冲,结果如往常一样立即显现,但这次的情况却与众不同,让人惊讶。条形图的样子前所未见,甚至看上去不像是坏掉的电机。它显然是别的东西。我的脑海中迅速浮现各种解释,很快就锁定了最可能的原因。我顺着从我们测试车上的突破盒到航天器的电线看去,不熟悉的信号的原因仿佛一把匕首刺入我的心。我们刚释放的所有能量并没有输送到 RAT-Revolve 电机,而是因为我在突破盒上的一个失误,导致电流反向流入航天器,而非电机。

Ooooohhhh ssshhhhiiiiitttt.

那天晚上测试的条形图。图上本该呈现指数级下降,却异常地平坦。

我感到一阵阵的恶心。我可能不小心造成了一个价值 5 亿美元的废品。距离交付航天器进行发射准备只剩两周,我们无法从重大问题中迅速恢复。我猛然意识到,这个同步周期里,可能只有一辆火星探测车会发射。而我的手中,正握着刚刚导致探测车报废的“凶器”。

多年的项目经验告诉我,坏消息不会因时间而变好。我立刻按下耳机上的话筒,告诉负责并行测试的指挥官 Leo 发生了什么。他的回应如同心口上的一刀,“是的,我们刚刚似乎失去了所有航天器的遥测数据。”这绝非好兆头。

周围的人都在静静地通过耳机收听。John 在话筒外爆发了一连串的咒骂,连经验丰富的老水手也能从中学习到新词汇。我们立即执行了航天器的紧急关闭程序,并被指示离开洁净室,大概是去参加一个损害评估会议。

我刚刚 28 岁不久,看起来比实际年龄年轻,这是我大学毕业后的第一份重要工作。这可能是我作为星际航天器工程师梦想生涯的开始,也可能是结束。当现实的阴影笼罩下来,其他在系统测试区的人开始疏远我。组装测试和发射操作经理 Matt 严肃地让我记录下所有发生的事情。我不确定何时泪水开始流淌,但当我独自一人在会议室记录这些细节时,泪水可能已经无声地滑落。

Leo 和我的同事们拿着我的笔记仔细回顾了那晚的事件。显而易见,发生了两件事:一是大量电流没有按预定路径流动,二是航天器的遥测数据传输中断。虽然不祥,但或许还有一丝希望,因为这两者之间似乎没有直接联系。团队推测,电流激增可能最终进入了 H-Bridge 电机驱动电路,这是一种电流的智能调节器。我的操作显然糟糕,但幸运的是,由于反向电动势[1]的作用,这是探测车中唯一能应对额外能量的部分。

我们猜测,这个错误的电流脉冲以某种方式干扰了系统,足以暂时中断数据传输,而没有永久性地破坏它。航天器已经关机,我们决定采取与日常电子产品相同的处理方式:重新启动,看看是否能解决问题。

午夜将至,事件的通报已经上报到项目经理 Pete。整个千人项目组的重新规划岌岌可危。在更多关注和监督下,团队重新集结,执行了航天器的标准开机程序。在启动航天器时,电子系统需要一段时间启动,软件也要一段时间才能运行并产生遥测数据。有一个电路每个时钟周期(每秒 8 次)产生一个脉冲,将地面支持设备上的红灯变为机器人心跳指示器。航天器电源经历了正常的电压和电流变化,但过了很长时间,那个心跳指示灯仍未亮起,遥测数据也没能恢复。

我已经忘记了接下来发生的具体情节。可能是关于第二天早上的会议,讨论我们现在该怎么应对。我清楚地记得的是,回到家向妻子讲述这段经历时,我感到了强烈的情感打击。我坚信第二天一早我就会失去工作,而且我的名字会因这次失败而载入太空探索史的耻辱篇章。

第二天早上,回到喷气推进实验室(JPL),我们在新的班次和前一晚灾难的余波中召开了会议。我们重新审视了重建的事件序列,希望能找到些线索或恢复的可能性,但这种希望似乎越来越渺茫,直到我们发现了关键的一环。

Fluke 87III 数字万用表是 JPL 实验室中随处可见的工具。前一晚我进入洁净室时,我需要一个万用表来进行我的测试,于是我问了 John——一位精通语言的水手,我可以在哪里找到一个。当时所有的万用表都在使用中,所以他指了指附近的一个,看起来它正在监测一个与测试无关的航天器总线电压。我小心翼翼地取下了导线,开始了我与 RAT 电机测试的命运之旅。我没意识到,我断开的那个监测用的万用表,实际上是连接着为航天器地面测试遥测供电的电路。我一取下导线,就切断了这个连接。

我们立刻意识到,下一步就是重新将这个万用表接回原位,然后启动航天器。

我们就这样做了。结果奏效了。当遥测数据重新出现时,大家都惊呼起来——原来 Spirit 探测器并没有失灵!

团队接着恢复了测试,只是耽误了几个小时。我长舒了一口气,因为我可能并没有真的毁了这次任务。

接下来的时间对我来说就像一场梦。随后的几周,我们对 RAT-Revolve 电机的 H-桥通道进行了深入分析,最终对可能的薄膜去金属化问题进行了详细讨论。项目组最终决定继续使用现有的硬件。

之后的日子依然漫长。我搬到了卡纳维拉尔角,开始为火星探测器的发射做最后准备,期间经历了更多紧张而刺激的时刻。最后,Spirit 成功降落在火星上。经过一年的压力累积,结果显示 RAT-Revolve 电机运行良好,这整个经历成为了我人生中的宝贵教训。

这幅图像是对艺术家 Janis Ozolins 作品的改编

从失败中学习

时间的流逝让我对这个故事有了更深的理解,并激励着他人去探索和分享他们与失败的邂逅。分享失败的经历,能够把这些体验转化成宝贵的教训,这不仅对讲述者本人,对听众们也同样有益。在我后来的职业生涯中,在我的小行星采矿创业公司 Planetary Resources,我意识到这些故事在招聘过程和团队文化建设中的重要性。我们有意要求求职者分享他们的失败经历,这不仅是对他们过去挑战的一种承认和学习,也是对失败作为学习过程一部分的认可。我从这次漫游车事件中学到的最重要的教训可以用以下这句话来概括:

“让你的伤痕帮助你成长;它们是你学习过程中无价的经验,对你的能力和坚韧是一种投资。”

在那次危机的最深处,当我泪流满面,周围的人都在避而远之时,Ernie —— 一位智慧且慈善的老人,他已退休却又回来帮忙进行艰苦的太空飞行器轮班工作 —— 走向了我。他温和地搭着我的肩膀,用爷爷般的声音安慰我。他说的话深深印在我的心里:‘记住这种感觉,下次你在确认一切正常前签字时要想起它。’

我最终成为了 Spirit 和 Opportunity 探测火星任务的飞行指挥,甚至因我的出色表现获得了 NASA 的卓越成就奖章。显然,我并没有因为那次事件被解雇。这一点直到几天后一个关键会议上才得到确认。在那次事故后的紧张时刻,人们对测试的危险性展开了激烈且意见分歧的辩论,甚至有人主张应该完全停止这些测试。最终辩论结束,测试的重要性——确保我们的马达在火星上能够完美运行——依旧是首要任务。测试必须继续。项目经理 Pete 宣布的决定让我震惊:‘测试将继续进行,而且 Chris 仍将负责领导,因为我们已经为他的学习付出了代价。他是地球上最不可能重蹈覆辙的人。’

在我仔细修改了程序,以防止重蹈覆辙后,我发现自己多次回到那个‘关键现场’进行更多的测试。每一次重复这个测试,Pete 对我的信任和 Ernie 的箴言总会让我感到一丝恶心,这不仅仅是对过去的提醒,更是继续前行的勇气和信心的象征。管理层对我持续的信任,尽管最初犯了错,标志着我的职业生涯中一个重要的转折点,彰显了我的成长和面对挑战的能力。

现在,每当我需要为重大事项做出批准或认可时,我就会瞬间回想起那一刻——那间房间,灯光,我坐的椅子,桌子,以及我胃中的那个坎,那种恐惧、焦虑和对疏忽的深刻反思,这些感受差点就导致了灾难。Ernie 那天的智慧和他在我脆弱时刻所展现的同理心,对我产生了深远的影响。如今,在面对重大决策时,我不仅会回想那段经历,还会努力帮助他人度过自己的难关。我希望能像 Pete 曾帮助我的那样,把这些经历转化为成长和坚韧的催化剂,强调我们对逆境的反应如何定义我们未来的道路。

这些关于擦肩而过的失败、学习过程和最终的胜利的故事,并不仅仅属于我,而是许多参与建设事业的人共同的经历。在太空探索中,失败是不可避免的——它本来就与生俱来。每一次的失误都是通向更大成功的踏脚石,我们大家的集体智慧将为未来的创新、成就和在太空中的发展和利益突破铺平道路。

我非常渴望向那些太空领域的企业家、工程师、科学家、技术人员以及其他人学习,他们愿意分享自己的‘失败故事’。如果你成功克服了失败,并从中受益,请在我的 LinkedIn、原名为 Twitter/XHacker NewsBlueSky 的线程上分享你的故事。

“火星探测漫游车”正在组装中。图片左下角显示的黄色 Fluke 数字万用表,是飞船遥测系统不可或缺的一部分(2003 年 1 月)

“正是在失败的深渊里,我们埋下了成功的种子。”

— Jason Altucher

“没有哪次经历本身就直接决定了我们的成败。我们并不是受苦于所经历的冲击——那些所谓的创伤,而是根据自己的目的塑造这些经历。我们的命运不是被经历所左右,而是我们赋予这些经历的意义才是关键。”

— Ichiro Kishimi,《不被喜欢的勇气》

“最好的消息就是那些及时传递的坏消息,因为它们给了我们纠正错误的机会。”

— Lindy Elkins-Tanton,《Psyche 任务》的首席研究员


[1] 反电动势 (Back-EMF,ElectroMotive Force):这是当电机开始表现得像是一个小型发电机时产生的能量,尤其在减速或时机不太对的时候尤为明显