规模的根本力量 [译]
这些力量让大型公司变得反应迟缓且难以操作,但如果能妥善利用,它们同样可以发挥巨大效果。
充满理想的创始人们常常相信,他们在公司扩张时能够打破常规,不会演变成一个“典型的大公司”。
这意味着他们不想有那些认为员工愚蠢或不良的愚蠢规则,不想让一切事务变得异常繁琐,不想有无休止的会议,也不想只招聘那些“普通”或“一般”的人才。
换句话说,他们想在避免大型组织的常见问题的同时,保留小型组织的优点。这意味着要调整创业公司现有的流程——这些流程至今为止一直很有效。现在的不同之处在于,我们用更多的人做着相同的事情,并且像以往一样,我们还在摸索中前进。
**为什么他们总是失败呢?**为什么这些聪明而善良的创始人无法像管理 50 人的组织那样管理一个 500 人的组织?存在哪些不可避免的规模化力量?
它们真的不可避免吗?
规模化的两大挑战
了解了这两个主要的驱动因素后,我们可以看到,它们是如何解释在企业的各个角落出现的挑战。
稀有事件变得常见
在规模化中,原本稀有的事件变得普遍,这一点在链接的伴随文章中已经详细探讨过了。
稀有事件难以预测,也通常难以防止。在公司规模较小的时候,这些事件确实“稀有”,所以并不构成大问题;它们可以通过手动方式处理。但当这些事件开始每天发生时,就必须引入新的流程。
例如,如果有 1000 台服务器,每台服务器每三年出现一次故障,那么这意味着平均每天会有一次故障。这种频繁的故障不仅影响到开发运维团队(DevOps),还会影响到客户支持和社交媒体团队。即使每个单独的事件都很罕见,无法预测,也无法完全预防,但每天都有客户受到影响并提出投诉。虽然自动化程度可以提高,但并不能完全解决问题。
这种无法避免的数学规律在企业的各个方面都有体现。
超出人类理解范围的复杂性
人类的认知能力是有限的,对于极其复杂的系统,我们根本无法完全理解其全貌。
我们能理解的是“复杂”系统。这类系统错综复杂,但其特性让人们能够逐渐掌控。在这类系统中,各个组成部分可以分离、独立构建和测试,然后再组合起来,因此“分而治之”是一种行之有效的策略。这些挑战虽然棘手,但只要有经验,便可解决,这就是“专家”和“专业人士”的用武之地。通过可重复的流程,可以对系统进行监控。
而“复杂”系统则不同,它的组件之间相互影响,形成循环往复的关系。因此,尽管单独构建和测试各个部分仍然很重要,但它们之间的互动同样充满复杂性。大多数难题其实都存在于这些交互之中。就拿人类大脑来说,它由相对容易理解的神经元“组件”构成,但真正复杂且令人费解的是这些神经元之间复杂、多方向、循环的相互作用。诸如“意识”这样的宏观效应,正是从我们还未完全理解的复杂性中浮现出来的。
这一术语源于 Cynefin 框架。
随着公司的发展壮大,这两类系统都会出现,但复杂系统的本质是难以驾驭的,并且难度会随着公司规模的扩大而不断增长。
甚至我们难以置信的复杂大脑,也难以完全理解这样的系统。
掌握了这两个基础原则后,我们可以进一步探讨规模扩大带来的具体挑战。
☞ 如果您对本文感兴趣,请订阅并分享!☜
高效团队背后的人力代价
如果用“人均产出”来衡量,单打独斗的团队无疑是最迅速、最有效率的。这样的团队不需要沟通、不开会,决策可以迅速做出。小公司通常因为条件所限而采用这种方式,而且效果显著!这正是它们能快速行动、业绩超出预期的主要原因。
然而,一旦团队成员生病,产品的开发速度或客户服务质量可能会从佳绩直跌至零。在小团队中,一旦有人离职,就相当于失去了六个月来招聘和熟悉项目的时间。或者因为缺乏流程和文档,可能需要耗费长达一年或者进行全面重构……因为原本只有一个人在负责,他似乎并不需要这些东西,毕竟我们的行动一直很迅速!而且也没有沟通的必要!
更糟的是,如果离开的是一位联合创始人,那么这将是致命的打击。创始人间的矛盾是startup 失败的主要原因之一 1。
1 数据还显示,只有一个创始人的公司更容易失败。那么,哪种方式更好呢?在我看来,这取决于个人的性格特点——有些人愿意独自承担一切,而有些人则愿意与他人分担压力。
因此,单打独斗虽快,却易受挫。当企业规模较小时,这种快速反应是必要的,因为它对抵御那些不断威胁企业生存的因素至关重要——比如缺乏客户、市场关注不足、核心功能的缺失,以及许多其他挑战。但当企业规模扩大,员工年度离职率高达 15-25%,还有疾病、假期和家庭因素,员工的离开(暂时或永久)成为日常——原本罕见的情况变得平常。保持小规模时的运作模式在这时显得混乱且不负责任,企业将难以正常运转。
因此,在企业规模扩大时,任何项目至少需要三人全身心投入,外加管理层和可能的产品或项目管理人员。但这样一个 4-5 人的团队,并不会比个人团队高出 4 到 5 倍的效率;牺牲了人均生产力,以换取团队的稳定性和持续运作能力。
另一方面,小公司可能因为关键员工离职而停滞不前九个月,甚至面临崩溃,而大公司则像稳如泰山的乌龟,稳定增加成千上万的客户,最终赢得竞争。
坚固系统的高昂成本
你可能以为软件系统因为拥有自动化和 DevOps 等技术,不会像人类系统那样容易出现问题。但遗憾的是,创建稳健的软件同样需要付出更多的成本和复杂度。
以运行一个网站为例(不用担心,不需要是软件工程师也能理解这个例子!)。设想有一个连接到互联网的网络连接,一个运行网站软件的服务器,以及一个存储网站内容的数据库。我们有一台服务器,大部分时间都能正常工作。假设它的运行时间达到 99.9%,听起来很不错吧!
但事实上并没有那么理想。一年中有 0.1% 的故障时间意味着它将失败超过 500 分钟——这显然是无法接受的停机时间!这是因为罕见的事情(0.1% 的故障率)在一年约五十万分钟的时间里变得普遍了。
如果我们有两台服务器会怎样呢?这样一来,当一台服务器出现问题时,另一台仍可用。只有当两台服务器同时出现故障,网站才会下线,这种情况的发生概率是0.1% × 0.1% = 0.0001%
,即每年只有大约 30 秒,因此这的确非常棒 2。
这意味着成本翻倍,因为我们需要两台服务器,但为了更强的稳健性 3,这是值得的。但问题还没完,因为从互联网进入的流量需要被分配到这两台服务器上,并且还需要智能化地在其中一台出现问题时,将流量导向正常工作的服务器。这就需要一个“负载均衡器(Load Balancer)”,所有云基础设施提供商都提供这种设备,而且它们价格不菲。所以,这又是一个需要管理的组件,意味着更多的开销。
2 遗憾的是,这并不完全符合现实世界的运作方式;通常故障会相互关联或产生连锁反应。我们为了简化例子而省略了这些复杂性,但这个问题又一次强调了这一点。
3 你可能会想,我们可以通过购买性能较低的服务器来节约成本,因为每台服务器只需要原服务器一半的性能。但实际上不可行,因为在出现故障时,一台服务器仍然需要处理全部流量,所以每台服务器都必须具备独立应对全部流量的能力。
还有一个问题,数据库怎么办?两台服务器需要共用一个存储内容的数据库,这意味着我们得把数据库迁移到一台独立的服务器上。那如果这台服务器出了问题怎么办?又会面临停机的风险。因此,为了确保业务的连续性,我们需要额外配置两台这样的服务器。
这样一来,我们就需要部署四台服务器和一个负载均衡器,成本是原来的四倍还多。购买高可靠性的服务是可能的,但其成本远高于你的预期。我们还没有提及,管理多台服务器的难度更大,服务器间的通信可能会出现故障,甚至负载均衡器的问题也可能导致整个系统的崩溃 4——这些都会削弱我们的系统稳定性,需要我们投入更多的努力来确保服务的顺利运行。
4 当然,对于这个问题也有解决方案——在网络层实施更多冗余措施,通常需要引入另一个供应商,但这同样意味着更高的成本和更复杂的管理!
保持系统的稳健性总有代价。 无论是运行四台而不是一台服务器,还是维护由四人而非一个人组成的团队,你都在用局部的效率损失来换取整个公司的稳定运行。
☞ 喜欢这篇文章吗?请订阅并分享它!☜
实际需要的可预测性
对于小公司来说,预测功能发布的具体时间并不重要。市场部无需提前安排发布计划,招聘部也不必精确安排下一批 50 名客服和销售人员的入职时间。这意味着你完全可以——而且应该——专注于提高产品上市的速度。
小公司往往以快速行动作为优势,但相比之下,大公司在执行层面拥有截然不同且巨大的优势。例如,当我们的公司 WP Engine 推出新产品时,市场部门需要提前知道发布日期。这是因为我们拥有一支技术精湛、资金充足的协作团队,通过新闻发布、举办活动、社交媒体和新闻简报等多种方式集中爆发宣传,一周内吸引的关注可能超过小公司一整年的累积。此外,我们还有全球范围的销售和支持团队,可以立即向 20 万现有客户及每月成千上万的新客户销售,每月新增的收入可能超过小公司一年的总收入。
然而,这一切都离不开可预测性。没有可预测性,我们无法提前安排媒体报道,准备销售资料,培训数百名客服代表,或确保代码质量足以在第一天就扩展应用。可预测性意味着需要放慢速度,涉及估算(耗时)、协调(耗时)、规划(耗时)、文档制作(耗时)以及在实际情况与预测不符时调整所有团队的计划(耗时)。
在招聘大量员工时,预测性至关重要。以招募技术支持部门的团队成员为例,流程包括:首先,招聘部门寻找潜在候选人。接着是安排和进行面试。然后是等待候选人辞职并休息一周。之后进行新员工入职培训、课堂培训,最后让他们与经验丰富的同事一起工作,逐步提高技能和适应度。因此,从决定扩充技术支持团队到新员工熟练工作,通常需要四到六个月的时间。
这就意味着,我们必须提前四到六个月预测技术支持的需求,因为我们现在就需要开始招聘。如果预估不足,支持人员可能会因工作过多而不堪重负,这不仅影响他们的生活质量,也会降低对客户的服务质量。如果预估过高,则会有过多的员工,造成成本惩罚。显然,后者是一个相对较好的失败模式,但两种情况都不理想,关键在于提高预测的准确性。
小公司常常声称,“未来是本质上不可预测的”,这一观点受到了精益和敏捷思维的推动,也与事实相符。的确,创新和执行过程中充满了不确定性。但这种观点也是一种自我实现的预言;坚称未来不可预测,实际上忽视了那些可能增加预测性的工作,从而确实让未来对这些人来说变得难以预测。
小公司缺乏预测未来所需的数据、客户基础、机构知识、专业技能,往往也缺乏个人经验和技能。因此,他们通常会正确地认为预测未来是不可能的。但这是否是原则上的不可能,还是仅仅对他们来说是不可能的?在规模化经营时,良好的预测变得必不可少。这不是因为华尔街、投资者或其他不可预测组织的要求,而是因为这对于健康发展至关重要。
物质性门槛的定义
如果 Google(谷歌)推出一个新产品,每年能带来 1,000 万美元的收入,这算是成功吗?不,这实际上是个失败。Google 完全可以将开发这个产品所花费的数千万美元,用于提升其现有业务的效率,哪怕只提高 0.01%,也能赚取更多的钱。
在年收入超过 1000 亿美元的 Google,只有那些每年能至少带来 10 亿美元收入的产品才值得考虑,而如果运气好,这个数字有可能增长到 100 亿美元。比如 YouTube(油管)、Cloud(云服务)和自动驾驶汽车。
5_编者注:_ 这篇文章最初写于 2017 年;到了 2023 年,Google 的年收入已接近 3000 亿美元,这更加凸显了这一观点。如果 Google 投入资源到那些每年“仅”能带来 1 亿美元收入的项目上,他们就不可能实现这样的增长。
这一原则被称为“物质性门槛”,意思是一个项目必须达到的最小贡献标准,才能对公司的业务产生实质性的影响。
对于小型企业来说,这个门槛几乎可以忽略不计。一个帮你本月多招揽几个新客户的新功能就值得去做。每周增加两个新注册用户的营销活动就是成功的。几乎任何你所做的努力都是有价值的。这感觉很好——因为你感觉到自己在不断进步。
然而,对于规模较大的公司来说,他们的财务成功设定了一个不容忽视的物质性门槛。这是个挑战。哪怕是中型公司,也需要他们的新产品能够带来数百万甚至数千万美元的收入。能达到这样收入规模的产品非常少见,无论是由灵活创新的初创公司还是稳重成熟的大企业推出。事实上,绝大多数初创公司即使有不错的产品和极其敬业能干的团队,也难以达到每年 1000 万美元的营收。
然而,这正是中型公司产品经理的任务:去发明、探索、设计、实现并培育这些罕见的成功产品——这是大多数创业者难以实现的成就。确实是个艰巨的工作!
☞ 如果你觉得这篇文章有价值,请订阅并分享它!☜
招聘
第二号员工愿意加入一家初创公司以获得独特的体验。尽管可能要面对薪资大幅减少,甚至公司可能失败——这是最常见的情况——但为了那些精彩故事、个人影响力、潜在机会、刺激经历、掌控感、同事间的友谊和社交派对上的话题,这一切都是值得的。
第 200 号员工则不会出于这些理由加入。第 200 号员工在生活和职业上的风险承受能力会有所不同。他们可能更感兴趣的是解决像本文中提到的那些问题,而不是像你尝试理解为何先有 7 人购买软件,接着却有 3 人放弃这样的问题。第 200 号员工不会为了降低薪资而工作。
小公司认为这是一个优势,毕竟以低于市场价格招募杰出人才确实有其优势。但 WP Engine 今天的数百名员工在他们各自专业领域的熟练程度远超我在小型初创公司,包括我自己的公司,所见过的任何人。这是为什么呢?
一个原因是,拥有丰富经验的人通常处于人生的另一个阶段,他们可能有家庭和其他责任,因此更希望获得稳定且丰厚的收入,以及明确定义的工作。当你将他们高超的技能与大型公司的资源(如客户、品牌、资金、能够实现大型想法的团队)结合在一起时,他们既能在晚上把孩子安顿入睡,同时也能创造出巨大的价值。
另一个原因是,当人们发展出专业技能后,他们会发现在一个更大的平台上运用这些技能是一件乐事。比如,在小公司里行不通的高级营销技巧,在大公司里就变得非常吸引人、充满挑战,并且能显著提升业绩。有些人才对这种挑战充满热情,而不愿意回到像杰夫·贝索斯 (Jeff Bezos) 所说的“幼儿园”级别,比如[仅用 2000 美元/月的预算来
沟通方式
在一家公司里只有四个人时,任何需要每个人都了解的信息,只需传达给另外三人即可。每个人都能了解所有事务。即便有 5% 的显著误解概率,这种情况也不会频繁发生。
但在有四百人的大公司中,要在短时间内准确传达一条信息几乎是不可能的。5% 的误解概率意味着将有二十人感到困惑。这还是建立在他们真的阅读了这些信息,或者在 Zoom 会议中始终专心听讲的假设之上。真正做到这一点的概率又有多大?别问了。
用“Slack”并非万能解决方案,“电子邮件”也不是。正确的做法是:重复传达简单信息。
“重复”是解决“我没看到”问题的办法。通过不同的形式、在不同时间、由多位领导层重复传达,可以逐渐接近 100% 的信息到达率。尽管这也会对那些确实阅读了所有内容、倾听了每个细节的人造成额外负担,他们可能会对反复听到同样的内容感到厌烦,甚至疑惑为何因为他们的认真态度而受到“惩罚”。
而“简单化”则是解决“我没理解/记不住”问题的关键。正如在战略简化中所述,你必须认识到人们可能不会仔细阅读,他们可能记不住细节,他们可能有其他事情分散注意力,他们的语言理解能力可能不如你期望的那么强,而你的表述也可能没有你所希望的那么清晰。
但这是否意味着你无法向 1000 人传递任何复杂的信息呢?答案是肯定的。处理大规模沟通确实充满挑战。
技术与基础设施
在云时代管理 10,000 个虚拟服务器听起来似乎很简单。只需将一切自动化,适用于 100 个服务器的过程理论上也能通过重复执行适用于 10,000 个服务器——这正是计算机最擅长的。
然而,现实并非如此简单。Reddit 花了 18 个月才让“点赞数”在大规模上稳定运行。StackOverflow 用了 4 年时间才将所有内容转换为 HTTPS。Wired 则在“仅”18 个月内完成了这一转换。大规模操作一切都不容易。
这些案例中有哪些共同模式?
其一是“罕见事物常见化”。罕见事件难以预测和预防,有时甚至难以发现,更别提复现。这种情况本质上就是一大挑战。
其二是现有技术的持续性或兼容性问题。新成立的公司可以零基础开始,但已经发展到一定规模的公司则必须进行转型。新公司常嘲笑大公司转型之难,却忽视了这种困难可能正是因为它们今年有望创造 1 亿美元的收入 6。
6 我们不把它叫做“遗留代码”,而是称之为“收入代码”。
其三是瓶颈问题。所有硬件和软件系统都存在瓶颈。在小规模时,你可能不会碰到任何瓶颈,或者遇到的瓶颈可以通过简单的方法解决,例如增加容量。但随着规模的扩大,总会有某个复杂环节出现问题,这时就需要重新设计整个系统架构来解决。即便是看似简单的事情,比如将 HTTP 链接转换为 HTTPS,或实时更新“点赞数”,都可能成为巨大的架构挑战。
还有一个概念是 希卡姆法则:复杂系统中的问题一般不止一个根本原因。想象这样一个情况:软件升级给七个客户带来了问题,但这个问题之前未被发现。那么,这个问题的“根本原因”是什么呢?
- 问题在于我们没能及时发现这次失败;如果我们做到了,我们就能立即撤销升级。
- 问题在于我们没有对出现故障的部分进行测试;如果我们的测试更全面,客户就永远不会遇到这个问题。
- 问题在于我们没有记录那段出错的代码;如果代码写得更清楚一些,就不会产生这个编程错误。
- 问题在于我们没有适当地审查代码;如果我们按照正确的清单进行代码审查,就能在部署前发现问题代码。
就像 五个为什么,总有更深层的原因,也有不同的原因。不同于五个为什么,这里不是只有一个“根本”原因;实际上,许多因素相互作用。这并不意味着没有解决的希望,只是意味着分析起来复杂,决策也复杂,奥卡姆剃刀原则在这里并不适用。
所有这些都会拖慢开发进程并增加投入。会有专门负责基础设施、扩展、部署、成本管理和开发流程等方面的团队,这些工作虽然不会直接呈现给客户或由客户驱动,但对于处理规模复杂性来说是必不可少的。
☞ 如果你喜欢这篇文章,请订阅并分享它!☜
风险缓解
对于小型公司而言,倒闭的最大原因通常是 自我毁灭。这通常是因为找不到足够的客户(分销)来维持足够长时间的营业(产品),这是实现产品与市场契合所必须满足的一系列条件中的一环。当然,还有其他原因,如创始人意见不合、获得的动力不足以自给自足或获得后续融资、不得不回归日常工作等。
而对于规模较大的公司,风险的性质则有所不同。WP Engine 本月无法吸引数千新客户的风险非常小。但其他风险,如不直面它们,可能不仅有可能发生,而且很可能会发生。为了维持一个健康、可持续发展且能长期存在的业务,直面这些风险是必不可少的。
以灾难情况下维持业务连续性的风险为例。如果亚马逊的一个整体数据中心一周时间内瘫痪了,我们能有多快地让所有客户恢复正常运营?即使在成千上万的其他企业也在同时尝试在其他亚马逊数据中心部署服务器的情况下,这一点能否得到保证?我们能否迅速而简洁地与客户沟通,避免支持团队因重复向众多合理愤怒的客户解释同样的信息而压力山大?
妥善的风险管理不仅能防范危机,还能带来业务增长。那些重视业务的客户更愿意选择那些能够理解并有效减轻风险的供应商;企业的这种风险管理能力变成了一个吸引客户的亮点。这就是为什么像 WP Engine 这样的企业级供应商总是积极展示他们遵循 SOC 2、ISO 27001 等众多标准的情况。尽管小公司可能会嘲笑这些做法,认为它们不过是不必要,甚至是虚假的安全感,但在他们忙于批评时,那些大公司已在忙着签下为期三年、价值数百万美元的大合同。
在企业初期,你可能不需要立即制定灾难恢复计划。这不会是导致企业倒闭的直接原因,而且客户通常会理解一个新兴企业面临的这类风险。但随着企业的发展,灾难恢复计划变得至关重要,值得投入资源和精力。
大公司与小公司的本质区别
大公司与小公司之间存在根本差异,这是由多种因素造成的。这种差异既不好也不坏,它只是不同而已。
一些充满理想的创始人认为,公司规模增长过程中遇到的问题主要源于传统的“命令与控制”式组织结构。但实际上,这些问题与组织结构无关,而是一个普遍存在的现象。正因如此,Holacracy 和 Teal Organizations 这类新型组织形态并不能根本解决这些问题。虽然尝试新的组织结构是一个很好的想法,但这些基本问题并不能仅凭改变角色和权力结构就能解决。
公司规模的扩大是一个充满挑战的过程,道路曲折且充满不确定性,这个过程可能持续多年。在这个过程中,你可能需要不同的团队成员,且无人能完全幸免于其中的困难和挑战。因此,如果你在应对这些挑战时遇到困难,并不意味着即将遭遇灾难。事实上,每个人都会面临这些挑战。
真正的灾难是,当公司正在扩大规模,但领导者却没有意识到这些挑战的存在,不去努力调整组织结构以适应新的情况,不引入有经验的人才,而是认为可以凭借现有的知识和资源应对所有挑战,不寻求外部帮助。正确的做法应该是引入新的人才,建立新的角色,树立新的价值观,实施新的流程,进行新的招聘,讲述新的故事,设立新的限制,创造新的机遇。
很多创始人和领导者倾向于相信:
我们之所以取得成功,是因为我们拥有独特且重要的特质,我们应该保留这些特质。其他公司之所以失败,是因为他们“表现得像大公司”,但我们不会重蹈覆辙,因为我们比他们更聪明。看看我们至今的成功就能证明我们的敏锐和智慧。我们相信未来也能像过去一样取得成功。
但这种想法是错误的。
确实,有些核心价值观应该保持不变,否则一切都将失去意义。但在细节上,必须做出改变。
很多创业者和企业领袖难以适应变化。这不仅对公司造成损害,有时还可能导致公司的灭亡。这样的惨痛教训在世界各地屡见不鲜。这是一种悲哀,因为这种机会的浪费完全可以避免,有时它甚至代表了数百人年的努力付诸东流。
切勿成为那些令人警醒的例子之一。