大语言模型 API 市场的变迁之路 [译]

FINBARR TIMBERS

2023 年 12 月 13 日

在我踏入机器学习的世界之前,我是一名专攻经济学的研究生,那时候的我日复一日地研究 OLS 问题(直到现在,我一闭眼就能看到那个经常推导的 OLS 方程—— (X'X)^-1X'y)。我的研究领域是反垄断理论,特别是在垂直整合这一块。这段经历给了我一个独到的视角去思考一个问题:随着越来越多公司加入这个领域,大语言模型 API 市场将如何发展?

这个市场的起点可以追溯到 OpenAI 发布了 ChatGPT,他们迅速实现了 13 亿美元的收入。但在去年的这个时候,大语言模型 API 市场几乎还是一片空白,几乎没有任何竞争。那时,Bard 还未面世,Claude 也是如此,而 Gemini 不过是 Sundar 心中的一个小小愿景。OpenAI 几乎垄断了整个市场,基本上独占了所有价值。

但在过去的这一年,我们看到了市场的变化。除了顶级产品之外,大语言模型几乎没有形成任何护城河。GPT-4 是唯一没有竞争对手的模型,但竞争者已经在暗中觊觎——比如 Gemini Ultra、Llama 3,还有那个神秘且即将问世、规模比中等还要大的 Mistral 模型。而在 GPT 3.5 这个级别,你已经有了多种托管选择,甚至可以自己来托管。这种情况自然限制了任何公司能够标定的价格。

通常,公司会在认为能获得超过他们最低盈利门槛的利润时进入一个新市场。公司规模越大,他们所需的利润门槛就越低。比如我,一个个体经营者,如果要开始提供大语言模型的微调服务,最初我需要设定较高的利润率,因为我需要在一个相对较小的客户群中摊分成本。但随着我的业务扩大,我就能够在更大的客户群中分摊成本,并且有更多资金投入到优化中,这使得我能够以更低的成本提供大语言模型服务,具体方式包括:

  • 进行量化

  • 直接购买芯片而不是租用

  • 模型精简

  • 自主制造芯片

每当你通过优化提高工作流程的效率,你的利润空间也随之增加。听起来不错!意味着每个 Token 能带来更多利润。但实际情况并非如此简单。在一个理想化的、拥有球形奶牛的假设环境中,这的确成立。但是,正如你在提升 Token 服务效率上的投资,你的竞争对手们也在进行相同的努力,这不断侵蚀着你的利润。用 Ben Horowitz 的方式来说,你必须不断奔跑,才能保持不后退

这表明,在同质化的大语言模型 (LLM) 市场中,将展开一场关于效率的激烈竞争,各公司都在争夺能够实现最低投资回报率的地位。

在著名的商业战略著作《创新者的窘境》(The Innovator’s Dilemma) 中,有一个关于技术颠覆如何发生的经典案例,这个案例摘自《纽约客》杂志对作者 Clayton Christensen 的介绍

他按动遥控器,屏幕上出现了第一张幻灯片。他解释道:“对于没多少钢铁制造经验的人来说,历史上主要有两种制钢方式。大部分的钢铁都是由规模庞大的综合钢铁公司生产的。另一种方法则是建立小型钢厂。在小型钢厂里,通过电炉熔炼废钢,这样的炉子在这个房间里可以放下四个。小型钢厂的关键优势在于,其生产成本比综合钢厂低 20%。设想一下,如果你是某钢铁公司的 CEO,在最好的年份里,你的净利润只有 2% 到 4%。那么面对一种可以减少 20% 制造成本的技术,你难道不会采纳吗?但奇怪的是,世界上没有一家综合钢铁公司投资建立小型钢厂。如今,除了一家外,其余的综合钢厂都破产了。这就说明,即便是看似明智的决策,对于聪明人来说也可能是无法实现的。”

在钢铁制造的世界里,历史上,钢材主要在庞大的综合钢铁厂中生产,它们生产高品质的钢材,保持着合理的利润。然而,电动小型钢厂的出现改变了这一格局。这些小型钢厂最初以较低的成本生产低质量的钢材。大型钢铁厂商对此不予理会,继续专注于制造高品质、高利润的钢材。但随着时间的推进,这些电动小型钢厂逐渐掌握了生产更高品质钢材的技术,向高端市场发展,并最终推翻了大型综合钢厂的统治(例如,美国钢铁公司——曾是美国市值第 16 大的企业——在 2014 年被移出标普 500 指数)。

LLM(大语言模型)的比喻很直观。大型实验室致力于开发性能最优的模型,虽然它们昂贵但效果卓越,超越所有其他模型。但这也意味着高昂的成本,为了支付这些 $900k 工程师 的薪水,你得有足够的利润。在市场的另一端,由 Meta 和 r/LocalLlama 领衔的开源社区正在制作高质量的模型,并探索如何在 超低功耗的设备上运行这些模型。预计,开源重量级模型会在保持质量的同时降低成本,对大型实验室的利润造成压力。例如,Together 推出的 Mixtral 托管版本,价格比 Mistral 自家版本低 70%。

因此,市场将分为两部分:高端市场将拥有价格更高、质量更好的模型,而低端市场则有价格更低、质量较差的模型。对于开源重量级模型,我们可以预见它们的价格将会趋近于 GPU 和电力的成本,随着 GPU 市场竞争的加剧,这可能最终仅限于电力成本。

那么,这些 API 的潜在购买者会是怎样的?如果我们将 LLM(大语言模型)能执行的任务按经济价值从高到低排名,那么有多少任务实际上需要高度复杂的模型?虽然在某些情况下可能必须使用 GPT-4,但这种需求阈值不太可能保持不变。开放重量模型将继续其稳步上升的趋势,挑战大型实验室的利润空间。随着使得在不同模型 API 之间无缝切换变得更加简单的工具的出现,开发者们将更倾向于选择能够完成他们任务的成本最低的模型。比如,当使用 LLM 进行 简短代码补全时,你真的需要最大型、最高级的模型吗?可能并非如此。

此外,那些在消费市场上取得巨大成功的公司,最终可能会反对向其他公司支付大量利润,并开始开发自己的模型。我们看到,像 HarveyCursor 这样的公司,它们是最早接触 GPT-4 的公司之一,开始招募 研究科学家工程师,为他们培养训练自己的基础模型的人才。由于 API 费用可能是这些公司的主要开支,他们自然会尽一切努力来尽可能降低成本。

如果你正在打造自己的模型,你可以募集一轮投资来支持自己的模型开发,这种一次性的资本支出可以用来提高整体利润率。谷歌的 TPU 计划就是一个例子。通过在定制硅芯片上投资数十亿美元,他们可以避免支付 Nvidia 的昂贵费用。

因此,结论是,只要任务足够简单,能够被开放重量模型解决,LLM API 市场将趋向于最低成本。如果你的任务极其复杂,需要最优秀的模型,你只能选择支付给 OpenAI。对于其他人,微调过的 Mistral 7B 是一个不错的选择。