我们在 2024 年从大型语言模型中学到的事

2024 年，大型语言模型领域发生了很多事情。接下来是对过去十二个月里我们对该领域所了解内容的回顾，以及我对其中关键主题和重大时刻的梳理。

这篇文章是我2023 年回顾的续篇。

GPT-4 的门槛被彻底突破

在我 2023 年 12 月的回顾文章中，我提到我们尚不清楚怎么构建 GPT-4 ——OpenAI 当时最好的模型已经上线近一年，可没有哪家 AI 实验室能做得更好。OpenAI 掌握了哪些其他人不知道的秘密？

让我欣慰的是，在过去的十二个月里，这个局面发生了彻底的变化。现在有 18 家机构拥有在 Chatbot Arena Leaderboard 上评分高于 2023 年 3 月的原始 GPT-4 版本（榜单中的 GPT-4-0314）的模型，总计 70 个模型。

最早实现这一点的是 谷歌在今年二月发布的 Gemini 1.5 Pro。它不仅能输出与 GPT-4 水平相当的结果，而且引入了一些全新的能力——最引人注目的是其 100 万（后续升级到 200 万）token 的输入上下文长度，以及对视频输入的支持。

我当时写了一篇文章《Gemini Pro 1.5 的杀手级应用是视频》，也因此在今年五月的 Google I/O 开幕主题演讲中短暂亮相。

Gemini 1.5 Pro 还展示了 2024 年的关键主题之一：上下文长度的增长。去年，大多数模型支持 4,096 或 8,192 个 token，值得注意的例外是 Claude 2.1（支持 200,000 tokens）。而如今，每个主流提供商都有能处理 10 万以上 token 的版本，谷歌的 Gemini 系列甚至可达到 200 万。

上下文长度的增加极大拓展了 LLM 可解决问题的范围：现在你可以把整本书扔给模型并问它问题；更关键的是，你可以输入大量示例代码，帮助模型更准确地完成编程任务。相比纯粹依赖模型内部权重信息、只接受短提示的场景，我对那些允许大规模输入的 LLM 用例更感兴趣。我的不少工具就是采用了这种模式构建的。

回到超越 GPT-4 的模型：Anthropic 的 Claude 3 系列在三月发布，其中 Claude 3 Opus 很快成了我日常使用最多的模型。他们在六月上线了 Claude 3.5 Sonnet——至今已经过去半年，它依然是我最喜欢的模型（不过 10 月 22 日它又有了重大升级，但版本号依然是 3.5，搞得人有点迷糊。一些 Anthropic 粉丝已经开始自发地称之为 Claude 3.6）。

再就是其他模型了。如果你看看Chatbot Arena 的排行榜，这个榜单仍然是迄今为止最有参考价值的模型“风评”对比之一，你会发现 GPT-4-0314 大约排在第 70 位。排在它前面的 18 家机构包括谷歌、OpenAI、阿里巴巴、Anthropic、Meta、Reka AI、01 AI、亚马逊、Cohere、DeepSeek、英伟达、Mistral、NexusFlow、智谱 AI、xAI、AI21 Labs、普林斯顿和腾讯。

在 2023 年训练出一个打败 GPT-4 的模型，曾是一个惊天成就。而到了 2024 年，尽管依旧值得庆祝，但如今如果有新团队挤进这个行列，大家的反应往往是“哦，也还好啦”。

其中一些 GPT-4 模型可以在我的笔记本电脑上运行

我的个人笔记本是一台 2023 年款、64GB 内存的 M2 MacBook Pro。它虽然够强悍，但也已经有近两年机龄了——更重要的是，自 2023 年 3 月我第一次在这台机器上运行 LLM（见《大型语言模型正经历类似 Stable Diffusion 的时刻》）以来，我就一直在用它。

这台在去年 3 月时只能勉强跑一个 GPT-3 级别模型的电脑，如今竟能跑多个 GPT-4 级别的模型！这是我整理的一些笔记：

Qwen2.5-Coder-32B 是一个能在我的 Mac 上跑的、擅长写代码的 LLM，它在 11 月发布，使用 Apache 2.0 协议。
我现在能在笔记本上运行一个 GPT-4 级别的模型，说的是 12 月发布的 Meta Llama 3.3 70B

我依然觉得这太神奇了。我一直以为 GPT-4 水平的模型必须在数据中心的专业级服务器上运行，需要用一块或更多价值 4 万美元的 GPU 才行。

这些模型会占用我 64GB 内存的大部分空间，以至于我并不经常在本地使用——它们几乎挤占了所有其他应用的可用资源。

能在笔记本上跑起来，这背后是过去一年中我们在训练与推理上的性能优化取得了巨大突破。证明只要足够努力，还是能挖掘到很多可提升模型效率的低垂果实。我相信在未来仍然会有更多提升空间。

Meta 的 Llama 3.2 系列值得特别一提。它们可能算不上 GPT-4 级别，但在 1B 和 3B 这两个小规模上，表现已远超同等参数模型。我用免费的 MLC Chat iOS 应用在我的 iPhone 上运行 Llama 3.2 3B，模型体积不到 2GB，却功能令人惊艳。试着用它来生成一个“某位数据记者爱上当地制陶师的 Netflix 圣诞电影的情节大纲”。我得到如下的生成，速度大约是每秒 20 个 token：

这是完整对话记录。它确实很老套普通，但现在我的手机也能为 Netflix 提供老套的圣诞电影创意了！

由于竞争和效率提升，LLM 价格暴跌

在过去的十二个月里，顶级云端 LLM 的推理调用价格暴跌。

2023 年 12 月（可见 OpenAI 定价页面的互联网档案），OpenAI 对 GPT-4 的输入 token 价格为每百万 token 30 美元、对 GPT-4 Turbo 是 10 美元、对 GPT-3.5 Turbo 则是 1 美元。

如今每百万 token 30 美元能买到 OpenAI 最贵的模型 o1；GPT-4o 的价格是 2.50 美元（比 GPT-4 便宜了 12 倍），GPT-4o mini 只有 0.15 美元/百万 token——比当初的 GPT-3.5 便宜了近 7 倍，而且能力还大大提升。

其他提供商的价格更低。Anthropic 的 Claude 3 Haiku（3 月推出，虽然是他们最便宜的模型，但仍然很不错）为 0.25 美元/百万 token。谷歌的 Gemini 1.5 Flash 是 0.075 美元/百万 token，而 Gemini 1.5 Flash 8B 则是 0.0375 美元/百万 token——比去年的 GPT-3.5 Turbo 便宜 27 倍。

我一直在用 llm-pricing 标签追踪这些价格变化。

这次价格下降主要由两个因素驱动：竞争和效率。效率方面非常重要，因为很多人都关心 LLM 的环境影响。这些价格变化与运行推理所消耗的能量量直接挂钩。

虽然因大规模数据中心建设带来的环境影响仍值得担忧，但对单次推理能耗的担心已不像以前那么严重。

给大家看个有趣的估算：如果我要用谷歌的 Gemini 1.5 Flash 8B（10 月发布）给我个人相册里 68,000 张照片都生成简短描述，需要花多少钱？

每张照片大概需要 260 个输入 token，以及大约 100 个输出 token。

260 × 68,000 = 17,680,000 输入 token
17,680,000 × $0.0375/百万 = $0.66
100 × 68,000 = 6,800,000 输出 token
6,800,000 × $0.15/百万 = $1.02

总计 $1.68 就能处理 68,000 张图片。这个数字实在低得令人难以置信，我算了三遍才敢相信。

这些描述效果如何？我对加州科学馆中两只蝴蝶的照片运行了以下命令：

llm -m gemini-1.5-flash-8b-latest describe -a IMG_1825.jpeg

模型给出的描述是：

这是一个浅碟，可能是喂蜂鸟或蝴蝶用的红色进食器。碟子里可以看到橘子片……
有两只蝴蝶栖息在进食器里，一只是深棕/黑色蝴蝶，带有白色/奶油色花纹。另一只是大棕色蝴蝶，带有浅棕、米色和黑色的花纹，包括非常明显的眼状斑纹。那只较大的棕色蝴蝶似乎正在啃食果肉。

输入 260 个 token，输出 92 个 token，推理成本大约 0.0024 美分（不到一美分的四百分之一）。

效率提高、价格降低是我在 2024 年最喜欢的趋势。LLM 的实用价值能在更低的能耗下实现，这正是我想要看到的。

多模态视觉已成普遍，音频和视频正开始兴起

前面蝴蝶的例子也说明了 2024 年的又一趋势：多模态 LLM 的崛起。

一年前，最令人瞩目的多模态模型可能还是 2023 年 11 月在 OpenAI DevDay 发布的 GPT-4 Vision（官方发布链接），以及 2023 年 12 月 7 日宣布的谷歌多模态 Gemini 1.0。它们都勉强算在 2023 年的时间窗口里。

而到 2024 年，几乎所有主要模型提供商都推出了多模态模型。我们先在三月看到 Anthropic 的 Claude 3 系列（发布链接），然后在四月迎来谷歌的 Gemini 1.5 Pro（发布链接），能处理图像、音频和视频。九月时，阿里的 Qwen2-VL、Mistral 的 Pixtral 12B 和 Meta 的 Llama 3.2 11B 和 90B 视觉模型陆续出现；十月，OpenAI 推出了音频输入输出功能；十一月我们看到了 Hugging Face 的 SmolVLM，十二月亚马逊 Amazon Nova 也发布了图像和视频模型。

十月我升级了我的 LLM 命令行工具以支持多模态模型，现已通过插件为多个视觉模型提供支持。

我认为，那些说 LLM 增长速度放缓的人，往往忽视了在多模态模型上取得的巨大进步。能够对图像（乃至音频、视频）进行推理是一种全新、非常有意思的应用方式。

语音和实时摄像头模式让科幻变成现实

在今年出现的功能中，音频和实时视频模式尤为值得一提。

ChatGPT 首次支持语音交流是在2023 年 9 月，但那时它更多是一种“假象”：OpenAI 借助出色的 Whisper 语音转文本模型，以及一个新发布的文本转语音模型（命名颇具创意，叫做 tts-1），让用户能在 ChatGPT 移动端应用里对话。但实际上，ChatGPT 模型仍然只接收到文本输入。

在 5 月 13 日公布 GPT-4o 的时候，OpenAI 展示了一个全新的语音模式：真正的多模态模型 GPT-4o（o 代表 “omni”）可以直接处理音频输入，并输出极为逼真的人声，而无需独立的 TTS 或 STT 模型。

这个演示的声音听起来非常像 Scarlett Johansson…在她表达不满后，演示中的配音——“Skye”——最终没有用于正式的产品版本中。

由于最初演示和最终上线之间的延迟，人们对这个“新语音模式”期待又迷惑。我对此曾写过《ChatGPT 在“4o”模式下其实还没启用这些新功能》。

当 ChatGPT 的高级语音模式终于在 8 月到 9 月之间逐步上线时，效果令人惊艳。我经常在遛狗时使用它，发现改进的语调让交互变得更生动。我也乐于探索 OpenAI 提供的音频 API。

更有趣的是：高级语音模式还能切换口音！比如，我让它“扮成一只带有浓重俄罗斯口音的加州棕榈鹈鹕，而且只能用西班牙语说话”——下面是演示：

<audio controls="controls"><source src="https://static.simonwillison.net/static/2024/russian-pelican-in-spanish.mp3" type="audio/mp3">你的浏览器不支持音频元素。</audio>

OpenAI 并不是唯一在多模态音频上发力的团队。谷歌的 Gemini 同样支持音频输入，而且新版 Google Gemini 应用也能够像 ChatGPT 那样“说话”。亚马逊也提前公布了 Amazon Nova 的语音模式，计划于 2025 年第一季度上线。

谷歌在 9 月发布的 NotebookLM 则把音频输出功能拓展到一个新层次：它能生成两个“播客主持人”间对话的音轨，讨论任何你提供的内容。随后他们又新增了自定义指令，我于是让它变成了“鹈鹕播客”：

<audio controls="controls"><source src="https://static.simonwillison.net/static/2024/video-scraping-pelicans.mp3" type="audio/mp3">你的浏览器不支持音频元素。</audio>

12 月又出现了最新进展（这个 12 月可谓盛况空前）：实时视频。ChatGPT 语音模式现在可以选项性地把实时摄像头画面共享给模型，让你和模型就看到的内容进行实时交谈。谷歌 Gemini 也抢在 ChatGPT 前一天预览了同样的功能。

这些功能才上线几个星期，我觉得它们的潜力还没有完全显现。如果你还没试过，绝对值得一试。

Gemini 和 OpenAI 还都提供了这些功能的 API 访问权限。OpenAI 最初用了一个WebSocket API，难度较高；到了 12 月，他们又发布了新一代 WebRTC API，使用门槛低了许多。现在，搭建一个支持语音对话的 Web 应用已经非常简单。

基于提示词的应用生成已经成为“日用品”

2023 年时，GPT-4 就能做到这一点，但它在 2024 年才真正展现了其价值。

我们早就知道 LLM 在写代码方面表现得“令人惊艳”。如果提示用得当，LLM 完全可以在一条或几条提示里，为你构建完整的交互式应用——用 HTML、CSS、JavaScript（加上 React 等工具，如果你配有额外的打包机制）就能搞定。

Anthropic 将这一想法推上了新高度，他们在发布Claude Artifacts时，正值 Claude 3.5 Sonnet 这款划时代模型横空出世，导致 Artifacts 功能最初有点被淹没在各种大新闻里。

Artifacts 的神奇之处在于：Claude 可以按需为你写一个交互式应用，然后让你在 Claude 界面里直接使用它。

下面这个 Extract URLs 工具，就是完全由 Claude 生成的：

我近来频繁使用它，10 月时我才意识到自己已经高度依赖它，于是写了《本周我用 Claude Artifacts 搭建的所有东西》，记录了我在一周内做的 14 个小工具。

在那之后，许多团队也陆续做了类似的功能。GitHub 在 10 月发布了类似功能——GitHub Spark。Mistral Chat 在 11 月以 Canvas 的形式加入了该特性。

Val Town 的 Steve Krouse 借助 Cerebras 搭建过一个类似的版本，展示了一个 2,000 token/秒速率的 LLM 如何在不到一秒钟内对应用做出调整并立即可见。

紧接着，Chatbot Arena 团队在 12 月上线了全新的“Web App 生成对比”排行榜，让用户在不同模型里两次搭建同一款交互式应用，然后投票比较。能有这样一个排行榜，也证明了这类功能已成为行业通用的“日用品”，并可针对所有主流模型实现。

我也在为我的 Datasette 项目开发一款类似功能，希望让用户通过提示就能针对自己的数据，构建并迭代各种定制小组件和可视化。我还实现了用 uv 运行一次性 Python 程序的类似机制。

这种基于提示生成的交互界面之所以强大，是因为一旦你搞定了浏览器沙箱等麻烦细节，构建它就变得非常容易。我相信在 2025 年，这将成为各类产品的标配功能。

最好的模型全民共享只持续了几个月

今年有那么几个月，最强的三款模型——GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Pro——几乎都能在全球范围内免费使用。

OpenAI 在5 月让所有用户免费使用 GPT-4o，Claude 3.5 Sonnet 从6 月上线开始也是免费提供给所有人。这一改变意义重大，因为在之前的一整年里，免费用户几乎只能用到 GPT-3.5 级别的模型，新用户对“强大的 LLM”究竟能做什么都没有实际概念。

但这个“免费时代”似乎已经结束，而且很可能一去不返。OpenAI 上线了ChatGPT Pro，每月订阅费 200 美元，这是他们最强模型 o1 Pro 的唯一入口。

o1 系列（以及未来基于它演化的模型）背后的秘诀是“花更多推理计算量来得到更好的结果”。所以我觉得免费访问顶级模型的时代应该不会再回来。

“Agent” 依然没有真正落地

我个人对“Agent”这个词相当不满，因为它没有一个固定、明确且广为认同的定义……但使用它的人似乎从不提及这一点。

如果你跟我说你在做“Agent”，其实等于什么都没说。没有读心术的话，我根本不知道你说的是几十种定义中的哪一种。

我见到的主要有两大类人：一类认为 AI agent 是能替你“行动”的智能体，就像旅游代理那样帮你下各种决策；另一类则把“Agent”视作具备工具访问能力的 LLM，会在某个循环里使用这些工具来解决问题。“Autonomy（自主性）”这个词也经常和它一起出现，但同样没有明确说明到底是什么意思。

（几个月前我曾在推特上收集了 211 个定义，这些定义存放在 Datasette Lite 里，然后让 gemini-exp-1206 总结了一遍。）

不论怎么定义，“Agent” 在现实中依然是那种“即将到来”但一直没真落地的东西。

撇开术语不谈，我依旧对它们的实用性持怀疑态度——主要还是因为 LLM 的一个根本缺陷：轻信（gullibility）。LLM 太容易相信你告诉它的一切。任何试图替你做“有意义决策”的系统，都不可避免地要面临同一个瓶颈：如果它分不清真伪，一个旅游代理、数字助手甚至研究工具又能好到哪里去呢？

就在前两天，谷歌搜索又被爆展示了完全虚构的“《魔法满屋2》”电影信息——结果发现它是把一篇粉丝脑洞维基中的虚拟内容总结成了“真实信息”。

提示注入（Prompt injection）就是这种轻信的必然产物。我在 2024 年几乎没看到任何实质性解决方案，而这个问题从 2022 年 9 月开始大家就一直在讨论了。

目前看来，很多人对“Agent”的期待——至少那种热门想法——可能在真·AGI 出现之前都难以完全实现。一个对谎言有强大免疫力的模型，这本来就几乎是一个“不可能完成”的任务。

Evals 的作用变得至关重要

Anthropic 的 Amanda Askell（她在塑造 Claude 的人格方面贡献巨大）曾说过：

在好的 System Prompt 背后，往往是“测试驱动开发”的枯燥秘密。并不是“先随便写个 System Prompt 再想办法测它”，而是“先写好测试，然后反复迭代 Prompt 直到通过测试”。

2024 年，我们愈发清楚地认识到：想要基于 LLM 搭建有用的应用，能写好自动化测试（evals）是最核心的技能。有了完善的 eval 体系后，你能更快采用新模型，更好地迭代功能，甚至能够构建更可靠、更有价值的产品，领先于竞争对手。

Vercel 的 Malte Ubl 说：

当 @v0 刚推出时，我们一开始非常担心要在提示前后加各种处理，防止 Prompt 被破坏。
后来我们完全换了思路，让它直接跑起来。一个没有 eval、模型管理以及良好 UX 的 Prompt，就像拿到一台没附带说明书、性能还不稳定的 ASML 光刻机。

我自己至今还在摸索怎样为自己的项目构建更好的测试。人人都知道 evals 很重要，但要如何实施却缺乏清晰的指导——我在 evals 标签下追踪相关信息。我自己用的骑自行车的鹈鹕 SVG 基准测试只是一个很粗浅的尝试，和真正专业的 eval 套件差距很大。

Apple Intelligence 很糟糕，但苹果的 MLX 库十分出色

作为一名 Mac 用户，这一年让我对自己的平台选择感到更踏实。

去年我因为没有 Windows 或 Linux+NVIDIA GPU 的机器，总觉得失去了抢先体验各种新模型的机会。

从硬件设计看，一台 64GB 的 Mac 非常适合跑模型，因为 CPU 和 GPU 都能共享同一块内存。可事实上，很多模型的权重和库都是针对 NVIDIA CUDA 进行优化，其他平台就难免被冷落。

当然，llama.cpp 及其生态在一定程度上缓解了这个问题，但真正的转折点在于苹果推出的 MLX 库——“Apple Silicon 上的数组框架”，实测效果非常好。

苹果的 mlx-lm Python 支持在我的 Mac 上运行多种与 MLX 兼容的模型，而且性能不俗。Hugging Face 上的 mlx-community 也为超过 1000 个模型提供了转换好的格式。

由 Prince Canuma 维护、更新极为迅速的 mlx-vlm 项目则把视觉 LLM 带到了 Apple Silicon。我最近用它跑了 Qwen 的 QvQ。

然而，MLX 虽然是一把利器，苹果自家推出的“Apple Intelligence”功能却大多令人失望。我在今年 6 月写过一篇文章，还算乐观地认为苹果侧重的是保护用户隐私，避免误导用户，而不是追求花哨的新鲜感。

如今这些功能逐步上线后，大多表现平平。对一名 LLM 深度用户而言，我太清楚现今模型能做到什么，而苹果的官方 LLM 功能实在“差强人意”。结果就是你我看到的通知摘要有时会曲解新闻标题，或是一些写作辅助工具根本没啥用。倒是它们的“Genmoji”功能还有些乐趣。

推理可扩展的“reasoning”模型正在崛起

2024 年最后一个季度里最有趣的进展是出现了一种新形态的 LLM，这类模型以 OpenAI 的 o1 系列为代表——它们最初以 o1-preview 和 o1-mini 在 9 月 12 日发布。

可把这些模型视作“链式思考（chain-of-thought）”的更深层延伸。“链式思考”最早在 2022 年 5 月的论文《大型语言模型是零样本推理者》中得到探讨。

它指的是如果让模型把它解题的想法显式写下来，往往能得到原本达不到的推理效果。

o1 进一步把这一过程“集成”进模型里。具体细节还比较封闭：o1 模型会使用“reasoning tokens”在内部思考，这些推理过程不会直接显示给用户（不过 ChatGPT 界面会显示一个总结），然后才输出最终结果。

这里最大的创新是引入了一种新型“可扩展”思路：不再仅靠增加训练阶段的算力来提升模型性能，而是在推理阶段投入更多算力来解决难题。

o1 的后继者是 o3（跳过了“o2”，据说是因为在欧洲商标方面遇到问题），它在 12 月 20 日对外宣布，并在 ARC-AGI 测试中取得了令人印象深刻的成绩，当然也可能花费了超过 100 万美元的推理费用！

o3 预计会在明年 1 月正式上线。老实说，现实应用里很少有场景需要如此昂贵的推理计算量——至少我不需要！——但它确实代表了一种能处理更复杂问题的 LLM 新架构。

OpenAI 并不是这条赛道上唯一的玩家。谷歌在 12 月 19 日发布了同类模型 gemini-2.0-flash-thinking-exp 的首个版本。

阿里巴巴的 Qwen 团队在 11 月 28 日推出了 QwQ 模型，采用 Apache 2.0 许可，我本人也能在本地跑。他们随后在 12 月 24 日发布了视觉推理版本 QvQ （QwQ 的视觉推理版），我也做了本地测试。

DeepSeek 则在 11 月 20 日开放了 DeepSeek-R1-Lite-Preview，可通过他们的聊天界面试用——见官方推特。

如果想更深入了解“推理可扩展”这个概念，我推荐阅读 Arvind Narayanan 和 Sayash Kapoor 的文章《AI 进展放缓了吗？》。

Anthropic 和 Meta 目前还没发布类似的模型，但我会非常惊讶如果他们也没有在内部研发此类“推理可扩展”模型。Meta 在 12 月还发了一篇相关论文《在连续潜在空间中训练大型语言模型的推理能力》。

目前最好的 LLM 是在中国用不到 600 万美元训练出来的吗？

没到这个地步，但也很接近！不过这个标题确实很能吸引眼球。

今年末的大新闻是 DeepSeek v3 的发布——他们在圣诞节那天把模型丢到 Hugging Face 上，连 README 都没写，接着在第二天才补了文档和论文。

DeepSeek v3 的规模高达 6850 亿参数——这是目前开源许可模型里数一数二的巨型模型，远超 Meta 的 Llama 系列最大款 Llama 3.1（4050 亿参数）。

基准测试显示它可以和 Claude 3.5 Sonnet 媲美，而“风评基准”（也就是 Chatbot Arena）上排名第 7，仅次于 Gemini 2.0 和 OpenAI 的 4o/o1 系列。这也是目前评分最高的开源许可模型。

DeepSeek v3 让人印象最深的地方是其训练成本：它使用了 2,788,000 小时的 H800 GPU，总花费约 557.6 万美元。Llama 3.1（4050 亿参数）用了 30,840,000 个 GPU 小时——比 DeepSeek v3 多 11 倍，性能却稍逊一筹。

看起来，美国对华出口管制似乎在某种程度上激发了非常高效的训练优化手段！

环境影响出现了好转

随着这些模型——无论是云端的还是可本地运行的——在效率上不断提升，过去两年单次推理的能耗和环境影响已大幅降低。

OpenAI 现在对比 GPT-3 时代，推理费用已经降了 100 倍。据我所知，谷歌的 Gemini 和亚马逊的 Nova（目前两个成本最低的模型提供商）在为用户处理请求时也都能赚钱，并没有在亏本运营。

这意味着，对我们普通用户而言，大多数提示或推理的能耗基本可以忽略不计，与开车出门或甚至看一段 YouTube 视频相比都不算啥。

训练方面也是如此。DeepSeek v3 只花了不到 600 万美元，无疑是个好消息，表明未来训练成本还可能继续下降。

对于更高能耗的模型，我倾向用商业航班的能耗做对比。最大的 Llama 3 模型花费差不多相当于纽约到伦敦几趟客机满载飞行的燃料。虽然这也不算小数目，但模型训练好后，就能无限次被大众使用，不用再为训练付费。

环境影响也变得非常糟糕

然而一个更大的问题在于：各大公司为满足未来 AI 需求，正在大规模建设基础设施，导致了巨大的资源消耗。

谷歌、Meta、微软和亚马逊等公司都在投入数十亿美元兴建新的数据中心，对电网和环境都造成了实质影响。还有消息称他们在考虑重启新建核电站，但建核电站需要数十年时间。

这些基础设施真的有必要吗？从 DeepSeek v3 的 600 万美元训练成本，以及 LLM 价格持续下跌的趋势来看，也许并不一定。可要是哪家大型科技公司不建，会不会过几年就被证明是错误决策呢？

这让我想到 19 世纪各国大力修铁路的情形：建铁路需要巨额投资，并对环境造成重大影响，最终有些线路甚至重复、重叠建设，完全没必要！这类泡沫也导致过不少金融危机，比如1873 年恐慌、1893 年恐慌、1901 年恐慌以及英国的铁路狂热。结果就是在破产和环境创伤之余，确实也给后世留下了大量铁路设施。

这是个“slop”之年

2024 年，“slop” 成了一个“术语”。我在 5 月写过一篇文章，拓展了 @deepfates 这条推文：

眼看着“slop”在实时成为一个术语，就像当初“spam”成了对垃圾邮件的称呼一样，“slop”也将作为不请自来的 AI 生成内容的术语被写进词典。

我在此基础上稍作扩展：

Slop 是指那些 AI 自动生成的内容，同时具有“没人请求”且“从未审核”两个特点。

后来我的言论还出现在了《卫报》和《纽约时报》的报道中。《纽约时报》引用了我这样的话：

当代社会急需简洁的词汇来谈论现代 AI，包括它的好与坏。“这封邮件不用管，是垃圾邮件”；“这篇文章不用管，是 Slop”——简单一句话，就能提醒我们。

我喜欢这个词，因为它简洁有力地指出我们不该用生成式 AI 的方式之一。

“Slop” 这个词甚至曾入选《牛津词典 2024 年度词汇》投票，但最终输给了“brain rot”。

合成训练数据效果很好

一个被大众记住的概念叫“模型坍塌”（model collapse）。它最早在 2023 年 5 月的论文《递归数据的诅咒：使用生成数据训练会让模型遗忘》中提出，2024 年 7 月又在 Nature 上以更博人眼球的《当 AI 反复训练于自己生成的数据时将崩溃》再度出现。

这个概念很有吸引力：随着互联网上充斥越来越多 AI“残渣”（slop），模型会自我吞食并不断退化，最终“自取灭亡”！

现实中显然没发生这种事。相反，我们看到越来越多的 AI 研究机构转而使用合成数据来训练模型——有意生成人工数据，来帮助模型朝理想方向发展。

我见过对这个思路最好的阐释之一，来自 Phi-4 技术报告，里面提到：

将合成数据作为预训练的一大部分已逐渐变得普遍，Phi 系列模型一直强调合成数据的重要性。它并不是有机数据的廉价替代品，反而在多个方面胜过有机数据。
结构化、循序渐进的学习：在有机数据中，令牌之间的关系往往复杂而隐晦。模型可能需要在若干推理步骤之后才能理解当前令牌与下一令牌之间的关联，而在合成数据里，每一个令牌本质上都是被前面的令牌“预测”出来的，这能帮助模型更容易地追踪推理链条。

另一个常见方法是用更大的模型帮你创建训练数据，以便训练更小、更省资源的模型。如今许多实验室都在用这个方法。DeepSeek v3 用了 DeepSeek-R1 生成的“推理”数据；Meta 的 Llama 3.3 70B 微调也用到了超过 2500 万条合成例子。

看起来，如何精心设计给 LLM 喂的训练数据，几乎就是搭建模型的全部窍门。不加挑拣地抓取整张互联网来训练的时代已经一去不返了。

LLM 的使用似乎更难了

我一直在说：LLM 是面向“高级用户”的工具——就像“伪装成菜刀的电锯”。它看起来很简单，好像只要对着聊天界面打字就行，但实际要充分挖掘它的潜力、避开它的那些陷阱，需要非常深厚的理解和经验。

在 2024 年，这个问题如果有变化，只会是变得更糟。

我们可以用人类语言跟计算机系统对话，它会回答你，而且大多数情况下还能答对！……但前提是，你得问对问题、用合适的方式提示，而且这个问题还要在它的（保密的）训练集里没有偏差或漏洞。

可如今可用的系统已经多到数不过来，而不同系统能使用的工具也不同——有的可以用 Python，有的能用 JavaScript 或网络搜索，有的能生成图像、查数据库……你必须搞清楚它们能做什么、做了没做，以及最终结果是否靠谱。

你知道 ChatGPT 里有两种截然不同的方式可以执行 Python 吗？

想让一个 Claude Artifact 访问外部 API？你得先理解 CSP 和 CORS 这套 HTTP 机制。

模型虽然变强了，但大部分局限性还在。OpenAI 的 o1 或许能（大致）数清“strawberry”里有几个“R”，但它本质上依旧是一款 LLM，而且受制于内部的运行环境。o1 不能搜索网络，也不能使用 Code Interpreter——但在同一个 ChatGPT 界面下，GPT-4o 却可以。（如果你让 o1 去做这些事，它会假装真的在做，和2023 年初的“URL 幻觉”一样是个退步。）

我们正在解决这些使用难点吗？并没有。绝大多数用户是“被扔进深水区”，而默认的 LLM 聊天界面就像让新电脑用户直接坐到 Linux 终端前一样，完全得自己摸索。

与此同时，用户对这些技术的认知常常是错误的——我见过好多例子，人们为了证明自己是对的，拿 ChatGPT 截图当证据。然而我们都知道，这些模型本身就不可靠，而且只要想办法提示，它们几乎会说任何话。

另一面，很多对 LLM 了解更深的人则完全拒绝使用它们，觉得一个“天生不可靠”的工具怎么可能有什么用。我觉得，想把 LLM 发挥到最好，就得适应“既不可靠、又特别强大”的特性，而这并不是一项容易掌握的技能！

显然，这里有极大的科普与教学空间。然而我们目前几乎把它都交给一些营销型的 AI“网红”去写夸张的推特帖文，这种局面不太理想。

知识分布极度不均

如今绝大多数人至少听过 ChatGPT 的名字。但有多少人知道 Claude？

对紧跟风口的人来说，这一年见证了很多技术更迭；但对另 99% 的人来说，信息鸿沟巨大。

这种日新月异的速度也让问题更难：就拿最近这一个月来说，市面上已经出现了可以对着手机摄像头实时交流、随时与模型语音互动的功能——还可以让它变成“圣诞老人”。连许多自认为“极客”的人都还没试过这些新玩法。

鉴于此技术正深刻影响（或将影响）社会，我并不认为这种知识隔阂有益。我们需要花更多心力来改善这一情况。

LLM 需要更好的批评

也有不少人极度厌恶这项技术。我在有些社区（Mastodon、Bluesky、Lobste.rs，甚至有时也包括 Hacker News）发现只要你一说 “LLM 很有用”，往往就会引发激烈争吵。

这可以理解。讨论能耗、训练数据合规性、模型不可靠、负面应用或对就业的冲击时，确实很容易让人憎恶这种技术。

所以 LLM 理应被批判。我们需要探讨这些问题，想办法降低负面影响，并帮助人们学会如何负责任地使用这些工具，从而扬长避短。

我欢迎对它们持怀疑态度的人——因为过去两年宣传噪音太强，出现了大量商业吹捧、误导信息以及各种盲目决策。能站出来质疑是一种宝贵的品质。

若想让真正拥有决策权的人在使用这些工具时做出正确的决定，首先得承认它们确实存在一些有益用途，然后再说明如何在实践中避开各种反直觉的陷阱。

（如果你到这里还觉得 “LLM 完全没有任何好处”，我还真不清楚你怎么会读到这儿……）

我认为一味地把这个领域描绘成“毁灭地球的剽窃机器，不停地胡编乱造”，可能会让人们忽视它潜在的价值。其实，LLM 的确有用，但要获取这些价值并不直观，需要很多经验和指引。

对那些真正了解这项技术的人来说，我们有责任帮助其他人也逐渐理清思路。