对 DeepSeek R1 的科普 [译]
姐妹们,兄弟们,最近的 AI 圈子是不是有点“猛猛的”?
不仅咱们吃瓜群众头晕,连圈内大佬都在抓狂。一会儿冒出个 R1,一会儿又蹦出来 o1、o3,还愣是不给你个 o2……让人满脸问号。
别怕!这篇文章帮你把最近的 AI 发展梳理得明明白白。就是专门写给那些“感觉自己好像应该知道,但又真的没跟上节奏”的朋友们。AI 进化速度太离谱,我们要抱紧彼此,别在这股风潮里被吹晕。
时间线
敲黑板,过去几个月究竟发生了啥?绝不让你错过任何激动人心的时刻!
2024 年 9 月 12 日:o1-preview 发布
(小试牛刀,预热一下)2024 年 12 月 5 日:o1(正式版) 发布 + o1-pro
(正式登场,大家好我叫 o1!)2024 年 12 月 20 日:o3 官宣,血洗 ARC-AGI,号称“AGI”
(一看到“AGI”,是不是有点腿软?)2024 年 12 月 26 日:DeepSeek V3 发布
(圣诞过完,一份迟到的“礼物”)2025 年 1 月 20 日:DeepSeek R1 发布,性能追平 o1,还开源!
(猛!突然出击!)2025 年 1 月 25 日:香港大学复现 R1 结果
(实力学校就是干脆利落:你发我就测,测完就做出来)2025 年 1 月 25 日:Huggingface 宣布要开源复现 R1
(事实证明,群众的力量杠杠的,分分钟翻版量产)
来划重点:
o1、o3、R1 都是推理模型。
DeepSeek V3 是 LLM,也就是“基础大语言模型”,而这些推理模型都是在它之上微调出来的。
ARC-AGI据说是一个对人类来说“SO EASY”,对 AI 来说“好难”的基准。但 AI 一旦通过它,就和咱们人类不相上下啦。
(抱歉啊,打住!有人指正这理解不太对,详情见下面编辑部分。)
编辑:
其实 ARC-AGI 并不是那么“高深莫测”,至少 Francois Chollet 的解释里说,它是一个最最最基础的流体智力评估,若不能通过,说明在陌生场景下基本没啥自适应和解决能力。
推理与 Agent
各位,先来搞清楚重点:推理模型跟 Agent 到底谁是谁?要不搞懂这俩概念,分分钟被绕晕。
推理模型 ≠ Agent
推理模型能在回答前“想一下”。LLM 的“想”就是不断生成一堆 Token,靠海量输出去撞对答案,虽然听着有点笨拙,但人家偏偏真的奏效。
可 Agent 就更厉害了,它不仅要“想”,还要有决策和行动这两大超能力:
自治能力——能自己拿主意,完成任务;
能跟外界互动——不止在文本里输出,而是能实际操作或执行某些指令。
所以,单独的 LLM 或推理模型只会文思泉涌写写写,它没法去真正完成那些大规模操作(比如帮你订机票啊,真的控制机械臂啊)。得配合软件,赋予它实际“操控世界”的本事。
总的来说,Agent = 模型 + 软件(外加可能的硬件),让 AI 系统自己在世界里造作。
推理为什么重要
之所以推理模型老跟 Agent 混在一起,就是因为现在推理是关键瓶颈。
要想搞任务规划、监督、验证、变聪明,都离不开推理。你没推理,Agent 就是纸上谈兵。但等推理这关也被打穿,估计又会有下一关在等着我们。
推理需要变得廉价
你要是指望 Agent 24 小时不间断,像打了鸡血似地工作,那计算成本不得吓死人?如果推理每次都超级烧钱,那可顶不住。
所以 R1 现在的狠招在于:它比 o1 便宜 30 倍!但效果还差不多。能省钱,谁不爱?
R1 的重要意义
便宜、开源、能跟 o1 抗衡,还提供了“官方透视”——OpenAI 原先一副神秘面纱,现在被 R1 大方一掀。
有人根据公开文档猜测 o1 的原理,结果 R1 的论文一下验证了大部分。说明咱们现在对 o1 的发展路径(往后 o3、o4)都一清二楚啦。
而且 R1 一开源,相当于给全世界打了通行证——人人都能基于它去创新。这不,这几天各种复现版本满天飞,有些人甚至说只花 30 美金就搞定了?这就是开源的魅力呀:便宜+快速迭代=脑洞大开。
更重要的是,R1 扼杀了一些超级复杂的概念(比如 DPO、MCTS),“打脸式”地证明:简单粗暴的传统 RL 就能跑通未来!
AI 的发展走势
现在看 AI,你想知道它是要登天还是原地踏步?发展靠的又是什么?带你往下看。
预训练规模扩张的路走不通了
当初 GPT-4 上线,大家都在聊:只要你有钱有资源,把模型越做越大,喂更多数据,性能就会蹭蹭蹭往上飙——所谓的预训练规模定律。
可是后来发现,这条路并不是无上限的。因为能抓到的数据就那么多,而且遇到很多隐形门槛。加上人家又发现了别的更神奇的“加速定律”,所以原来的那套也就不再风光了。
(别走开,下面更劲爆)
推理阶段的规模定律
这是说推理模型(像 o1、R1 这种),它们越能“反复思考”,效果越吓人——思考时间越长,表现越好。
不过“怎么让模型多思考”这个话题就更刺激了:
最简单的思路:让模型写出Chain of Thought (CoT),先把思路列出来;
可有人又在探索像Entropix 这类新方法,想用模型的内部信号来找最有效率的推理路径;
还有人玩 MCTS,生成好多个分支再淘汰……
结果,研究来研究去,最后发现 CoT 最实用。R1 只做了一个单行 CoT,用 RL 来训练,就够了!(当然也可能有点其他巧妙细节。)
缩小模型体量(新的规模定律?)
早在 2024 年,GPT-4-turbo、GPT-4o、Claude 系列……大家都在做同一件事:越改越小,越改越便宜。
道理也简单,如果要在推理中疯狂生成 Token,那模型小点儿算得就更快,也就能“思考”更多步,再配合一些策略,自然而然提升效果。
所以在这里,“模型越小,可能越厉害”并不是一句废话。
强化学习(新的规模定律?)
R1 用了 GRPO(Group Rewards Policy Optimization) 来让模型在推理时自动生成 CoT,这本质上是个朴素的强化学习:就看你对不对、格式好不好,简单粗暴打分。
DeepSeek-R1-Zero 甚至把方法精简到只留 GRPO,就能比 R1 还准。不过副作用是,它会在中英文之间来回跳,让大多数用它的用户疯掉(搞不好下一句就跑去说英文了)。
(为啥会这样?可能某些概念用英语表达更精确,用中文又更顺口,模型自己也“鸡贼”地选最合适的语言。)
最绝的是,今天(2025 年 1 月 25 日),有人说:“随便换个 RL 算法比如 PPO、PRIME,都行啊!” 而且只要参数大于 15 亿,模型就能自发蹦出这种“推理时深度思考”的技能。
天啊,让我们拭目以待,它会飞到多高?
模型蒸馏(新的规模定律?)
R1 还靠自己更早期的 checkpoint 做蒸馏训练。
通常“蒸馏”是让一个大的老师模型给小的学生模型生成训练数据。但 R1 的套路是不管大和小,自己在自己体内循环迭代,疯狂搞 SFT(监督微调)+ RL 交替提升。
究竟能卷到啥程度?
九天前有人爆料说 GPT5 可能已经有了,而 GPT4o 只是它的蒸馏小马甲。这篇文章 说,OpenAI 和 Anthropic 可能已经发现一条“无限循环”道路:先训一个超大模型,再蒸馏成中号模型,然后用中号模型去辅助训练更大的……周而复始,谁也不知道会不会冲向 AI 真·巅峰。
对照 R1 的论文,好像确实证明这东西可行,而且说不定人家早就在干了。
(有人还发现学生可能超越老师,当然也要看具体情况。反正模型塌缩也一直是个忧虑,但目前还没到特别危险的程度。总之,蒸馏这条路子,还能玩出无数花样。)
2025 年的预测
眼下:
预训练难度大增(但还没死)
推理阶段大爆发
模型越做越小
强化学习新玩法不断
蒸馏技术也出现“规模定律”
有一说一,AI 不像要慢下来的样子。你以为预训练放缓了点儿,可没想到推理、RL、蒸馏都来一波爆发接力。这应该会让 AI 的发展继续加速加速再加速,甚至迎来一波又一波的疯狂。
地缘政治:Distealing
(这是我新造的词儿,指“未经授权的蒸馏”,好听吧,快拿去玩)
软件现在超政治化,AI 更是各路势力都争得头破血流。什么美国、欧洲、中国,各有玩法:
美国:财大气粗,“有钱就砸”,火力全开加速 AI;
中国:受限于出口管制,只好另辟蹊径,用聪明才智和性价比杀出血路;
欧洲:要么监管,要么开源,选择题就摆那儿。
有人怀疑 DeepSeek 是不是把 o1“偷”来蒸馏成了 R1,但这么多团队都能复现 R1,我看这八成只是中国团队技术猛,突然爆发了一把。反正“中美对抗”的戏码还得继续,背后政治博弈会越来越有趣。
还要重点提醒:AI 的实力若真的以指数级在增长,那政治和地缘政治的影响得有多大,谁都说不准。我们干 AI 的,也得有点政治思维。监管也好、限制也罢,咱最好都留个心。
结论
没错,这进展速度简直让人看着头晕眼花。但,R1 的出现给了我们一个难得的清晰窗口:不再是之前那种“OpenAI 一手遮天,外界只能猜测”,现在我们大概知道未来 AI 会怎么走,而且它看起来正走向加速度。
请各位系好安全带,前方高能!
讨论
(好了,吃瓜完毕,咱散了吧!)