AI领域并无真正的新想法,只有新的数据集
作者:Jack Morris
大语言模型(LLMs)经历了四次重要的突破,而每一次都是源自新的数据
大家都知道,AI 在过去十五年,尤其是最近五年,取得了不可思议的进步。这种进步似乎是_必然的_,尽管真正意义上的范式转变级的突破并不常见,但技术依旧稳步前进。有研究者甚至提出了一种所谓的“AI摩尔定律”,认为计算机执行特定任务的能力(比如代码任务)每隔一段时间就翻倍增长:

“AI摩尔定律”(顺便说一下,如果2025年4月有人还以为AI智能体能在完全无人干预下运行一小时,那真是太天真了。)
虽然我不太认同这种具体的说法,但无法否认AI整体趋势确实在进步。每年我们的AI变得更聪明、更快速、更便宜,而且这种趋势似乎没有终点。
多数人认为,这种持续进步主要来自学术界(比如MIT、斯坦福、卡耐基梅隆)以及产业界(如Meta、谷歌和部分中国实验室)的新想法。然而,有些人认为AI进步正在放缓。Grok 3 和 GPT-4.5 等最新大模型的提升非常有限,尤其体现在数学奥林匹克竞赛中,成绩仅为5%,远低于预期。
但如果我们回顾历史上真正意义上的重大突破,其实并不频繁。下面是AI领域四次标志性的大突破:
大语言模型的四次关键突破
深度神经网络 (Deep Neural Networks, DNNs) 2012年,AlexNet 在图像识别比赛中首次胜出,引爆了深度学习热潮。
Transformer 和大语言模型 (LLMs) 2017年,谷歌发布论文《Attention Is All You Need》,提出了Transformer结构,随后催生了 BERT 和 GPT。
人类反馈强化学习 (RLHF) 2022年,OpenAI在 InstructGPT 中首次提出用人类反馈进行强化学习。
推理 (Reasoning) 2024年,OpenAI发布了O1模型,进一步推动了DeepSeek-R1的诞生。
仔细看一下,这些突破的底层理论几乎都在上世纪90年代之前就已存在。我们使用的技术无非是简单的神经网络结构,加上监督学习或强化学习:
监督学习(交叉熵损失函数)最早源自1940年代香农的信息论。
强化学习(策略梯度方法)则最早在1992年提出。
如果想法并不新,那新的到底是什么?
确实,这些“突破性成果”更像是对已知技术的新应用,而非全新的理论。那么,它们的新颖之处究竟在哪儿呢? 答案是:数据。
每次重要的突破都意味着我们成功地挖掘并利用了全新的数据源:
AlexNet 释放了 ImageNet 的价值,开启了图像识别的黄金时代。
Transformer 使我们能高效处理整个互联网上海量的文本数据。
RLHF 开启了人类反馈(“好文本”)作为数据源的时代。
推理模型 则利用了“验证器”(例如计算器、编译器)来训练模型的能力。
每一次突破都伴随着研究人员的激烈竞争,他们纷纷去抓取、分类并更有效地利用这些新数据。

当我们首次拥有 ImageNet 时,AI进步或许就变得必然了。
新想法到底多重要?
反过来讲,如果当初没有AlexNet,也许其他架构同样能处理ImageNet。如果没有Transformer,我们可能继续用LSTM或其他模型来处理Web上的海量数据。实际发现表明,改变数据比调整模型或优化算法的作用更为明显。
研究人员曾经尝试用非Transformer架构训练类似BERT的模型,经过一年多的努力,最终发现:架构改进后的模型与原来的Transformer模型表现基本相同,这暗示了数据本身存在上限,方法上的创新无法突破数据本身的限制。
这其实就是所谓的“苦涩教训(The Bitter Lesson)”:数据才是真正关键的因素。
下一个AI范式转变的来源在哪里?(可能是YouTube?)
下一个大突破很可能不会来自新颖的模型架构或强化学习方法,而是来自我们尚未完全挖掘的新的数据源。
YouTube 每分钟就有500小时的视频上传,这远比整个互联网的文本量更多、更丰富。如果我们的模型和硬件能力足够,谷歌必然会大量利用YouTube的数据。此外,另一个可能是来自于具身化的数据,也就是机器人实时采集的数据。
很难预测YouTube或机器人是否会成为AI的下一个巨大突破。但我们至少可以确定的是:
如果想推动AI的进步,也许我们不该再迷恋新方法,而应去寻找新的数据。
原文:There Are No New Ideas in AI… Only New Datasets https://blog.jxmo.io/p/there-are-no-new-ideas-in-ai-only