大语言模型高考数学拿高分靠强化学习,那文科考高分得靠什么?

上次分析了大语言模型在高考数学考试中拿高分靠的是强化学习,也就是在后训练阶段,自己训练自己做有标准答案的数学题或者编程题,反复的自己刷题,做完题目对答案,答案做对了就有奖励,做错了就有惩罚,最终自己训练自己越练越牛。但是文科这样做行不通,因为文科很多题目没有标准答案,它就没有办法用文科题目自己训练自己,做强化学习。

那么这次豆包1.6系列在高考文科全科试卷中,拿到了 683 分(满分 750)的高分,按山东高考的赋分排名是够上清北的,靠的是什么呢?

我分析下来主要有几个原因:

  1. 训练数据

  2. 思维链(CoT,Chain of Thought)

  3. 长上下文

  4. 多模态直接读图

接下来我稍微解释一下

1. 训练数据:人文领域语料比例更高、质量更好

虽然我们有时候开玩笑说文科要考死记硬背,但这也确实反应了文科科目是需要大量记忆的,优质的语料至关重要,不仅要保证数据更新及时,还需要对数据清洗去重,提高知识密度和领域覆盖度。这样模型在回答历史叙事、地理概念、政治与经济常识等题型上,因为“见过的例子更多”,自然可以回答的更好,分数更高。

2. 思维链:文科也要思考

文科考试不意味着真的只是靠死记硬背,对于复杂的题目同样需要推理,思维链可以在输出答案前进行多步内在思考,逐步拆解,再生成结构化答案,可显著提高复杂问题的正确率。一个简单的例子就是英语翻译,如果在翻译完一遍后,让 AI 自己对翻译内容进行检查,输出检查结果,再基于检查和第一次翻译的结果重新翻译,翻译质量就会显著提高。

那么是不是什么问题都要加上思维链呢?

也并非这样,因为对于很多文科题目来说,可以直接输出答案而不必借助思维链,比如一些历史事件的年份之类,思维链毕竟是有时间成本和算力成本的,考试都有时间要求,做的时间长了可能就来不及做完了。所以现在先进的模型都会根据问题的复杂程度,来决定要不要推理,已经推理时长多少,比如 Claude 4、豆包 Seed 1.6都是如此,模型可以动态决定思考模式:

  • 全思考(FullCoT):对所有 prompt 都会进行思考再给出回答,同时对 CoT 长度进行了压缩

  • 不思考(NoCoT):对所有 prompt 都不会进行思考,直接回答,效率更高

  • 自适应思考(AdaCoT):以上两种模式的融合,模型会根据不同的 prompt,自动选择是否进行思考

3. 长上下文:长材料题一口气读完

在我们向 AI 提问时,上下文指的是给 AI 发送、AI 推理思考的内容和 AI 最终生成的所有信息。不同的模型上下文窗口长度限制不同,比如早期 GPT-3.5 只有 4K 的上下文窗口长度,如果让它做复杂的很长的阅读分析题,它就力不从心了,而长上下文不仅意味着要能输入很长的内容,同时输入的内容多了还不能降低生成质量,所以你看很多模型虽然号称上下文窗口多大多大,但是输入的内容长了就记不住输入的内容了。

大语言模型要在高考的文科考试中取得好成绩,文科综合常见“材料阅读+多问”——几十行材料文本接着 3-5 问,上下文长度是很重要的。豆包这次能文科拿第一,256K 上下文长度是很重要的,让模一次性看到全部材料与提问,避免截断信息导致的丢失或前后矛盾。

4. 多模态直接读图:不需要担心图片转成文字造成的损耗

高考地理、生物、化学经常出现统计图、实验装置图、地图,在需要读图的考试时,不支持多模态的大模型就吃亏了,比如 DeepSeek R1 能力不错,但是做这类题时只能借助 OCR 把图片变成文字再答题,像地图、图表这些内容是很难用文字描述清楚的,这就好比一个盲人看不见,靠另一个人来描述,就会损耗很多信息,而多模态就好比人有了眼睛,能直接看到画面,就不会丢失关键信息。

像这次考试拿高分的 Gemini、豆包 Seed 1.6,对于多模态都支持很好,在预训练里就把图像-文本混合,RL 强化训练阶段又融合了视觉奖励能精准提取图表关键信息,再结合文本作答

小结

因此,大模型在语、史、地等文科科目的选择题、材料题、论述题上要能交出接近“优秀考生”甚至顶尖考生水平的答卷,依靠的主要是:

  • 记忆面宽:高质量语文/历史/地理语料 + 高频人文知识蒸馏。

  • 思考后再回答:回答复杂问题前先思考。

  • 看图能力强:图文交织预训练 + 视觉 RM ,让地图、表格、示意图不再是盲区。

  • 材料吃得下:上下文把“整卷+材料”全放进 prompt,减少信息割裂。