从错误中学习:让大语言模型更擅长推理 [译]
近期,大语言模型(LLM)展示出在解决数学题目上的出色推理能力。为了让这种能力更上一层楼,我们提出了“从错误中学习”(LeMa)这一方法,它借鉴了人类学习过程中的机制。就像一个解题失败的学生会反思自己的错误并学会如何改正一样,LeMa 也通过这样的错误驱动学习过程对 LLM 进行了微调。我们首先从不同的 LLM 中挑选出错误的推理过程,然后使用 GPT-4 作为“纠错师”,负责识别错误的环节、解释错误发生的原因,并对错误进行改正,最终得出正确答案。实验结果表明,LeMa 的确能够提升 LLM 的性能:在五个不同的 LLM 和两个数学推理任务中,LeMa 都比单独使用 CoT 数据进行微调表现得更好。尤其值得一提的是,LeMa 甚至能够提升专业 LLM 如 WizardMath 和 MetaMath 的性能,在 GSM8K 任务上达到了 85.4% 的 pass@1 准确率,在 MATH 任务上达到了 27.1% 的准确率,这些成绩超过了这些困难任务上其他非执行开源模型所能达到的最先进水平。
November 1, 2023
View Article