退一步,看得更远:通过抽象引发大语言模型中的推理 [译]

注:“Step Back”的意思是“退后一步”、“抽象思考”或者“从高层次审视”。这里 "Step-Back Prompting" 翻译为“退一步提示法”,表示思考和解决问题时先退后一步,从高层次进行考虑。

Huaixiu Steven Zheng、Swaroop Mishra1、Xinyun Chen、Heng-Tze Cheng
Ed H. Chi、Quoc V Le、Denny Zhou
Google DeepMind
共同贡献

摘要

我们为大家介绍了一个称为“退一步提示法(Step-Back Prompting)”的新技巧,能让语言模型通过抽象思考,从具体信息中找到核心观念和基础原理。凭借这些核心观念和原理,语言模型在逻辑推理上的表现得到了显著的提升。在对 PaLM-2L 模型进行实验时,我们发现这种方法在多种需要深度推理的任务上都有很好的效果,涵盖了 STEM、知识问答以及多跳推理等领域。举例来说,通过这种方法,PaLM-2L 在物理和化学问题上的性能分别提升了 7% 和 11%,在 TimeQA 上提升了 27%,在 MuSiQue 上提升了 7%。

抽象不是为了故意让人迷惑,而是为了构建一个更高的语义层次,在这个层次上可以做到绝对的准确。—— Edsger W. Dijkstra

1 引言

自然语言处理(NLP)这个领域正在经历一场划时代的变革,这要归功于基于 Transformer 技术的大语言模型(LLMs)。这些模型,如 Vaswani 等人在 2017 年提出的,以及 Devlin、Raffel、Brown 和 Anil 等人在随后的几年中提出的,已经大大提升了处理语言的能力。

这些大语言模型通过增加其规模和扩充其在预训练阶段使用的文本数据量,已经取得了令人瞩目的进展。Hoffmann、Chowdhery 等人通过他们的研究证实了这一点,并提出了规模化定律,这一定律揭示了随着模型规模和数据量的增加,模型性能将会不断提升。这些大语言模型不仅能够更高效地处理样本,还展现出了如多步推理和遵循指令等新能力。

图 1 显示了我们提出的“退一步提示法”(Step-Back Prompting)策略在
STEM、知识问答和多跳推理等复杂任务上取得了显著的成功。这些任务通常需要复杂的、多步骤的推理过程。
图 1 显示了我们提出的“退一步提示法”(Step-Back Prompting)策略在 STEM、知识问答和多跳推理等复杂任务上取得了显著的成功。这些任务通常需要复杂的、多步骤的推理过程。

图 1:我们提出的“退一步提示法”(Step-Back Prompting)策略在 STEM、知识问答和多跳推理等复杂任务上取得了显著的成功。这些任务通常需要复杂的、多步骤的推理过程。

尽管我们在这个领域取得了巨大的进展,但对于最先进的大语言模型来说,执行复杂的多步推理任务仍然是一个挑战。Lightman 等人在他们 2023 年的研究中表明,通过对模型在每一步推理中的输出进行逐步验证和监督,可以提高其在整个推理过程中保持正确性的可能性。此外,Wei 等人提出的“思考链”(Chain-of-Thought)提示技术也被证明能够帮助模型生成一系列连贯且正确的中间推理步骤,从而提高最终答案的准确性。

受到人们在面对复杂任务时通常会退一步,抽象化思考问题的启发,我们提出了“退一步提示法”策略。通过这种方式,我们希望模型能够在进行推理时以更加抽象和高层次的概念为基础,从而减少在中间推理步骤中犯错误的可能性,最终达到提高整个推理过程正确性的目的。

图 2 显示了一个名为“Step-Back
Prompting”的两步抽象和推理过程,通过概念和原则的引导来实现。
图 2 显示了一个名为“Step-Back Prompting”的两步抽象和推理过程,通过概念和原则的引导来实现。

图 2:显示了一个名为“Step-Back Prompting”的两步抽象和推理过程,通过概念和原则的引导来实现。在图中的上半部分,我们看到一个高中物理的题目,这个题目来源于 MMLU(Hendrycks 等人,2020),在这个例子中,理想气体定律的基本原理是通过一系列的抽象操作得到的。而在下半部分,我们看到了一个来自 TimeQA 的问题(Chen 等人,2021),在这个例子中,"教育历史"这一高级概念是通过抽象过程得到的。在图的左侧,我们可以看到 PaLM-2L(Anil 等人,2023)在尝试回答原始问题时失败了,而 Chain-of-Thought Prompting 方法在中间的推理步骤中也出现了错误(用红色标出)。而在图的右侧,我们看到通过使用“Step-Back Prompting”方法,PaLM-2L 成功地回答了问题。

图 2 文字内容翻译如下:

Original Question 原始问题

  • What happens to the pressure, P, of an ideal gas if the temperature is increased by a factor of 2 and the volume is increased by a factor of 8 ?
    如果理想气体的温度增加了 2 倍,体积增加了 8 倍,那么压力 P 会发生什么变化?

Chain-of-Thought 链式思考

  • ...If the temperature is increased by a factor of 2 and the volume is increased by a factor of 8, we can rewrite the ideal gas law as: P'(8V) = nR(2T), where P' represents the new pressure.
    ...如果温度增加了 2 倍,体积增加了 8 倍,我们可以将理想气体定律重写为:P'(8V) = nR(2T),其中 P'表示新的压力。
  • Simplifying the equation, we get: 16PV = 2nRT or P' = (2nRT) / (16V)
    简化方程式,我们得到:16PV = 2nRT 或 P' = (2nRT) / (16V)
  • Since n, R, and V are constants, we can write this as: P' = (1/8) _ P This means the new pressure P' is 1/8 of the original pressure P...
    由于 n、R 和 V 是常数,我们可以将其写为:P' = (1/8) _ P 这意味着新的压力 P'是原始压力 P 的 1/8...

Original Answer 原始答案

  • If the temperature is increased by a factor of 2 and the volume is increased by a factor of 8, then the pressure will decrease by a factor of 16.
    如果温度增加了 2 倍,体积增加了 8 倍,那么压力会减少 16 倍。

Step-Back Prompting 退一步提示

  • Stepback Question 退一步问题
  • What are the physics principles behind this question?
    这个问题背后的物理原理是什么?
  • Stepback Answer 退一步答案
  • Ideal gas law: PV = nRT, where P is the pressure, V is the volume, n is the number of moles, R is the gas constant, and T is the temperature.
    理想气体定律:PV = nRT,其中 P 是压力,V 是体积,n 是摩尔数,R 是气体常数,T 是温度。

Original Question 原始问题

  • Estella Leopold went to which school between Aug 1954 and Nov 1954?
    Estella Leopold 在 1954 年 8 月至 1954 年 11 月期间去了哪所学校?

Chain-of-Thought 链式思考

  • ... After that, she pursued graduate studies at the University of California, Berkeley, earning her master's degree in 1950 and her Ph.D. in 1955. Considering this timeline, it is highly likely that Estella Leopold was attending the University of California, Berkeley, between August 1954 and November 1954...
    ...之后,她在加利福尼亚大学伯克利分校攻读研究生,于 1950 年获得硕士学位,于 1955 年获得博士学位。考虑到这个时间线,Estella Leopold 很可能在 1954 年 8 月至 1954 年 11 月之间在加利福尼亚大学伯克利分校就读...

Original Answer 原始答案

  • Estella Leopold attended the University of Wisconsin-Madison between August 1954 and November 1954.
    Estella Leopold 在 1954 年 8 月至 1954 年 11 月期间就读于威斯康星大学麦迪逊分校。

Step-Back Prompting 退一步提示

  • Stepback Question 退一步问题
  • What was Estella Leopold’s education history?
    Estella Leopold 的教育背景是什么?
  • Stepback Answer 退一步答案
  • B.S. in Botany, University of Wisconsin, Madison, 1948 M.S. in Botany, University of California, Berkeley, 1950 Ph.D. in Botany, Yale University, 1955
    植物学学士,威斯康星大学麦迪逊分校,1948 年 植物学硕士,加利福尼亚大学伯克利分校,1950 年 植物学博士,耶鲁大学,1955 年。

抽象是我们认知技能中极为重要的一环,它使我们能够处理大量的信息,并从中提炼出一般规则和原则(Lachmy 等人,2022)。比如说,开普勒就通过抽象过程,从数千个测量数据中总结出了描述行星绕太阳运动的三条定律(Russell, 1964)。在做关键决策时,我们发现抽象能提供更宽广的视角,从而帮助我们做出更好的决策。在这项工作中,我们探索了大语言模型(LLMs)如何通过一个两步的抽象和推理过程来处理那些涉及众多细节的复杂任务。首先,我们教会了 LLMs 如何退后一步,从具体的例子中抽象出高级的概念和基本原则;其次,我们利用 LLMs 的推理能力,将解决方案建立在这些高级概念和基本原则之上。我们使用了一些示例演示来实现“Step-Back Prompting”在 LLMs 上的应用。

通过在一系列涉及特定领域推理(如物理和化学)、知识密集型问题回答和多跳常识推理等任务上的实验,我们观察到 PaLM-2L(Anil 等人,2023)在性能上取得了显著提升(最高达 27%),这证明了“Step-Back Prompting”在处理那些因为细节过多而通常很有挑战性的复杂任务方面的有效性。图 1 总结了本文中呈现的所有主要结果。其中一些任务非常具有挑战性,PaLM-2L 和 GPT-4 在 TimeQA 和 MuSiQue 这两个任务上的准确率仅约为 40%。虽然 Chain-of-Thought Prompting 在一些任务上取得了小幅度的改进,但“Step-Back Prompting”在整体上提升了 PaLM-2L 的性能:在 MMLU 的物理和化学题目上分别提升了 7% 和 11%,在 TimeQA 上提升了 27%,在 MuSiQue 上提升了 7%。

我们通过一系列的分析发现,退一步提示法(Step-Back Prompting)在性能上比链式思维提示(CoT)和深呼吸提示(TDB)高出不少(最高可达 36%)。经过详细评估,我们观察到它能够纠正大量基础模型的错误(高达 40% 左右),同时只会引入少量的新错误(最多大约 12%)。错误分析显示,退一步提示法的大部分错误源自于大语言模型(LLMs)本身推理能力的限制,而提升它们的抽象能力相对来说比较容易,这为未来进一步优化这类方法提供了方向。

2. 什么是退一步提示法?

退一步提示法这个方法的灵感来自于一个观察:很多任务都很复杂,充满了细节,让大语言模型(LLMs)很难找到解决问题所需的相关信息。比如在图 2 的第一个例子中,一个关于物理的问题:“如果一个理想气体的温度翻了一番,体积增加了八倍,那么它的压强 P 会发生什么变化?”LLM 在直接解答这个问题时可能会忽略理想气体定律的基本原则。类似地,一个询问“Estella Leopold 在 1954 年 8 月到 11 月期间就读于哪所学校?”的问题,由于时间范围非常具体,直接回答也是非常困难的。在这两种情况下,通过退一步提问,我们能够帮助模型更有效地解决问题。

我们定义退一步问题为从原始问题中派生出来的、层级更高的抽象问题。比如,不直接问“Estella Leopold 在特定时间段内的学校是哪所”,我们可以问一个更高层次的问题:“Estella Leopold 的教育历史是怎样的?”(如图 2 下方所示)。通过回答这个更抽象的问题,我们能获得解答原始问题所需的所有信息。通常来说,退一步问题比原始问题更容易回答。基于这种抽象层次的推理有助于避免中间步骤的错误,就像图 2 中左侧的链式思维提示的例子一样。总的来说,退一步提示法包含两个简单的步骤:

  1. 抽象:我们首先提示 LLM 提出一个关于更高层次概念或原则的通用问题,并检索与之相关的信息,而不是直接回答原始问题。
  2. 推理:在获取了关于高层次概念或原则的信息后,LLM 可以基于这些信息对原始问题进行推理。我们将这种方法称为基于抽象的推理。

在接下来的部分,我们将展示在一系列复杂的 STEM、知识问答和多步推理任务上对退一步提示法的实证研究。

3. 实验设置

在这一部分,我们将定义我们实验中使用的任务和模型,并描述评估指标和我们用作比较的基准。

3.1 任务

我们在这项研究中涉及了多个不同领域的任务,包括 STEM 科学、知识问答和多步推理。具体的数据集详情请参见附录 B

  • STEM 科学:我们选用了 MMLU 数据集(参见 Hendrycks et al., 2020),其中包含了多个领域的基准测试,用以评估模型对语言的理解能力。我们特别关注其中的高中物理和化学部分,因为这两部分需要深度的推理能力。

  • 知识问答:我们使用了 TimeQA(参见 Chen et al., 2021)数据集,它包含了一系列复杂的、时间敏感的问题。我们还使用了 SituatedQA 数据集(参见 Zhang and Choi, 2021),它要求模型能在特定的时间或地点背景下回答问题。

  • 多步推理:我们利用了 MuSiQue(参见 Trivedi et al., 2022)和 StrategyQA(参见 Geva et al., 2021)两个数据集来测试模型在复杂推理任务上的表现。

3.2 模型

在模型方面,我们选用了最先进的大语言模型 PaLM-2L(参见 Anil et al., 2023)和 GPT-4(参见 OpenAI, 2023),并对 PaLM-2L 模型进行了一系列基准测试。

3.3 评估

在评估方面,传统的评估指标如准确率和 F1 分数并不能很好地反映出最先进大语言模型的性能,因为这些模型往往会生成较长的答案。因此,我们采用了一种基于 PaLM2-L 模型的评估方法,通过 few-shot 学习来判断模型的答案是否与目标答案等价。具体的评估细节和使用的示例可以在附录 C 中找到。

3.4 对比方法

  • PaLM-2L 和 PaLM-2L 单次示例:PaLM-2L 可以直接回答问题,或者在提示中给出一个问题和答案的示例。

  • PaLM-2L + CoT 和 PaLM-2L + CoT 单次示例:在不给出示例的情况下,我们使用了链式思考(CoT)的方法来查询 PaLM-2L 模型(参见 Kojima 等人,2022 年的研究)。我们在问题后面加上“让我们一步步来分析”。对于单次示例,我们在提示中提供了一个包含问题和答案的示例,答案是按照链式思考的方式给出的,中间包含了推理的步骤(参见 Wei 等人,2022 年的研究)。

  • PaLM-2L + TDB:在不给出示例的情况下,我们使用了“深呼吸,一步一步来解决这个问题”这种提示方式来查询 PaLM-2L 模型(参见 Yang 等人,2023 年的研究)。

  • PaLM-2L + RAG:在第5章中,我们使用了检索增强生成(RAG),即使用检索到的相关文段作为大语言模型(LLM)的上下文。

  • GPT-4:我们直接查询了 GPT-4 API。

我们没有在 MMLU 测试中使用 RAG,因为这个测试本身就需要推理能力,与其他需要查找事实的数据集不同。所有的推断都是通过贪婪解码来完成的。

MethodMMLU PhysicsMMLU Chemistry
PaLM-2L66.4% (0.8%)70.9% (0.9%)
PaLM-2L 1-shot64% (1.6%)75.6% (0.4%)
PaLM-2L + CoT65% (2%)75.3% (1.5%)
PaLM-2L + CoT 1-shot61.5% (1.8%)76.6% (1%)
PaLM-2L + TDB65.7% (0.7%)73.8% (1.1%)
PaLM-2L + Step-Back (ours)73.2% (1.9%)81.8% (1.4%)
GPT-470.3% (2.3%)79.9% (1.0%)

表 1:在 STEM(科学、技术、工程和数学)任务中,退一步提示法表现出色,超过了 GPT-4,成为了当前最优的方法。CoT 指的是链式思考提示法,TDB 是深呼吸提示法。表格显示了 5 次评估运行的平均准确率,括号内是标准差。

4 STEM

我们在 STEM 领域的任务上测试了退一步提示法,以此来验证我们方法在专业领域进行推理的效果。我们在这里详细介绍了在 MMLU 高中物理和化学基准测试上应用退一步提示法的实验设计、结果和分析。

4.1 退一步提示法

在 MMLU 的基准测试中,问题通常比较复杂,需要我们深入思考。而且,我们还需要运用一些物理学和化学的公式和原理来解决问题。为了应对这一挑战,我们得先教会我们的模型如何去抽象化地思考问题,学会运用一些基本的概念和原理,比如牛顿的第一运动定律、多普勒效应和吉布斯自由能等等。我们在这里要回答的一个核心问题就是:“解决这个问题需要运用哪些物理或化学的原理和概念呢?”为了回答这个问题,我们向模型展示了一些示例,教它如何回顾自己的知识库,找出解决问题所需的相关原理(具体示例可以参见附录 D.1)。

图 3 展示了我们对“退一步提示法”这一方法在 MMLU
高中物理学科上的准确性进行的一项研究。
图 3 展示了我们对“退一步提示法”这一方法在 MMLU 高中物理学科上的准确性进行的一项研究。

图 3 展示了我们对“退一步提示法”这一方法在 MMLU 高中物理学科上的准确性进行的一项研究。从图中我们可以看出,无论我们提供多少个示例,这种方法都能保持稳健的性能。

4.2 实验结果

表格 1 展示了在不同设置下,我们模型的性能表现。在物理和化学这两个科目上,PaLM-2L 这个基准模型的性能分别为 66.4% 和 70.9%。我们注意到,即使是使用了 CoT 和 TDB 这两种零次提示的方法,模型的性能也没有显著提升,这可能是因为这些任务本身就相当有难度,需要深度的推理。此外,无论是用一个示例来训练 PaLM-2L,还是结合 CoT 方法来训练,性能提升都非常有限,这凸显出向模型展示推理步骤的难度。而与此相对照的是,“退一步提示法”这种方法却显著提升了模型的性能,相较于 PaLM-2L,它在物理和化学两个科目上的性能分别提升了 7% 和 11%,甚至超过了 GPT-4,达到了当前的最高水平。

4.3 消融实验与深入分析

少示例消融实验:首先,从图 3我们可以看出,“退一步提示法”(Step-Back Prompting)对于少量示例的表现相当稳健。事实上,增加更多示例并没有带来额外的帮助,一个示例就已经足够了。这意味着从示例中学习提取相关原则和概念是一个相对容易的任务。

错误分析:从图 4左侧的分析中,我们发现与基线模型 PaLM-2L 相比,“退一步提示法”在高中物理的 MMLU 任务中纠正了 20.5% 的错误,但同时也引入了 11.9% 的新错误。

为了更深入地理解“退一步提示法”中的错误来源,我们对测试集中所有错误的预测进行了注释,并将其分类为五类(详见附录 E.1,其中包含了每类错误的示例):

  • 原则错误:错误发生在抽象阶段,即模型生成的首要原则错误或不完整。
  • 事实错误:模型在陈述自己的事实知识时至少出现了一个错误。
  • 数学错误:在进行中间步骤的数学计算时至少出现了一个错误。
  • 上下文丢失:模型的响应失去了与问题的上下文关联,偏离了原始问题的解答。
  • 推理错误:模型在达到最终答案之前的中间推理步骤中出现了错误。

这五种错误类型中,除了原则错误发生在抽象阶段外,其他都发生在推理阶段。正如图 4右侧所示,“退一步提示法”中的错误主要集中在推理阶段,其中推理错误和数学错误是主要的失误类型。这验证了之前的消融实验中的发现:教会大语言模型抽象技能只需要极少的示例。然而,推理阶段仍然是“退一步提示法”执行 MMLU 这类复杂推理任务的瓶颈。对于 MMLU 物理学任务来说,即使首要原则被正确提取,深入的推理和数学运算仍然是解决问题的关键,这通常涉及到复杂的多步推理过程。

图 4:“退一步提示法”在 MMLU
高中物理学上的错误分析。
图 4:“退一步提示法”在 MMLU 高中物理学上的错误分析。

图 4:“退一步提示法”在 MMLU 高中物理学上的错误分析。左侧:基线预测和“退一步提示法”预测的正确与否的四种情况示例分类。右侧:“退一步提示法”产生的五类错误,其中推理错误占主导地位。

MethodTimeQATQA EasyTQA HardSituatedQA
PaLM-2L41.5%42.6%40.4%54.3% (0.3%)
PaLM-2L 1-shot40.7%41.7%39.1%51.8% (0.6%)
PaLM-2L + CoT40.8%41.8%39.8%56.4% (0.2%)
PaLM-2L + CoT 1-shot38.1%39.3%36.8%54% (0.8%)
PaLM-2L + TDB40.9%42.6%39.1%54% (0.5%)
PaLM-2L + RAG57.4%67.8%46.8%59.3% (0.4%)
PaLM-2L + Step-Back (ours)66%70.4%61.6%57.5% (0.3%)
PaLM-2L + Step-Back + RAG (ours)68.7%75.2%62.3%61% (0.4%)
GPT-445.6%48.9%42.6%63.2% (0.4%)

表 2:“退一步提示法”在知识问答任务上展现出卓越的性能。CoT: 链式思考提示,TDB: 深呼吸提示,RAG: 检索增强生成。“退一步提示法”带来了显著的性能提升。

5 知识问答

我们在一些需要丰富事实知识支持的问答测试中对 "Step-Back Prompting" 这种技术进行了评估,这对于大语言模型(LLMs)来说一直是个难题。本节中,我们将首先介绍实验的具体设置,然后分享并分析我们使用 "Step-Back Prompting" 技术取得的成果和发现。

5.1 关于退一步提示

在 Knowledge QA 这一类别中,我们选择了 TimeQA(由 Chen 等人于 2021 年提出)和 SituatedQA(由 Zhang 和 Choi 在 2021 年提出)作为我们评估 "Step-Back Prompting" 技术的测试对象。我们的第一步是教大语言模型如何进行抽象思考。以“Estella Leopold 的教育背景是什么?”这个步退问题为例,它出现在 图 2 中,是通过向语言模型展示少量示例生成的(详细信息请参见附录 D.2)。考虑到这些问题本身所需的深厚知识背景,我们决定将检索增强(RAG)技术与 "Step-Back Prompting" 结合起来使用。我们利用步退问题来查找相关的事实信息,这些信息将作为额外的上下文(具体的提示模板可参见表 12),帮助模型进行最后的推理和判断。

5.2 实验结果

我们在 TimeQA 的测试数据集上对模型进行了一番测评。从 表 2 的数据可以看出,GPT-4 和 PaLM-2L 这两个基准模型的表现分别为 45.6% 和 41.5%,这一结果凸显了这个任务的挑战性。而对这两个模型运用零次或一次提示的 CoT 和 TDB 技术,并未带来性能上的提升。但是,如果我们对基准模型进行常规的检索增强(RAG),准确率就能显著提升至 57.4%,这一点突出显示了该任务对事实的密集需求。而通过 Step-Back + RAG 的处理,我们将任务抽象为高层次概念进行处理,这样的检索增强方法更为可靠,使 TimeQA 上的准确率达到了卓越的 68.7%。

随后,我们根据 TimeQA 数据集原本的难易分级,将其划分为“简单”和“困难”两个部分。不出所料,在“困难”部分,所有方法的性能都有所下降。尽管 RAG 技术将“简单”部分的准确率从 42.6% 提升到了 67.8%,但在“困难”部分的提升幅度却小得多,从 40.4% 只提升到了 46.8%。而 Step-Back Prompting 在这里展现了其独特的优势,通过退一步并检索与高层次概念相关的事实来支持最终的推理过程,使得“困难”部分的准确率进一步提高到了 62.3%,超越了 GPT-4 的 42.6%。我们认为,与高层次概念(比如“教育历史”)相关的事实要比细枝末节的详情更易于获取。

在 SituatedQA 的基准测试中,我们的最佳方法 Step-Back + RAG 较 GPT-4 略有逊色,从 54.3% 提升到了 61%,而 GPT-4 为 63.2%。和 TimeQA 类似,对于 SituatedQA 来说,CoT 和 TDB 这样的提示技术并没有带来明显的帮助。

图 5 展示了对 TimeQA 上 Step-Back Prompting 进行的深入分析和错误分类。
图 5 展示了对 TimeQA 上 Step-Back Prompting 进行的深入分析和错误分类。

图 5 展示了对 TimeQA 上 Step-Back Prompting 进行的深入分析和错误分类。左边是基于不同数量示例进行的消融实验,右边则展示了 Step-Back 在使用推理和 RAG 时可能犯的四种错误类型,其中推理和 RAG 是主要的错误来源。

5.3 削减实验与深入分析

少示例削减实验:从图 5(左侧)我们可以看出,无论在演示中使用了多少示例,Step-Back Prompting 的表现都相当稳定,这再次证明了在像 PaLM-2L 这样的模型中学习抽象技能的高效性。

错误分析:图 5(右侧)详细展示了 Step-Back Prompting 预测过程中产生的所有其它错误。与 4.3 节相似,我们对这些错误进行了以下分类:

  • StepBack:生成的退一步问题并没有助于解决任务。
  • RAG:虽然退一步问题定位准确,但 RAG 未能检索到相关信息。
  • 评分错误:模型判断出错。
  • 推理错误:虽然检索到了相关上下文,但模型未能正确推理出答案。

实际上,StepBack 很少会出错。相反,我们发现超过一半的错误源自推理错误。45% 的错误来自于未能检索到正确信息,尽管通过退一步提供的抽象化已经大大简化了任务。这也从侧面反映出 TimeQA 任务的难度。关于 TimeQA 的更多错误分析,请参见附录 A。

MethodMuSiQueStrategyQA
PaLM-2L35.5% (3%)82.8% (0.7%)
PaLM-2L 1-shot29.0% (0.5%)76.6% (0.5%)
PaLM-2L + CoT38.7% (3.2%)83.6% (0.4%)
PaLM-2L + CoT 1-shot38.5% (2.2%)76.8% (1.4%)
PaLM-2L + TDB39.0% (2.3%)82.7% (0.9%)
PaLM-2L + RAG39.6% (2.8%)84.2% (0.5%)
PaLM-2L + Step-Back (ours)42.6% (3.1%)82.7% (0.4%)
PaLM-2L + Step-Back + RAG (ours)42.8% (2.0%)86.4% (1%)
GPT-438.5% (0.2%)78.3% (1.1%)

表 3:Step-Back Prompting 在多步推理任务上的表现。其中,CoT 代表 Chain of Thought 提示,TDB 代表 Take a Deep Breathe 提示,RAG 代表检索增强生成。平均准确率是基于 5 次评估运行得出的,并包括了标准差。

6 多步推理

我们在两个具有挑战性的多步推理基准测试 MuSiQue(Trivedi 等人,2022 年)和 StrategyQA(Geva 等人,2021 年)上测试了 Step-Back Prompting 的性能。在进行测试时,我们遵循了 5 节中的相同实验协议来实施 Step-Back Prompting。

6.1 成果展示

表格 3向我们展示了在 MuSiQue 和 StrategyQA 开发集上各种基准模型的表现。在 MuSiQue 这个复杂的多步推理测试中,PaLM-2L 和 GPT-4 的表现并不理想,正确率分别只有 35.5% 和 38.5%。而在 StrategyQA 这个二元分类任务中,它们的表现就好得多,正确率分别达到了 82.8% 和 78.3%。对于 MuSiQue,CoT 和 TDB 这两种方法稍微提升了一些性能(大约 3% 和 3.5%),这显示出这两种方法在需要推理的任务中的有效性。但在 StrategyQA 中,由于模型本身的高基线表现,这两种方法并没有带来明显的性能提升。通常情况下,1-shot 的性能会明显低于 zero-shot 的性能,这可能是因为示例本身带有一些偏见。RAG 方法为模型带来了一定程度的提升(在 MuSiQue 和 StrategyQA 中分别提高了大约 4% 和 2%)。而 "Step-Back Prompting" 方法通过引入抽象思考,取得了所有方法中最好的表现,分别在 MuSiQue 和 StrategyQA 中达到了 42.8% 和 86.4%,显著超过了 GPT-4 在这两个任务上的表现。

6.2 深入分析

与前文观察到的一致,我们发现 "Step-Back Prompting" 结合 RAG 的方法能够将大量基模型的错误预测转化为正确答案(15.4%),虽然也会导致一些正确预测变成错误(6.1%)。更进一步,这种组合方法还纠正了 RAG 方法犯下的 12.7% 的错误,同时只引入了 4.4% 的新错误。更详细的分析见附录 A.2

7 总结与讨论

抽象思考帮助人类通过忽略细枝末节,提取出关键概念和原则,从而更好地解决复杂问题。"Step-Back Prompting" 将复杂任务分解为两个步骤:抽象和推理,我们通过实验证明这种方法能有效提高大语言模型在复杂推理任务上的表现。然而,我们的错误分析也表明,尽管通过 "Step-Back Prompting" 大幅降低了任务的复杂度,推理错误仍然是模型最容易犯的错误类型之一。

虽然在许多场景下抽象思考极为有用,但并不是在所有情况下都绝对必要或可能。例如,在回答一些简单问题或直接涉及基本原理的问题时,进行抽象并不会带来额外的好处。

8 相关研究

"Step-Back Prompting" 的方法与提示技术和问题分解的相关文献息息相关。

8.1 提示技术

少示例提示(Brown et al., [2020];Liu et al., [2023];Mishra et al., [2022a];Wei et al., [2022b])已经证明是一种在不更新模型参数的情况下,显著提升各种任务性能的有效方法。我们的“退一步提示法技术”也属于这一类,它与“思考链提示技术”和“草稿本技术”一样简单通用,但更侧重于抽象思考。这种方法受到了人类处理复杂问题时喜欢退后一步、从更宏观的角度审视问题的启发。我们的方法也与“复习增强型语言模型”有关联,但不同之处在于,我们更注重主动地进行抽象和反思,同时根据任务的需要,我们还可能会加入检索增强的手段。

8.2 任务分解

将复杂任务分解成一系列更简单的任务,再通过解决这些简单任务来解决原始任务,一直是提升模型在复杂任务上表现的有效策略(Zhou et al., [2022];Patel et al., [2022];Khot et al., [2022];Press et al., [2022])。许多提示方法已经在这方面取得了成功。与这些方法不同,我们的“退一步提示法技术”专注于使问题变得更加抽象和高层次,而不是将其细化为更低层次的子问题。此外,抽象问题(如“X 的工作经历是什么?”)通常具有通用性,因此它们与众多具体问题(如“X 在 1990 年为哪个雇主工作?”)都有多对一的关系。而任务分解通常涉及将一个问题拆解为多个子问题,形成一对多的关系。

9 结论

我们提出了“退一步提示法技术”,这是一种通过抽象促使大语言模型进行深层推理的简单通用方法。在多个领域(包括寻找事实、常识推理和特定领域的推理任务)的基准测试中,我们的方法都显著提升了模型的性能。我们认为,抽象可以帮助模型减少错误或不必要的幻觉,更好地进行推理,可能揭示了模型在直接回答原问题时常常被遮蔽的真实能力。我们希望这项工作能够激发更多借鉴人类思考方式的方法,以充分挖掘和利用大语言模型的潜力。

附录

附录 A:附加错误分析

A.1 TimeQA 错误分析

我们进行了一项错误分析,目的是弄清楚 Step-Back Prompting 究竟是如何纠正基线模型犯下的错误的。从图 6 我们可以看到,相较于 PaLM-2L 基线模型的预测,Step-Back Prompting 纠正了近 40% 的错误预测,但同时也造成了约 5.6% 的新错误。另外,它还帮助 RAG 模型纠正了 21.6% 的错误,虽然也为 RAG 引入了 6.3% 的新错误。总的来说,这说明了 Step-Back Prompting 大多数情况下都能发挥积极作用,这也凸显了在正式回答问题前进行抽象思考的重要性和有效性。

图 6 展示了 TimeQA 任务上 Step-Back Prompting 的错误分析。
图 6 展示了 TimeQA 任务上 Step-Back Prompting 的错误分析。

图 6 展示了 TimeQA 任务上 Step-Back Prompting 的错误分析。从中我们可以看到,无论是与基线模型的预测对比,还是与 RAG 模型的预测对比,Step-Back Prompting 都表现出了较强的纠错能力,同时引入的错误也保持在较低水平。

A.2 StrategyQA 错误分析

图 7 同样展示了错误分析的结果,但这次的焦点是 StrategyQA 任务。
图 7 同样展示了错误分析的结果,但这次的焦点是 StrategyQA 任务。

图 7 同样展示了错误分析的结果,但这次的焦点是 StrategyQA 任务。通过 Step-Back + RAG 方法,我们成功地将 15.4% 的错误预测变成了正确答案,虽然也有 6.1% 的预测从正确变为了错误。同时,这种方法还纠正了 RAG 模型 12.7% 的错误,而引入的新错误占比仅为 4.4%。这再次证明了 Step-Back Prompting 方法在纠正模型预测错误方面的有效性。

图 7 中详细展示了 StrategyQA 任务中 Step-Back Prompting 的表现。无论是与基线模型还是与 RAG 模型的对比中,这种方法都展现出了强大的纠错能力,并且保持了较低的错误引入率。

附录 B 数据集细节

表 4 提供了我们在 TimeQA、StrategyQA 和 MMLU 高中物理学这三个任务中用于评估的数据的详细信息,包括了各个任务中的样本分布和数量。

DomainDatasetSplitNumber of Examples
STEMMMLU high-school PhysicsTest151
MMLU high-school ChemistryTest203
Knowledge QATimeQATest5226
TimeQA EasyTest2613
TimeQA HardTest2613
SituatedQATest2901
Multi-hop ReasoningMuSiQueDev2417
StrategyQADev229

表 4:本文使用的评估数据集的统计信息。

附录 C 评估细节

C.1 用 PaLM2-L 进行评估的小样本示例

在进行评估时,我们通常会拿模型自己生成的答案和我们事先设定的正确答案进行比对。为了让评分模型更好地理解怎样对答案进行打分,我们会给它提供一个正确的答案和一个错误的答案作为示例。在表格 5 中,我们展示了如何利用这些小样本来引导评分模型进行评估。

我们的目标是判断两个答案是否等同。举个例子,不管答案本身是否正确,我们只需判断这两个答案是否表达了同一个意思。比如在询问 Anna Muzychuk 在 2007 年获得了什么头衔时,无论是详细回答她是怎么获得国际大师头衔的,还是简单地回答 "国际大师",我们都认为这两个答案是等同的。但如果另一个问题的两个答案一个是 "华盛顿州",另一个是 "乔治·华盛顿",我们就认为这两个答案是不同的。


以下两个对给定问题的回答是否等价?不要考虑答案的对错,只考虑它们是否等价。直接回答“是”或“否”。
问题:Anna Muzychuk 在 2007 年被授予什么头衔?
答案 1:Anna Muzychuk 在 2007 年被授予了国际大师(IM)的头衔。她通过在快棋比赛中达到三个标准来获得这个头衔。
答案 2:国际大师
答案 1(简短):国际大师
答案 2(简短):国际大师
这两个答案等价吗?:是
问题:西雅图位于哪个州?
答案 1:西雅图位于华盛顿州。
答案 2:答案是乔治·华盛顿。
答案 1(简短):华盛顿州
答案 2(简短):乔治·华盛顿
这两个答案等价吗?:否
问题:<问题>
答案 1:<模型输出>
答案 2:<目标标签>


表格 5:使用 PaLM-2L 模型进行少量样本评估的示例。

C.2 用 PaLM2-L 评估时的超参数设置

在进行评估时,我们选择了 PaLM-2L 作为评分模型,并尝试了不同的参数设置。通过实验,我们发现当采样温度设置为 1 时,评估的准确度最高。我们手动检查了 100 个测试样本的评分结果,发现在大多数情况下,模型的评分与我们人类评审员的评分高度一致。

附录 D:评估时使用的提示和小样本示例

D.1 STEM

对于 MMLU 高中物理和化学这两个领域,我们首先引导模型去挖掘问题的基本原理。有了这些基本原理,我们再引导模型通过举一反三的方法来给出最终的答案。关于如何引导模型找出物理或化学问题背后的首要原理,你可以参照表 6。


MMLU 物理/化学基础原理提示

作为一位物理/化学领域的专家,现在有一个关于物理/化学的问题摆在你面前。你需要做的,是从中找出解答这个问题所需要用到的物理/化学的基本概念和规律。下面是一些示例:

问题: <Question Example1> 相关的原理有: <Principles Example1>

问题: <Question Example5>
相关的原理有: <Principles Example5>
问题: <Question>
相关的原理有:


表 6:提取解答 MMLU 物理和化学问题所需基础原理的操作提示。

具体来说,我们会告诉模型,现在你是一个物理或化学领域的专家,面前有一个相关领域的问题需要你来解答。你需要做的是,找出解决这个问题所需要的物理或化学概念和原则。举个例子,如果问题是...,那么涉及的原则可能包括...。

表 7:这是一个在 MMLU 高中物理和化学考试中,用于查询模型并根据问题背后的基础原理得出最终答案的示例提示。作为物理或化学方面的专家,你需要处理一个具体问题,并遵循解决该问题所需遵循的基本原理,一步一步地给出解答。这里提供了五个例子以供参考:

例 1: 问题: <Question Example1> 原则: <Principles Example1> 答案: <Answer Example1>

……

例 5: 问题: <Question Example5> 原则: <Principles Example5> 答案: <Answer Example5>

现在,面对这个新问题: 问题: <Question> 原则: <Principles> 你需要给出答案。

解答出问题背后的首要原理后,我们接下来会根据表 7 中的模板,让模型根据这些原理来逐步解决问题,并给出最终答案。

举个具体的例子,如果有一个关于球形导体电荷分布的物理问题,根据库仑定律,我们知道两个带电粒子之间的力是如何计算的,从而可以判断出球体上电荷的分布情况。

这样的引导和解答过程不仅能帮助模型更准确地回答问题,也使得答案的推导过程更加清晰易懂。

根据库仑定律的原则,我们可以用下面的步骤来解决问题: 首先,利用库仑定律来了解电荷是如何在物体表面分布的。对于球状的导体,其表面的电荷会互相排斥,电荷之间距离越远,它们之间的作用力就越小。所以,电荷会均匀分布在球体表面,达到相互作用力最小的状态。 其次,再利用库仑定律来探究其他电荷存在时会发生什么情况。比如说,如果一个带负电的物体靠近了一个带正电的球体,球体上的负电荷就会被推到球体的另一边,导致电荷分布不均匀。 所以,最终的答案是电荷只存在于物体表面,并且其分布状态还会受到其他带电物体的影响。

89 为我们展示了一个高中物理和化学科目中问题、原理和答案相结合的实例。

问题当一个球形导体带有净电荷时,这个电荷会如何分布在整个球体上呢?
0) 电荷会均匀地分布在表面上。
1) 电荷只会存在于球体表面,并且其分布方式还会受到球体附近其他带电物体的影响。
2) 电荷会在球体内部不停地移动。
3) 电荷在球体内部均匀分布。
原理库仑定律告诉我们,两个带电粒子之间的作用力与它们电荷的乘积成正比,并且与它们之间的距离的平方成反比。用公式表达就是 F=kq1q2/r2F = k * q1 * q2 / r^2。这里的 F 表示电力,k 是一个常数,q1 和 q2 分别是两个粒子的电荷量,而 r 则是它们之间的距离。
答案根据库仑定律,我们可以分两步来解决这个问题:
第一步,分析电荷在导体表面的分布情况。在一个球形导体中,表面的电荷会相互排斥,而且它们彼此之间的距离越远,相互作用的力就越小。因此,为了让这种排斥力达到最小,电荷会在球体表面均匀分布。
第二步,考虑附近有其他带电物体时的情况。如果球体附近有其他带电物体,那么球体表面电荷的分布就会受到影响。比如,如果有一个负电荷物体靠近一个正电荷球体,球体上的负电荷就会被推到球体的另一边,从而导致电荷分布不均。
综上所述,正确的答案应该是 1) 电荷只存在于球体表面,并且其分布会受到附近其他带电物体的影响。

表 8:高中物理学科中,用 MMLU 方法进行小样本学习的一个示范例子。

现在我们来看一个化学问题:一个未知的氯化物样品溶解在水中,并用过量的 Pb(NO3)2 滴定形成沉淀。通过干燥过程,我们发现沉淀有 0.0050 mol。那么,原样品中有多少氯化物呢? 我们知道,沉淀反应是两种可溶盐混合形成不溶固体的过程;摩尔质量指的是一摩尔物质的质量;限制性反应物是指在反应中完全用光的物质,它决定了产物的数量。 假设这个未知的氯化物是 MCl(M 代表金属阳离子),通过化学反应方程式我们知道,Pb(NO3)2 是过量的,而 MCl 是限制反应的物质。根据反应的比例,0.0050 mol 的 PbCl2 对应着 0.010 mol 的 MCl。通过计算,我们可以得知原样品中有 0.355 g 的氯化物。 所以,正确答案应该是 1)0.355 g。

问题有一个未知的氯化物化合物样本,我们把它溶解在水中,再加入过量的 Pb(NO3)2,使之产生沉淀。在沉淀干燥后,我们发现有 0.0050 mol 的沉淀生成。那么,在最初的样本中,氯化物的质量是多少呢?
0) 0.177 g
1) 0.355 g
2) 0.522 g
3) 0.710 g
原理沉淀反应是指两种溶于水的盐溶液混合后,生成一种难溶于水的固体(我们称之为“沉淀”)的反应。我们可以通过过滤或离心的方法,将沉淀从溶液中分离出来。
摩尔质量,指的是一摩尔物质的质量,单位是克每摩尔(g/mol)。
限制性反应物则是指在化学反应中会被完全用完的那种反应物,反应生成的产物数量就取决于这种反应物的数量。
答案假设这个未知的氯化物化合物是 MCl,其中 M 代表一种金属阳离子。根据沉淀反应的化学方程式:
Pb(NO3)2(aq) + 2MCl(aq) ⟶ PbCl2(s) + 2MNO3(aq)
由于 Pb(NO3)2 过量,所以 MCl 就成了限制性反应物。根据反应的化学计量学,2 mol 的 MCl 可以生成 1 mol 的 PbCl2 沉淀。这就意味着,0.0050 mol 的 PbCl2 沉淀对应着 0.010 mol 的 MCl。
我们可以进一步计算出,原始样本中的氯化物质量为:
0.010 mol Cl × 35.45 g/mol = 0.355 g Cl
所以,正确答案是 1) 0.355 g。

表 9:高中化学科中,用 MMLU 方法进行小样本学习的另一个示范例子。

D.2 知识问答练习

我们在表 10中展示了一种特殊的提示方法,目的是教会大语言模型(LLM)如何为 TimeQA 和 SituatedQA 提出更为通用、更容易回答的问题。这种方法包括提供最多 5 个示范案例,每个案例都包含一个原始问题和一个“退一步一步”问题。

知识问答的“退一步一步”提示示例

你是一个世界知识方面的专家。你的任务是退一步一步,将具体问题改述为一个更为通用、更易于回答的问题。下面是一些例子:

原始问题:<Original Question Example1>
“退一步一步”问题:<Stepback Question Example1>

原始问题:<Original Question Example5>
“退一步一步”问题:<Stepback Question Example5>
原始问题:<Original Question>
“退一步一步”问题:

表 10:在知识问答任务中提出“退一步一步”问题的提示示例

表 11中,我们提供了 5 个来自 TimeQA 和 SituatedQA 训练集的示例,以展示如何提出“退一步一步”的问题。

数据集原始问题“退一步一步”问题
TimeQAKnox Cunningham 在 1955 年 5 月到 1956 年 4 月间是做什么的?Knox Cunningham 的工作经历都包括哪些职位?
TimeQAAnna Karina 在 1968 至 1974 年期间的伴侣是谁?Anna Karina 都和哪些人结过婚?
TimeQA2007 年和 2008 年,Thierry Audel 效力于哪个足球队?Thierry Audel 的足球生涯中都为哪些队打过球?
TimeQA从 1913 年到 1922 年底,谁是 GCR Class 11E 的操作者?GCR Class 11E 历史上的操作者都有哪些?
TimeQA1392 到 1525 年,Sokolovsko 是哪个国家的领土?历史上 Sokolovsko 都归属于哪些国家?
SituatedQA到 2002 年为止,加拿大队最后一次夺得 stanley cup 是哪年?到 2002 年,哪几年加拿大赢过 stanley cup?
SituatedQA截止 2019 年,英格兰队最新的一次进入世界杯四强是哪年?英格兰截至 2019 年都在哪些年份进入了世界杯四强?
SituatedQA1993 年 11 月 28 日,拉斯维加斯最豪华的酒店是哪家?那时的拉斯维加斯,各大酒店的规模如何?
SituatedQA2017 年截止,T20 比赛中得分王是谁?2017 年 T20 比赛中球员的得分状况怎样?
SituatedQA2017 赛季,NBA 中哪位球员的年薪最高?在 2017 的 NBA 赛季,顶级球员的薪水大约是多少?

表 11:在 TimeQA 和 SituatedQA 中提出“退一步一步”问题的示范示例

使用从模型输出中提取的“退一步一步”问题,我们进行检索增强。然后,我们使用原始问题和“退一步一步”问题的检索结果,构建最终的提示来查询模型以获取最终答案,如表 12所示。

知识问答最终回答的提示示例

你是世界知识方面的专家。我将向你提问,你的回答应全面、准确,并且如果相关的话,不能与以下上下文矛盾。如果这些上下文与问题无关,请忽略它们。

<来自原始检索增强的段落>
<来自“退一步一步”检索增强的段落>

原始问题:<Original Question>
回答:

表 12:使用来自原始和“退一步一步”检索增强的上下文来查询模型以获取最终答案的提示示例

D.3 多步推理

在多步推理这一环节,我们采用了与知识问答环节相同的方式,通过设问来引导用户进行逆向思考,进而在获取了相关背景信息后,寻找到正确答案。表 13 列举了在 MuSiQue 和 StrategyQA 数据集上的训练集中,五个询问退一步问题的实际例子。

数据集原问题退一步问题
MuSiQueHertfordshire 郡是在哪年成立的某个区域里?Hertfordshire 郡在哪个地区?
MuSiQueJan Šindel 是在哪个国家出生的?Jan Šindel 的个人背景是什么?
MuSiQue是在什么时候废除了负责发行《The Game》这部影片的工作室呢?是哪个工作室发行了《The Game》这部影片?
MuSiQue那位拓宽了语言哲学教义领域的人来自哪座城市呢?是谁拓宽了语言哲学的教义?
MuSiQue在 2015 年赢得世界系列赛的棒球队是何时创建的?2015 年世界系列赛的冠军棒球队是哪一队?
StrategyQA“The Police”乐队的成员有权进行法律逮捕吗?“The Police”乐队的成员能做些什么呢?
StrategyQA吃了 Monoamine Oxidase 糖果能让一个沮丧的朋友感到开心吗?Monoamine Oxidase 糖果会产生什么效果?
StrategyQA狗是否会在灰海豹之前对铃声作出反应呢?狗会在灰海豹之前对铃声作出反应吗?
StrategyQA虾 scampi 里绝对不含塑料成分吗?虾 scampi 是由哪些成分制成的呢?
StrategyQARede Globo 的主播会说中文吗?Rede Globo 的主播通常会说哪些语言?

表 13 给出了在这两个数据集上提出退一步问题的具体示例。

D.4 初学者入门

当我们使用零次学习方法时,我们直接用问题本身去问模型寻找答案。如果我们使用了标准的小样本学习方法,就像在表格 14 中展示的那样,我们会提供一个典型的问题和答案作为例子,帮助模型更好地理解和回答新的问题。表格 15 则列举了我们文章中用到的这些典型例子。

基础小样本学习示例:

你是一位掌握了丰富世界知识和物理学知识的专家。现在,请根据以下的例子,解答接下来的问题:

问题:<具体问题示例>
答案:<具体答案示例>
问题:<具体问题>
答案:

表格 14:这是一个询问基础模型并展示小样本学习例子的示例提示。

数据集问题答案
MMLU Physics有一个点电荷 Q1 = +1 mC 被固定在了原点的位置。那么,把另一个电荷 Q2 = +8 μC 从(0, 4 米)这个点移动到(3 米,0)这个点,需要多少能量呢?
0) 3.5 J
1) 6.0 J
2) 22.5 J
3) 40 J
要移动电荷,我们需要做一些工作,这份工作的量就等同于电荷势能的变化量。电荷在电场中的势能可以通过公式 U = k _ Q1 _ Q2 / r 来计算,其中 k 是库仑常数,Q1 和 Q2 分别是电荷的量,而 r 则是这两个电荷之间的距离。对于这个问题来说,电荷 Q2 一开始的势能是 U1 = k _ Q1 _ Q2 / 4 米,而移动到最终位置后,它的势能变为 U2 = k _ Q1 _ Q2 / 3 米。势能的变化量就是 ΔU = U2 - U1 = k _ Q1 _ Q2 * (1/3 米 - 1/4 米)。将具体的数值代入公式,我们可以计算出 ΔU = 6 J。所以,从(0, 4 米)移动到(3 米,0)这个过程中,我们需要做的工作是 6 J。正确答案是 1) 6.0 J。
MMLU Chemistry有一个未知的氯化物样本被溶解在水中,并且用过量的 Pb(NO3)2 进行了滴定,生成了沉淀。沉淀干燥后,我们发现有 0.0050 mol 的沉淀产生。那么在最初的样本中,有多少氯化物呢?
0) 0.177 g
1) 0.355 g
2) 0.522 g
3) 0.710 g
0.0050 mol 的铅离子与氯离子反应生成了氯化铅沉淀,由于化学反应的摩尔比是 2:1,因此原样品中必然有 0.010 mol 的氯离子。根据氯离子的摩尔质量,我们可以计算出这些氯离子的质量为 0.355 g。所以,原始样品中氯化物的质量为 0.355 g。
TimeQA1968 年到 1974 年间,Anna Karina 的另一半是谁呢?在这段时间里,Anna Karina 的配偶是法国演员 Pierre Fabre。
SituatedQA截至 1993 年 11 月 28 日,拉斯维加斯最大的酒店是哪一家呢?那时候,拉斯维加斯最大的酒店是 Excalibur Hotel & Casino。
MuSiQue赫特福德郡所在的地区是在哪一年设立的呢?那个地区是在 1994 年设立的。
StrategyQA吃一块 Monoamine Oxidase (MAO) 糖果条会让一个感到沮丧的朋友感到开心吗?吃 MAO 糖果条其实并不会让人感到开心。MAO 是一种能够分解调节情绪的神经递质(如血清素、多巴胺和去甲肾上腺素)的酶,所以抑制 MAO 反而会增加这些神经递质的水平,有助于改善情绪。

表 15:标准提示示范范例。

数据集问题答案
MMLU 物理学我们有两个点电荷,其中 Q1 = +1 mC 定在坐标原点上。现在,我们想知道,要把另一个电荷 Q2 = +8 μC,从(0,4 米)这个点移动到(3 米,0)这个点,我们需要做多少功呢?
选项:
0) 3.5 焦耳
1) 6.0 焦耳
2) 22.5 焦耳
3) 40 焦耳
好的,我们来仔细分析一下:
1. 首先,我们来计算一下 Q2 在起始位置的电势能。电势能是由两个电荷之间的距离和它们的电量决定的,计算公式是 U = k _ Q1 _ Q2 / r,其中 k 是一个常数,叫做库仑常数。
将具体数值代入,我们得到 Q2 在起始位置的电势能为 18 焦耳。
2. 接下来,我们计算一下 Q2 在终点位置的电势能。同样的计算方法,得到的结果是 24 焦耳。
3. 最后,我们来计算一下从起点到终点,也就是 Q2 的移动过程中所做的功。这个功等于电势能的变化量,也就是终点的电势能减去起点的电势能,计算结果是 6 焦耳。
综上所述,我们得出结论,移动这个电荷所需的功是 6.0 焦耳,所以答案是选项 1) 6.0 焦耳。

表 16:MMLU 物理学协同思考提示的演示范例。

数据集问题答案
MMLU Chemistry在这个化学问题中,我们有一个不知道成分的氯化物样本。首先,我们把它溶解在水里,然后加入过量的 Pb(NO3)2,目的是制造沉淀物。待沉淀物完全干燥后,我们发现沉淀物的摩尔数为 0.0050 mol。那么,原始样本中有多少氯化物呢?
0) 0.177 g
1) 0.355 g
2) 0.522 g
3) 0.710 g
来,让我们一步步来解决这个问题:
首先,我们要知道沉淀物是什么。当氯化物遇到 Pb(NO3)2 的时候,会产生氯化铅(PbCl2)的沉淀物。
接下来,我们需要查一下化学方程式,找到物质之间的摩尔比例。对于 MCl(M 代表未知的金属元素)和 Pb(NO3)2 反应的方程式是:2MCl + Pb(NO3)2 ⟶ 2MNO3 + PbCl2。从这个方程式中,我们能看出 2 moles 的 Cl- 和 1 mole 的 Pb(NO3)2 会生成 1 mole 的 PbCl2。并且,1 mole 的 PbCl2 里面含有 2 moles 的 Cl-。
现在我们来计算一下 Cl- 的摩尔数。既然我们已经知道 PbCl2 的摩尔数是 0.0050 mol,那么原始样本中 Cl- 的摩尔数就是 2 × 0.0050 = 0.010 moles。
最后,我们再根据 Cl- 的摩尔质量(35.45 g/mol)来计算它的质量。0.010 moles 的 Cl- 的质量就是 0.010 mol × 35.45 g/mol = 0.355 g。
综上所述,我们可以确定原始样本中有 0.355 g 的氯化物,答案选 1。

Table 17: 这是一个用于 MMLU Chemistry 的 CoT 提示的例子。

D.5 链式思考(COT)

对于零次学习情境下的链式思考提示,我们仅仅在问题后面加上一句“我们一步步来思考这个问题”,这样就可以引导模型进行深入的思考。

在少次学习情境下进行链式思考提示时,我们采用了与 D.4 节 中基线提示相同的格式,但是我们用链式思考的回答来替换了少数学习中的示例,如表 16171819 所示。

数据集问题答案
TimeQA1968 年到 1974 年间,Anna Karina 的另一半是谁?让我们分两步来解答这个问题。首先,我们要找出 Anna Karina 在这段时间内的所有配偶:Jean-Luc Godard(1961-1965 年)、Pierre Fabre(1968-1974 年)、Daniel Duval(1978-1981 年)、Dennis Berry(1982-1994 年)。接下来,我们分别看这些人,确定哪一位在 1968 到 1974 年间与她共度时光。通过排除法,我们可以确定 Pierre Fabre 就是我们要找的那位。所以,答案是 Pierre Fabre。
SituatedQA1993 年 11 月 28 日,拉斯维加斯最大的酒店是哪一家?来,我们一步一步分析这个问题。首先,回到 1993 年,拉斯维加斯有哪些大酒店呢?根据《拉斯维加斯评论报》的报道,当时最大的几家酒店分别是:MGM Grand(5005 间房)、Excalibur(4008 间房)、The Mirage、Flamingo Hilton 和 Caesars Palace。接下来,我们要确定在 1993 年 11 月 28 日这一天,哪一家酒店是最大的。经过一番调查,我们发现 Excalibur 在 1990 年就已经开业了,而 MGM Grand 要到 12 月才开业。所以,那个时候最大的酒店是 Excalibur。

表 18: 为 TimeQA 和 SituatedQA 提供 CoT 提示的示例。

数据集问题答案
MuSiQueHertfordshire 县所在的区域是哪一年成立的?Hertfordshire 县属于“东英格兰”地区,这个地区在 1994 年成立。所以答案是 1994 年。
StrategyQA一块含有 Monoamine Oxidase(MAO)的巧克力能让抑郁的朋友感到开心吗?不,一块含有 Monoamine Oxidase(MAO)的巧克力并不能让抑郁的朋友感到开心,反而可能对他们构成危险。下面是详细解释:1. MAO 是一种能够分解 serotonin、dopamine 和 norepinephrine 这些调节情绪的重要神经递质的酶,而这些神经递质的低水平与抑郁症有关。2. MAO 抑制剂(MAOIs)是一类药物,能够阻断 MAO 的作用,从而增加大脑中这些神经递质的含量,有时用来治疗抑郁症。但这类药物可能有严重的副作用,包括与某些食物和药物产生不良反应。3. 一块巧克力中不太可能含有足够多的 MAOI 对抑郁症产生治疗效果,事实上,它几乎不可能含有任何 MAOI,因为这些药物通常是以药片的形式存在。综上所述,这样一块巧克力不仅不能让抑郁的朋友感到开心,反而可能对他们构成威胁。

表 19:为 MuSiQue 和 StrategyQA 提供的联合思考(CoT)提示的示例。

D.6 深呼吸(TDB)

我们研究了在 Yang 等人(2023)的论文中提到的一种无需提前训练就能使用的提示技术“深呼吸”。具体方法是在问题前加上“深呼吸,一步步来解决这个问题”。

附录 E 分步提示法成功与失误的案例分析

E.1 MMLU 错误分析

表 20表 24中,我们通过对 Step-Back Prompting 的错误分析,展示了我们识别的 5 个错误类别中的每一个的一个例子。

问题一个频率为 400 Hz 的报警器从三楼的窗户掉下来。丢下它的学生用一个非常灵敏的示波器测量频率。测量到的频率:
0) 高于 400 Hz,并且随着它的下降频率会增加
1) 高于 400 Hz,并且随着它的下降频率会减少
2) 低于 400 Hz,并且随着它的下降频率会减少
3) 低于 400 Hz,并且随着它的下降频率会增加
原理多普勒效应:由波源、观察者或两者的运动产生的效应,导致观察者感知到的波频率相对于波源产生的频率发生变化。多普勒效应适用于所有类型的波,包括电磁波和声波。它是以奥地利物理学家 Christian Doppler 的名字命名的。
答案使用多普勒效应的原理,我们可以如下解决这个问题:
步骤 1:应用多普勒效应找出测量到的频率。
多普勒效应是指观察者测量到的波频率随着观察者相对于波源的运动而发生变化的现象。在这个案例中,波源是报警器,观察者是丢下它的学生。
随着报警器的下落,报警器和学生之间的距离减小。这意味着学生测量到的波频率会增加。因此,测量到的频率会高于 400 Hz,并且随着报警器的下落频率会增加。
因此,正确答案是 0) 高于 400 Hz,并且随着它的下降频率会增加。

表 20:Step-Back Prompting 在 MMLU 高中物理学科中的一个错误例子,属于事实错误类别。在这个案例中,尽管原理和推理都是正确的,但事实错误导致了错误的答案。

问题一位宇航员降落在一个质量和半径都是地球两倍的星球上。如果这位宇航员在地球上的重力是 800 N,那么在这颗星球上他将会有多重?
0) 200 N
1) 400 N
2) 800 N
3) 1600 N
基础原理重力公式:W = m * g,其中 W 代表重力,m 是物体的质量,g 是由于重力造成的加速度
重力加速度计算公式:g = G * m / r^2,G 为万有引力常数,m 为物体质量,r 为物体半径
解答通过运用牛顿的万有引力定律和重力计算公式,我们可以这样步骤来解答这个问题:
第一步:使用牛顿的万有引力定律来计算出这颗星球上的重力加速度。
星球上的重力加速度公式是:
g = G * m / r^2,其中 g 表示重力加速度,G 是万有引力常数,m 是星球的质量,r 是星球的半径。
根据题意,我们已知:
m = 2 * m地球
r = 2 * r
地球
代入公式得:
g = G * 2 * m地球 / (2 * r地球)^2
g = G * m地球 / r^2地球
这个结果说明这颗星球上的重力加速度跟地球上是一样的。
第二步:运用重力公式来计算宇航员在星球上的重量。
物体的重量计算公式是:
W = m * g,其中 W 是重量,m 是物体质量,g 是重力加速度。
题目中给出的信息是:
m = 800 N / g地球
g = g
地球
代入公式计算得:
W = 800 N / g地球 * g地球
W = 800 N
所以,宇航员在这颗星球上的重量是 800 N。答案是 2) 800 N。

表 21:在“数学错误”类别中,对 MMLU 高中物理问题使用 Step-Back Prompting 方法的一个错误例子。如所标出,这个数学错误直接导致了一个错误答案,相差了两倍。

问题当两个净电荷分别为 +5e 和 -6e 的球短时间接触之后,以下哪种情况可能是这两个球净电荷的组合呢?
0) +3e 和 -4e
1) +1.5e 和 -2.5e
2) 以上两种情况都有可能
3) 以上情况都不可能
原理电荷守恒定律告诉我们,在一个封闭系统中,总电荷的数量是保持恒定的。
库仑定律解释了为什么同性电荷会互相排斥,努力使自己离对方更远。
答案根据电荷守恒定律,我们可以这样来解答这个问题:
步骤 1:运用电荷守恒定律,寻找这两个球体净电荷可能的组合情况。
在球体接触之前,它们的总电荷是 +5e - 6e = -1e。接触之后,这两个球体的总电荷仍然要保持为 -1e。
步骤 2:进一步探究,找到两个球体净电荷的可能组合。
这两个球体净电荷的可能组合包括:
(1) +3e 和 -4e
(2) +1.5e 和 -2.5e
所以,正确的答案是 2) 以上两种情况都有可能。

表 22:这是一个展示了在 MMLU 高中物理课程中“逐步回退提示法”(Step-Back Prompting)出现原理错误的例子。在这个例子中,其实我们并不需要用到库仑定律来解决问题。相反,我们漏掉了一个至关重要的原理——电荷量子化原理,正是这个原理帮助我们排除了选项(2)中的分数电荷的可能性。

问题一个装满氦气的气球在三个不同的环境下被测量周长:室温下、放在温暖的烤箱里 30 分钟后,以及放在冰箱里 30 分钟后。一个学生想通过温度 T 来描绘周长的立方 C3 的变化趋势,他应该预期哪种情况呢?
0) C3 和 T 之间有立方关系
1) C3 和 T 之间呈现出某种间接关联
2) 在某个特定温度 T 下,C3 的值会减小到零
3) C3 的值会随着温度 T 的升高而增加到最大
原理理想气体定律:PV = nRT,这里 P 表示气压,V 是体积,n 是气体摩尔数,R 是理想气体常数,T 是绝对温度。
球体体积公式:V = 4/3 _ π _ r^3,其中 r 代表半径。
绝对温度:绝对温度总是以开尔文(kelvin)为单位表示的。
绝对零度:绝对零度是开尔文温标的最低点,也是理论上可能达到的最低温度(-273.15 ℃)。
回答我们可以运用查理定律和盖 - 吕萨克定律来解这个问题:
第一步:利用查理定律来探究气体体积和温度之间的关系。查理定律告诉我们,在气压恒定的情况下,一定量的气体体积和其绝对温度成正比。也就是说,气体温度升高,体积也会相应增大。
第二步:运用盖 - 吕萨克定律来找出气体压强和温度之间的关系。盖 - 吕萨克定律表明,在体积恒定的情况下,一定量的气体压强和其绝对温度成正比。这意味着气体温度的增加会带来气压的升高。
第三步:结合查理定律和盖 - 吕萨克定律来探讨气球周长和温度之间的关系。气球周长和气体体积成正比关系,因为气球周长反映了其外围的长度,而气体体积则表示气体占据的空间大小。
气体压强和温度成正比,因为气体压强体现了气体对气球内壁的作用力,而温度则反映了气体分子平均动能的大小。
所以,气球周长和气体温度成正比,也就是说温度升高,周长也会增大。
第四步:将气球周长和温度的关系扩展到周长立方和温度之间的关系。周长的立方与温度成正比,因为周长的立方实际上就是气球的体积,而我们已经知道气球体积和温度是成正比的。
综上所述,学生在作图时应该预期 C3 和 T 之间呈现立方关系,也就是选择 0) C3 和 T 之间有立方关系。

表 23: 这是一个关于 MMLU 高中物理“上下文丢失”分类中 Step-Back Prompting 方法误用的例子。在这个案例中,到了推理链的最后部分,模型忘记了最初的问题,失去了将推理应用到问题上的上下文。

问题一群物理学的学生正在实验室里做一个实验,目的是验证恒加速度运动方程。他们选择了一个网球,让它自由下落 6 米,并在过程中通过一个光门,以此来测量它的速度。不过,他们发现通过计算预测出来的速度竟然比光门测得的速度高出 20%。这到底是为什么呢?让我们一起探讨一下。
0) 网球在下落的过程中变形了。
1) 下落过程中,重力加速度发生了变化。
2) 空气阻力让网球加速度变大了。
3) 随着速度的增加,网球的加速度也在变化。
原理在垂直向上的运动中,我们可以用一个公式来描述:y = 0.5 _ g _ t^2,其中 y 是网球下落的距离,g 是重力加速度,t 是时间。
自由落体运动就是在重力作用下,物体做恒定加速度运动的一个特例。
而速度和加速度之间的关系,我们可以用另一个公式来表示:v = u + a * t,其中 v 是最终速度,u 是初速度,a 是加速度,t 是时间。
答案我们可以利用上面提到的两个公式来解这个问题:
第一步,利用垂直运动的公式来计算网球下落 6 米所需要的时间。
将数字代入公式计算,我们得到 t = 1.12 s。
第二步,用速度和加速度的关系公式来计算网球通过光门时的速度。
经过计算,我们得到 v = 5.36 m/s。
第三步,将这个测量得到的速度与我们预先计算出的速度进行比较。预测的速度比测量的速度要高 20%,所以预测速度为 6.43 m/s。
第四步,找出为什么会有这么大的速度差异。预测速度是 6.43 m/s,而测量速度是 5.36 m/s,差异为 1.07 m/s。经过分析,我们认为这种差异是由空气阻力造成的。空气阻力是一种阻碍物体运动的力,它随着物体表面积的增加而增大。由于网球的表面积较大,所以它受到的空气阻力也比较大,这最终导致了速度的减小。所以,造成这个问题的原因是空气阻力,而不是网球在下落过程中的变形。

表格 24:这是一个关于 "退一步提示法" 在 MMLU 高中物理“推理错误”类别中的错误示例。在这个例子中,尽管模型正确地识别出空气阻力是造成速度差异的原因,但在最后得出正确答案的过程中却出现了错误。

E.2 从退一步提示法中获胜的示例

E.2 节为我们展示了“退一步提示法(Step-Back Prompting)”在各个领域,如物理、化学、时间问题解答、情境问题解答和策略问题解答中的实际应用和取得的成功。具体例子和详细情况可以在表格25- 表 27,表 28,表 29,表 30 和表31中找到。

数据集示例
MMLU-Physics原始提问:如果理想气体的温度翻倍,体积扩大了 8 倍,那么压力 P 会怎样变?
0) P 减少 16 倍。
1) P 减少 4 倍。
2) P 减少 2 倍。
3) P 增加 4 倍。
初始答复 [有误]:正确答案是 0。因为根据理想气体定律 PV = nRT,当温度翻倍,体积扩大 8 倍时,压力应该降低 16 倍。
再思考的问题:这个问题的物理背景是什么?
基本原理:
理想气体定律:PV = nRT,这里的 P 代表压力,V 是体积,n 指的是摩尔数,R 是气体常数,而 T 表示温度。
结论:运用理想气体定律,我们可以这样解题:
首先:利用定律计算出理想气体的压力,即 PV = nRT。
接着:当温度翻倍成为 2T,体积扩大 8 倍变为 8V,代入公式计算:P(8V) = nR(2T) 。进一步计算可知,压力实际上减少了 4 倍。
所以,真正的答案是:1) P 减少了 4 倍。

表 25:在 MMLU-Physics 数据集上使用“退一步提示法”的效果说明。

数据集实例
MMLU-Physics原始问题:当一种液体在一个直径变化的圆形管道中以固定的速率流动时,在管道的一个部分,其直径为 2 厘米,流速达到了 18 米/秒。那么请问,在管道另一个直径为 3 厘米的地方,液体的流速是多少呢?
0) 4 米/秒
1) 6 米/秒
2) 8 米/秒
3) 12 米/秒
原始答案 [错误]:答案是 3) 12 米/秒。解题步骤如下:由于流量是恒定不变的,所以流速和横截面积的乘积也应该是一个常数。横截面积与管道直径的平方成正比,这就意味着流速与直径的平方成反比。根据这个比例关系,我们可以计算出第二个地方的流速是 18 米/秒 * (2 厘米/3 厘米)2 = 12 米/秒。
深入思考:这个问题涉及到哪些物理学的基本原理呢?
原理:
质量守恒:流经管道任意两点的质量必须相等,也就是说 A1 * v1 = A2 * v2,其中 A1 和 A2 分别代表两个横截面的面积,v1 和 v2 分别是这两点的流速。
圆面积公式:A = π * r^2,r 为圆的半径。
最终答案:通过运用质量守恒和圆面积公式,我们可以这样解决这个问题:
步骤 1:运用质量守恒公式来求解管道另一端的流速。这个公式告诉我们,在管道的任意位置,横截面面积与流速的乘积都是恒定的。根据题目给出的数据:
A1 = π * (2 厘米)^2 = 4π 厘米^2
v1 = 18 米/秒
A2 = π * (3 厘米)^2 = 9π 厘米^2
我们可以利用质量守恒公式求解 v2:
A1 * v1 = A2 * v2
4π 厘米^2 * 18 米/秒 = 9π

厘米^2 * v2
v2 = 8 米/秒
因此,我们得出这个管道另一端的流速为 8 米/秒,正确答案应该是 2) 8 米/秒。

表 26:通过 Step-Back Prompting 方法在 MMLU-Physics 数据集上取得的成功案例展示。

数据集示例
MMLU-Physics问题情境:有一个 2 μF 的电容器,它连接到了一个电池,并且已经充满电了,此时它上面的电荷是 600 μC。然后,有个实验者拿掉了这个电容器,换上了三个电容各为 18 μF 的电容器,并将它们串联连接到了同一个电池。当这三个电容器也充满电后,我们想知道每个电容器上是多少电荷。
选项:0) 100 μC 1) 200 μC 2) 600 μC 3) 1800 μC
最初的回答[错误]:答案是 100 μC。因为三个 18 μF 的电容器串联起来,总的电容是 6 μF,所以它们总共能存储 600 μC 的电荷,平均每个电容器上是 200 μC 的电荷。
探究问题:这个问题背后的物理原理是什么?
基本原理:
电容器的工作原理:Q = C * V,其中 Q 是电荷,C 是电容,V 是电压。
串联电容器的计算:C = 1 / (1/C1 + 1/C2 + … + 1/Cn),C 是总的等效电容,C1、C2、...、Cn 是每个电容器的电容。
并联电容器的计算:C = C1 + C2 + … + Cn,C 是总的等效电容,C1、C2、...、Cn 是每个电容器的电容。
解决方案:利用上述电容器的工作原理和串联电容器的计算公式,我们可以这样解题:
第一步:通过电容器的工作原理,计算出电池的电压是 300 V。
第二步:通过串联电容器的计算公式,得出三个 18 μF 电容器串联后的总等效电容是 6 μF。
第三步:再次运用电容器的工作原理,算出这三个电容器总共可以存储 1800 μC 的电荷,也就是每个电容器上都是 1800 μC 的电荷。
所以,正确答案应该是 3) 1800 μC。

表 27:这是一个展示 "退一步提示法" 在 MMLU-Physics 数据集上成功应用的例子。

数据集示例
MMLU-Chemistry**原问题:**判断一个化学反应是否自发的依据是什么?
0) 平衡状态下,生成物比反应物多
1) ΔG0 值大于零
2) ΔS0 值大于零
3) Keq 值小于一
原答案 [错误]: 2) ΔS0 值大于零。
其实,一个反应如果是自发的,通常是因为它能自然进行,不需要外加能量,而且这个过程往往伴随着系统无序度的增加,也就是熵的增加。
**反思问题:**这个问题涉及哪些化学基本原理?
原理:
自发反应:就是指那些不需外加能量就能自然进行的化学反应。
**最终答案:**要判断一个反应是否自发,关键要看吉布斯自由能的变化,如果是负值,那么这个反应就是自发的。反过来,如果 ΔG0 的值大于零,反应就不是自发的。
因此,正确的答案应该是 0) 平衡状态下生成物比反应物多。
MMLU-Chemistry**原问题:**钾 -40 是钾的一种较少见的同位素,在自然界中可以找到,它是放射性的,并且可以用简单的辐射计数器检测到。当钾 -40 成为硫酸钾(K2SO4)一部分时,它分别有多少个质子、中子和电子呢?
0) 21 个中子,19 个质子,18 个电子
1) 20 个中子,19 个质子,19 个电子
2) 21 个中子,19 个质子,19 个电子
3) 19 个中子,19 个质子,19 个电子
**原答案 [错误]:**正确答案是 2)。
钾 -40 这个同位素拥有 19 个质子和 21 个中子。当它以离子形式存在于硫酸钾这个化合物中时,它会失去一个电子,所以它有 19 个电子。
**反思问题:**这个问题涉及哪些化学基本原理?
原理:
原子序数:指的是元素中一个原子核里质子的个数。
**最终答案:**根据钾的原子序数,我们知道钾原子有 19 个质子。钾 -40 的质量数是 40,所以它有 21 个中子。当钾成为硫酸钾的一部分时,它会失去一个电子成为离子,因此它会有 18 个电子。
最终,正确答案应该是 0) 21 个中子,19 个质子,18 个电子。

表 28:通过 MMLU-Chemistry 数据集的例子,展示了 Step-Back Prompting 方法在化学问题解答上的优势。

数据集示例
TimeQA原始提问:Carlos Ascues 在 2013-2014 年为哪队踢球?
起初的答案 [错的]:Carlos Ascues 在 2013-2014 年为 Benfica 踢球。
再问一遍:Carlos Ascues 曾为哪几队效力?
正确答案:Carlos Ascues 在 2013-2014 年在希腊的 Panetolikos 队踢球。
TimeQA原始提问:Seth Nana Twumasi 2011 年 1 月到 2 月期间踢哪队的球?
起初的答案 [错的]:Seth Nana Twumasi 在那段时间为 FC Honka 踢球。
再问一遍:Seth Nana Twumasi 曾为哪些队伍踢过球?
正确答案:他当时踢 Northampton,是从 Peterborough 借来的。
TimeQA原始提问:Carmel Hanna 在 2002 年 5 月是什么职位?
起初的答案 [错的]:文章说,Carmel Hanna 2002 年 5 月被任命为儿童及家庭事务部长,而这个职位她一直干到 2005 年。
再问一遍:Carmel Hanna 曾有哪些头衔?
正确答案:文章提到 Carmel Hanna 曾是 2001 年的就业及学习部长。所以,她在 2002 年 5 月很可能是这个部门的部长。

表 29:TimeQA 数据集上,“再次提问”策略成功的几个例子。

数据集示例
SituatedQA初始问题:2010 年 11 月 29 日为止,德克萨斯小姐最后一次赢得全美小姐比赛是哪一年?
最初回答​【oaicite:5】​:Laura Leigh Covington 是最后一位赢得全美小姐比赛的德克萨斯小姐,这发生在 2000 年。
再次提问:德克萨斯小姐在哪些年份赢得了全美小姐比赛?
最终回答​【oaicite:4】​:根据维基百科的资料,德克萨斯小姐最后一次赢得全美小姐比赛是在 1975 年。
SituatedQA初始问题:截至 2021 年,美国国会最后一次完整通过预算案是在什么时候?
最初回答​【oaicite:3】​:截至 2021 年,国会最后一次完整通过预算案是在 2018 年 1 月 19 日。
再次提问:直到 2021 年,国会在哪些年份完整通过了预算案?
最终回答​【oaicite:2】​:截至 2021 年,国会最后一次完整通过预算案是在 2020 年 12 月 27 日,即通过了《2021 年综合拨款法案》。
SituatedQA初始问题:截至 2003 年,北卡罗来纳大学教堂山分校(UNC)最后一次没能进入全国大学生运动协会(NCAA)篮球锦标赛是在哪一年?
最初回答​【oaicite:1】​:UNC 最后一次未能进入 NCAA 篮球锦标赛是在 1990 年。
再次提问:直到 2003 年,UNC 在哪些年份未能进入 NCAA 篮球锦标赛?
最终回答​【oaicite:0】​:正确的答案是 2002-03 赛季。通过查看北卡罗来纳大学教堂山分校男篮的比赛成绩,我们发现该队在那个赛季赢了 19 场,输了 16 场。这样的战绩无法晋级 NCAA 篮球锦标赛,上下文中也有提及这一点。而且从比赛成绩表上可以确认,这是 2002-03 赛季的成绩。因此,截至 2003 年,UNC 最后一次未能进入 NCAA 篮球锦标赛是在 2002-03 赛季。

表 30:这个表格通过 SituatedQA 数据集上的实例展示了运用 Step-Back 提问策略的成功案例。

数据集示例
StrategyQA原问题:能开着 Roewe 550 去参加 2008 年北京奥运会吗?
原答案(误):2008 年的夏季奥运会在北京举办,而 Roewe 550 是一种电动车,单次充电最多能跑 70 英里,最高速度大约是每小时 30 英里。而从英国到北京的距离远达 4000 英里。
退一步问题:Roewe 550 是什么类型的车辆?
最终答案(对):Roewe 550 在 2008 年面市,而那届夏季奥运会正好在 8 月 8 日到 24 日期间举办。所以,理论上你是可以开 Roewe 550 去参加那次奥运会的。
StrategyQA原问题:截至 2017 年,在普通电视上,星期四晚上的橄榄球比赛通常在哪个频道播出?
原答案(误):星期四晚上橄榄球是美国国家橄榄球联盟定期在周四晚上举行的比赛。它从 2006 年开始,最初在 NFL Network 播放。根据 NFL 和 CBS 达成的新协议,CBS 和 NFL Network 将各自播放一半的星期四晚上橄榄球比赛。
退一步问题:那么,截至 2017 年,星期四晚上的橄榄球比赛是在哪个频道播出的呢?
最终答案(对):2017 年,星期四晚上橄榄球比赛是在 CBS、NBC 以及 NFL Network 三个频道播出的。
StrategyQA原问题:截至 2018 年,谁是 Assam Sahitya Sabha(阿萨姆文学学会)的现任主席?
原答案(误):Dr. Nagen Saikia
退一步问题:2018 年,谁在担任 Assam Sahitya Sabha 的主席?
最终答案(对):答案是 Paramananda Rajbongshi。从 2019 年的一篇新闻来看,成立于 1917 年的 Assam Sahitya Sabha 选择了 Paramananda Rajbongshi 作为他们的主席。所以,我们可以确定,2018 年的时候,他就已经担任了这个职位。

表 31:这是一个展示了在 StrategyQA 数据集上,通过 Step-Back 提问方法取得成功的实例。