知识密集型自然语言处理任务的检索增强生成技术研究 [译]
在自然语言处理领域,大型预训练语言模型因能存储大量事实知识而备受关注,尤其是在针对具体任务进行细致调整后,它们的表现尤为出色。不过,这些模型在获取和准确使用知识方面仍有所不足,特别是在那些需要大量知识的任务上,它们的效果还不如专为特定任务设计的系统。此外,如何为这些模型的决策提供依据,以及如何更新它们所掌握的世界知识,仍是目前研究中的难题。迄今,研究人员已经探索了在提取型任务中应用具有可微分存取机制的非参数记忆的预训练模型。本研究则是针对检索增强生成(Retrieval-Augmented Generation, RAG)的通用调整方法进行探讨。这种方法结合了预训练的参数记忆(如 seq2seq 模型)和非参数记忆(例如,通过预训练神经网络检索器访问的 Wikipedia 的密集向量索引)。我们对比了两种 RAG 方法:一种是在整个生成过程中使用相同的检索内容,另一种则在生成的每个部分可能使用不同的内容。我们对这些模型在多种知识密集型任务上进行了细致的调整和评估,在几个开放领域的问答任务上取得了领先成绩,超过了传统的 seq2seq 模型和专门为特定任务设计的检索 - 提取系统。在语言生成任务中,我们发现 RAG 模型能产生更具体、多样化且符合事实的语言,相比之下,传统的只依赖参数的 seq2seq 模型则显得逊色。
January 19, 2024
View Article