第 2 章:技术性能 —— 2024 年人工智能指数报告 [译]

概览

本章的技术性能部分为您呈现了 2023 年 AI 的全面进展。起始于对 AI 技术性能的高层次概述,本文档记录了 AI 的逐步发展。接着,本章深入分析了当前在多个方面的 AI 能力,包括语言处理、编程、计算机视觉(图像和视频分析)、推理、音频处理、自治智能体、机器人以及强化学习 (reinforcement learning)。此外,本章还重点介绍了过去一年里 AI 研究的重大突破,讨论了如何通过提示、优化和微调来提升大语言模型的性能,并最终探讨了 AI 系统对环境的影响。

章节亮点

  1. AI 在多个领域的基准测试中已超越人类,如图像分类、视觉推理及英语理解等; 然而,在竞赛级数学、视觉常识推理及策划等更复杂任务中则尚有不足。

  2. 多模态 AI 的兴起。传统 AI 系统虽然专精于文本或图像处理,但往往在另一领域表现不佳。最近,Google 的 Gemini 和 OpenAI 的 GPT-4 等强大的多模态模型的出现,显示了其在处理图像、文本乃至音频方面的出色灵活性。

  3. 面对性能饱和的传统基准如 ImageNet、SQuAD 与 SuperGLUE, 研究者们推出了更具挑战性的测试,如 2023 年新兴的 SWE-bench、HEIM、MMMU、MoCa、AgentBench 及 HaluEval, 分别涉及编码、图像生成、推理、道德判断、智能体行为与幻觉评估。

  4. 数据的优化直接推动了 AI 的进步。新型 AI 模型如 SegmentAnything 和 Skoltech 正通过专门的图像分割与 3D 重建任务,生成更多高质量数据,从而不断提升 AI 的性能,特别是在处理更复杂任务时。

  5. 人工评价渐成趋势。在高品质文本、图像生成方面,评价方式从传统的计算排名逐渐转向包含人类评价的系统,如 Chatbot Arena Leaderboard,更加重视公众对 AI 的态度和感受。

  6. 大语言模型的应用让机器人更具灵活性。如 PaLM-E 和 RT-2 等模型不仅提升了机器人的操作能力,还赋予了机器人提问的能力,为其与人类的有效互动开辟了新的可能。

  7. 关于 AI 智能体的进一步技术研究。AI 智能体是能在特定环境下自主运行的系统,它们的开发一直是计算机科学家面临的一个大挑战。最近的研究显示,这些智能体在自主运行的能力上有了显著提升,现在它们不仅能够精通复杂的游戏比如 Minecraft,还能有效地完成在线购物、研究助理等现实任务。

  8. 关于封闭与开放大语言模型 (LLM) 的性能比较,封闭模型在选定的十个 AI 基准测试中表现更出色,平均性能优势达到了 24.2%。这一性能差异对于 AI 政策的讨论具有深远的意义。

2.1 2023 年 AI 概况

时间线:重要的模型发布

按照 AI Index 指导委员会的挑选,以下是 2023 年发布的几个关键模型。

日期模型类型创造者重要性图片
2023/3/14Claude语言模型AnthropicClaude 是由 Anthropic 推出的首个公开的语言模型,也是 OpenAI 主要的竞争者之一。这款模型旨在做到最大程度的实用、诚实和安全。
图 2.1.1 来源:Anthropic, 2023
图 2.1.1 来源:Anthropic, 2023
2023/3/14GPT-4语言模型OpenAIGPT-4 在前作 GPT-3 的基础上进行了优化,现已成为目前最强大的几款语言模型之一,其性能甚至超过了人类。
图 2.1.2 来源:Medium, 2023
图 2.1.2 来源:Medium, 2023
2023/3/23Stable Diffusion v2文到图模型Stability AIStability AI 的最新版 Stable Diffusion v2 提高了图片的分辨率和质量,使得从文本到图片的转换更加精准和高质。
图 2.1.3 来源:Stability AI, 2023
图 2.1.3 来源:Stability AI, 2023
2023/4/5Segment Anything图像分割MetaMeta 的 Segment Anything 利用先进的 AI 技术,在不需要额外信息的情况下就能精确地识别并分离图片中的各个对象。
图 2.1.4 来源:Meta, 2023
图 2.1.4 来源:Meta, 2023
2023 年 7 月 18 日Llama 2大语言模型 (Large Language Model)MetaMeta 推出的最新版大语言模型 Llama 2 已经开源。它的小型版本(7B 和 13B)在体积上虽小,但性能出色。
图 2.1.5 来源:Meta, 2023
图 2.1.5 来源:Meta, 2023
2023 年 8 月 20 日DALL-E 3图像生成 (Image Generation)OpenAIOpenAI 的 DALL-E 系列新成员,DALL-E 3,带来了从文本到视觉的更高效转换。
图 2.1.6 来源:OpenAI, 2023
图 2.1.6 来源:OpenAI, 2023
2023 年 8 月 29 日SynthID水印Google, DeepMindSynthID 是一个专门为 AI 生成的音乐和图像设计的水印工具,即使图像经过修改,水印也能保持可识别。
图 2.1.7 来源:DeepMind, 2023
图 2.1.7 来源:DeepMind, 2023
2023 年 9 月 27 日Mistral 7B大语言模型 (Large Language Model)Mistral AI法国 Mistral AI 公司新推出的 Mistral 7B 模型,参数达到 70 亿,性能在同类产品中领先,超过了 Meta 的 Llama 2 的 13B 版本。
图 2.1.8 来源:Mistral AI, 2023
图 2.1.8 来源:Mistral AI, 2023
2023 年 10 月 27 日Ernie 4.0大语言模型Baidu百度,这家中国的跨国科技企业,最近推出了其最新的大语言模型 Ernie 4.0,这款模型是目前性能最强的几款中国产大语言模型之一。
图 2.1.9 来源:PR Newswire, 2023
图 2.1.9 来源:PR Newswire, 2023
2023 年 11 月 6 日GPT-4 Turbo大语言模型OpenAIOpenAI 最近升级了其大语言模型,推出了 GPT-4 Turbo,该模型具有 128K 的上下文窗口并且降低了价格。
图 2.1.10 来源:Tech.co, 2023
图 2.1.10 来源:Tech.co, 2023
2023 年 11 月 6 日Whisper v3语音到文本模型OpenAIOpenAI 的 Whisper v3 是一个开源的语音转文字模型,它因更高的准确率和更广泛的语言支持而受到好评。
图 2.1.11 来源:AI Business, 2023
图 2.1.11 来源:AI Business, 2023
2023 年 11 月 21 日Claude 2.1大语言模型AnthropicAnthropic 最新的大语言模型,Claude 2.1,具有业界领先的 200K 上下文窗口,能够更好地处理包括长篇文学作品在内的复杂内容。
图 2.1.12 来源:Medium, 2023
图 2.1.12 来源:Medium, 2023
2023 年 11 月 22 日Inflection-2大语言模型Inflection由 DeepMind 的 Mustafa Suleyman 创立的初创公司 Inflection 发布了他们的第二款大语言模型 Inflection-2,这标志着 LLM 领域竞争的加剧。
图 2.1.13 来源:Inflection, 2023
图 2.1.13 来源:Inflection, 2023
2023 年 12 月 6 日Gemini大语言模型GoogleGoogle 的 Gemini 项目推出了 Gemini Ultra 等变种,这些新型号在众多评测中超越了 GPT-4,显现出强劲的竞争力。
图 2.1.14 来源:Medium, 2023
图 2.1.14 来源:Medium, 2023
2023 年 12 月 21 日Midjourney v6文本到图像模型MidjourneyMidjourney 的最新版本通过更加直观的操作提示和提升的图像质量,极大地优化了用户体验。
图 2.1.15 来源:Bootcamp, 2023
图 2.1.15 来源:Bootcamp, 2023

人工智能的性能现状

到 2023 年为止,人工智能在多种任务上的表现已经超过了人类,图 2.1.16 清晰地展示了 AI 系统在九个代表性任务的 AI 基准测试中相对于人类基准的进步(比如,图像分类或基础阅读理解)[1]。AI Index 团队针对每个任务选取了代表性的基准。

在过去几年中,AI 在诸如 2015 年的图像分类、2017 年的基础阅读理解、2020 年的视觉推理、2021 年的自然语言推理等多个领域已经超越了人类。然而到了 2023 年,AI 在一些领域,尤其是那些涉及更高级认知的任务如视觉常识推理和高级数学题目解题(竞赛级问题)中,还未能超过人类。

选择 AI Index 技术性能基准与人类表现对比
选择 AI Index 技术性能基准与人类表现对比

1 AI 基准测试是一种标准化的测试,用来评估 AI 系统在特定任务上的表现和能力。例如,ImageNet 是一个经典的 AI 基准测试,包含了大量带标签的图片,AI 系统需要对这些图片进行准确分类。基准测试的跟踪是 AI 社区用来监控 AI 技术进步的一种常见方法。

2 在图 2.1.16 中,数值通过一种标准化的缩放方法来比较不同基准测试的表现。这种缩放方法确保每年最优模型的表现可以作为给定任务的人类基线的一个百分比来衡量。比如,105% 意味着某模型的表现比人类基准高出 5%。

AI 指标基准

如去年的报告所强调的,AI 技术性能的一个新兴主题是在多个基准测试中观察到的性能饱和现象,比如用来评价 AI 模型如 ImageNet 的熟练程度测试。这些测试的结果近几年趋于平稳,这可能意味着 AI 的能力已经达到一个顶峰,或者说明研究者们开始追求更高的复杂挑战。3

由于这种饱和,2023 年的 AI 指标报告中的一些测试没有出现在今年的报告中。图 2.1.17 显示了那些包含在 2023 年但今年未展示的基准测试,以及这些测试自 2022 年以来的进展。其中“NA”表示无明显进步。

A selection of deprecated benchmarks from the 2023 AI Index report Source: AI Index, 2024
A selection of deprecated benchmarks from the 2023 AI Index report Source: AI Index, 2024

3 一些基准测试之所以会饱和或者进展缓慢,是因为设计的问题比较棘手,导致相关的表现难以有所突破。这里所讨论的基准饱和主要是指那些已经接近完美的测试,提高空间极小。

  1. 为了简洁,图 2.1.17 特别展示了一些不再使用的基准测试。还有一些基准因为达到性能饱和、未再出现突破性成绩或研究兴趣转移而被淘汰,包括:Celeb-DF(深度伪造检测,Celeb-DF)、CIFAR-10(图像分类,CIFAR-10)、NIST FRVT(面部识别,NIST FRVT)以及 Procgen(强化学习,Procgen)。

图 2.1.18 描绘了 2023 年 AI 指数报告中选定基准的年对年性能提升百分比。多数基准测试在初期会迅速实现显著性能增长,随后增速逐渐放缓。在最近几年,这些基准的进展微乎其微,甚至无任何提升。

随时间展示的选定 AI 指数技术性能基准的年对年改进百分比。来源:AI 指数,2024 | 图表来源:2024 AI 指数报告
随时间展示的选定 AI 指数技术性能基准的年对年改进百分比。来源:AI 指数,2024 | 图表来源:2024 AI 指数报告

为了解决基准测试普遍性饱和的问题,人工智能 (AI) 研究者们开始转向更具挑战性的测试。2024 年 AI Index 报告涵盖了多个新设的基准测试,包括编程、高级推理和主动性行为等领域,这些领域在以往的报告中鲜有涉及 (图 2.1.19)。5

New benchmarks featured in the 2024 AI Index report
New benchmarks featured in the 2024 AI Index report

5 本报告附录详述了本章提到的新基准测试的选取依据。

2.2 语言

自然语言处理 (NLP) 使计算机能够理解、解释、生成及改写文本。当前的顶尖模型,如 OpenAI 的 GPT-4 和 Google 的 Gemini,可以产出通顺且有逻辑的文本,并表现出卓越的语言理解能力 (图 2.2.1)。这些模型现在也能处理多种输入方式,比如图像和音频 (图 2.2.2)。

A sample output from GPT-4
A sample output from GPT-4

Gemini handling image and audio inputs Source: Google, 2024
Gemini handling image and audio inputs Source: Google, 2024

理解

英语理解测试要求 AI 系统通过多种方法来深入理解英语,包括阅读理解和逻辑推理。

HELM:语言模型全方位评测

如上所述,近些年来,大语言模型已在包括 SQuAD(问题解答)和 SuperGLUE(语言理解)在内的传统英文基准测试中超越了人类。这种突飞猛进的发展促使我们需要更全面的评测标准。

图 2.2.3: HELM 的平均胜率概览:来源:CRFM,2023 年 | 图表:2024 年 AI 指数报告
图 2.2.3: HELM 的平均胜率概览:来源:CRFM,2023 年 | 图表:2024 年 AI 指数报告

2022 年,斯坦福的研究人员推出了 HELM,这是一个旨在全面评估大语言模型在多种场景下的表现的评测体系,涵盖阅读理解、语言理解和数学推理等领域。HELM 通过评估 Anthropic、Google、Meta 和 OpenAI 等领先企业的模型,并使用“平均胜率”作为衡量各场景平均表现的指标。到 2024 年 1 月,GPT-4 以 0.96 的高平均胜率领先于 HELM 的总排名(图 2.2.3);不过,在不同的任务类型中,有不同的模型表现最佳(图 2.2.4)。

图 2.2.4: HELM 各分项测试的领军模型:来源:CRFM,2023 年 | 表格:2024 年 AI 指数报告
图 2.2.4: HELM 各分项测试的领军模型:来源:CRFM,2023 年 | 表格:2024 年 AI 指数报告

HELM 涵盖 10 种测试场景:包括 NarrativeQA(阅读理解)、两种 Natural Questions(开放书和封闭书的简答题回答)、OpenBookQA(常识问题回答)、MMLU(多学科理解)、GSM8K(小学级数学)、MATH(数学竞赛)、LegalBench(法律推理)、MedQA(医疗知识)和 WMT 2014(机器翻译)。

目前讨论的是 HELM Lite 的第一版(2023 年 12 月 19 日发布),这些数据是在 2024 年 1 月收集的。

MMLU:大规模多任务语言理解

大规模多任务语言理解 (MMLU) 基准测试是用来评估模型在零样本 (zero-shot) 或少样本 (few-shot) 情景下的性能,涵盖了 57 个学科,包括人文学科、STEM 和社会科学 (图 2.2.5)。MMLU 已经成为评估大语言模型 (LLM) 能力的首选基准:许多最先进的模型,如 GPT-4、Claude 2 和 Gemini,都已经在 MMLU 上进行了评估。

2023 年初,GPT-4 在 MMLU 上取得了最先进的成绩,随后被 Google 的 Gemini Ultra 超越。图 2.2.6 显示了不同年份在 MMLU 基准测试上的顶尖模型分数。报告的分数是测试集的平均值。截至 2024 年 1 月,Gemini Ultra 保持最高分数 90.0%,自 2022 年以来增加了 14.8 个百分点,自 2019 年 MMLU 创立以来增加了 57.6 个百分点。Gemini Ultra 的分数是第一个超过 MMLU 的人类基线 89.8% 的。

MMLU 示例问题 来源:Hendrycks 等人,2021
MMLU 示例问题 来源:Hendrycks 等人,2021

MMLU:平均准确率 来源:Papers With Code,2023 | 图表:2024 AI 指数报告
MMLU:平均准确率 来源:Papers With Code,2023 | 图表:2024 AI 指数报告

生成

在生成任务中,AI 模型被测试其产生流畅实用的语言回应的能力。

Chatbot Arena 排行榜

大语言模型的迅速发展使我们更需要知道普通人更倾向于哪些模型。2023 年启动的 Chatbot Arena 排行榜,是一个首创的公众偏好综合评估工具。在这个排行榜上,用户可以对两个匿名的模型进行查询,并对他们更喜欢的输出进行投票 (图 2.2.7)。到了 2024 年初,已经有超过 20 万用户投票,他们最喜欢的是 OpenAI 的 GPT-4 Turbo (图 2.2.8)。

示例响应:Chatbot Arena 排行榜上的模型反馈 来源:Chatbot Arena 排行榜,2024
示例响应:Chatbot Arena 排行榜上的模型反馈 来源:Chatbot Arena 排行榜,2024

LLMs 的 Elo 评分:LMSYS Chatbot Arena 来源:Hugging Face, 2024 | 图表:2024 AI 指数报告
LLMs 的 Elo 评分:LMSYS Chatbot Arena 来源:Hugging Face, 2024 | 图表:2024 AI 指数报告

事实性与真实性

大语言模型虽然成就斐然,但它们依旧容易出错,比如制造出虚假但貌似真实的信息。这种情况在现实世界中不乏例证,如某些法庭案件就见证了这一点,这也显示了我们需要密切关注这些模型在事实性上的表现。

真实问答

在 2022 年的 ACL 大会上首次介绍的真实问答(TruthfulQA)是一个测试大语言模型 (LLMs) 答案真实性的标准。这个测试涵盖了包括健康、政治和金融在内的 38 个领域,共有约 800 个问题。这些问题专门设计来检验人们普遍存在的一些错误认知,这些认知往往会使人给出错误的答案 (图 2.2.9)。虽然研究发现更复杂的模型通常答案不够真实,但最新发布的 GPT-4 (RLHF) 在 2024 年早期已在这一标准测试中取得了最佳成绩,得分为 0.6 (图 2.2.10),这个成绩几乎是 2021 年基于 GPT-2 的模型的三倍,显示出大语言模型在不断进步,越来越能提供真实的答案。

Sample TruthfulQA questions Source: Lin, Hilton, and Evans, 2022
Sample TruthfulQA questions Source: Lin, Hilton, and Evans, 2022

Multiple-choice task on TruthfulQA: MC1 Source: Papers with Code, 2023 | Chart: 2024 AI Index report
Multiple-choice task on TruthfulQA: MC1 Source: Papers with Code, 2023 | Chart: 2024 AI Index report

HaluEval

正如我们之前提到的,大语言模型 (LLMs) 倾向于产生幻觉,这一点在它们被广泛应用于如法律和医疗这样的关键领域时尤其令人担忧。虽然很多研究都在探索幻觉的原因,但关于频繁发生幻觉的大语言模型及其特别容易出错的领域的研究还相对较少。

HaluEval 是在 2023 年推出的一个新的基准测试,专门用来评估大语言模型中的幻觉问题。它包含了超过 35,000 个样本,这些样本既有幻觉的也有正常的,用来通过大语言模型进行分析和评价 (图 2.2.11)。研究显示,ChatGPT 在其回答中大约 19.5% 的内容是捏造的不可验证信息,涉及语言、气候和技术等多个领域。此外,该研究还检验了目前的大语言模型在识别这些幻觉上的能力。图 2.2.12 展示了一些顶尖的大语言模型在不同任务中识别幻觉的能力,包括问答、知识驱动对话和文本总结等。这些发现强调了幻觉是一个严重且持续的问题。

图 2.2.11:一个生成的幻觉问答示例及人工标注的 ChatGPT 回答用户询问的情况,来源:Li 等,2023
图 2.2.11:一个生成的幻觉问答示例及人工标注的 ChatGPT 回答用户询问的情况,来源:Li 等,2023

图 2.2.12:HaluEval 在幻觉分类上的准确性,来源:Li 等,2023 | 表:2024 AI 指数报告
图 2.2.12:HaluEval 在幻觉分类上的准确性,来源:Li 等,2023 | 表:2024 AI 指数报告

2.3 编程

生成

在众多编程任务中,AI 模型需要生成实用的代码或解决计算机科学问题。

HumanEval

HumanEval 是 OpenAI 研究人员在 2021 年推出的一个评估 AI 智能体 (AgentCoder) 编程能力的基准测试。它涵盖了 164 道由人工编写的具有挑战性的编程题目 (图 2.3.1)。目前,GPT-4 的一个变体在这个测试中表现最佳,其通过率高达 96.3%,相较于 2022 年的最高记录提升了 11.2 百分点 (图 2.3.2)。从 2021 年到现在,HumanEval 的整体表现提升了 64.1 百分点。

Chen 等人 2023 年提供的 HumanEval 问题示例
Chen 等人 2023 年提供的 HumanEval 问题示例

2023 年 Papers With Code 提供的 HumanEval: Pass@1 成绩图,来源于 2024 年 AI Index 报告
2023 年 Papers With Code 提供的 HumanEval: Pass@1 成绩图,来源于 2024 年 AI Index 报告

SWE-bench

人工智能系统的编程能力越来越强,因此对它们进行更高难度任务的基准测试显得尤为重要。2023 年 10 月,研究人员推出了一个名为 SWE-bench 的新数据集,其中包括了来自真实 GitHub 问题和热门 Python 项目的 2,294 个软件工程问题 (图 2.3.3)。这个数据集对 AI 的编程测试提出了高要求,需要 AI 系统在多个功能之间进行协调,与不同的运行环境交互,还要做出复杂的逻辑推理。

连顶尖的大语言模型在 SWE-bench 的测试中也遇到了严峻的挑战。其中,Claude 2 模型的表现最好,但也只解决了 4.8% 的问题 (图 2.3.4)。2023 年,SWE-bench 上的最优模型的表现已经比 2022 年最好的模型提高了 4.3 个百分点。

A sample model input from SWE-bench Source: Jimenez et al., 2023
A sample model input from SWE-bench Source: Jimenez et al., 2023

SWE-bench: percent resolved Source: SWE-bench Leaderboard, 2023 | Chart: 2024 AI Index report
SWE-bench: percent resolved Source: SWE-bench Leaderboard, 2023 | Chart: 2024 AI Index report

8 根据 SWE-bench 的排行榜,没有外援的系统需要自行找到相关的文件。而在“oracle”检索模式下的系统,则会得到修改过的文件列表的提示。

计算机视觉技术使机器能够理解图像和视频,并能根据文本提示或其他输入创建逼真的视觉图像。这种技术在自动驾驶、医疗影像和视频游戏开发等多个领域都有应用。

2.4 图像计算机视觉与图像生成

生成

图像生成的目标是创造出无法与真实图片区分开的图像。目前的图像生成技术已经非常先进,大部分人已难以分辨 AI 生成的人脸图像与真实人脸图像的差别(图 2.4.1)。图 2.4.2 中,通过“一个超现实的哈利·波特图像”的示例,展示了 2022 年至 2024 年间 Midjourney 模型不同版本的演进。这一系列图像不仅显示了在这两年中,Midjourney 在创造极为逼真图像方面的显著进步。2022 年时,模型仅能生成较为卡通的、与原型有偏差的哈利·波特图像,但到了 2024 年,其生成的图像已经达到了令人吃惊的真实程度。

哪张面孔是真的?来源:Which Face Is Real, 2023
哪张面孔是真的?来源:Which Face Is Real, 2023

Midjourney 时间线上的演进:“一个超现实的哈利·波特图像”来源:Midjourney, 2023 | 图表:2024 AI Index 报告

V1, February 2022
V1, February 2022
V2, April 2022
V2, April 2022
V3, July 2022
V3, July 2022
V4, November 2022
V4, November 2022
V5, March 2023
V5, March 2023
V5.1, March 2023
V5.1, March 2023
V5.2, June 2023
V5.2, June 2023
V6, December 2023
V6, December 2023

HEIM:全方位评估文转图模型

随着 AI 文字转图片系统的快速进步,人们开发了更为复杂的评估方法。2023 年,斯坦福的研究者推出了全方位评估文转图模型 (HEIM) 的基准测试,该测试全面地从 12 个关键维度对图像生成器进行评估,这些维度在实际应用中极为重要,如图像与文本的对齐 (image-text alignment)、图像的质量 (image quality) 和美观度 (aesthetics)。[9] 该模型的评估依赖于人工评价,这一点非常关键,因为很多自动化指标难以精确地评价图像的各个方面。

HEIM 的研究结果显示,不存在一个模型能在所有标准上都是最佳的。在评估图像与文字的对齐度(即生成图像与输入文字的契合程度)时,OpenAI 的 DALL-E 2 表现最为出色(见 图 2.4.3)。在图像质量(判断图像是否接近真实照片)、美观度(视觉吸引力的评估)及创新性(新颖图像生成和避免侵权的能力)上,基于 Stable Diffusion 的梦幻风格照相真实模型得分最高(见 图 2.4.4)。

Image-text alignment: human evaluation Source: CRFM, 2023 | Chart: 2024 AI Index report
Image-text alignment: human evaluation Source: CRFM, 2023 | Chart: 2024 AI Index report

Model leaders on select HEIM sub-benchmarks Source: CRFM, 2023 | Table: 2024 AI Index report
Model leaders on select HEIM sub-benchmarks Source: CRFM, 2023 | Table: 2024 AI Index report

9 HEIM 的 12 个评价标准包括:(1) 对齐 (Alignment): 图像和给定文本的匹配程度有多高? (2) 质量 (Quality): 生成图像的质量如何? (3) 美感 (Aesthetic): 生成图像的审美水平怎样? (4) 创新性 (Originality): 图像展现了多少创意? (5) 推理能力 (Reasoning): 模型能否理解物体、数量及其空间关系? (6) 世界知识 (Knowledge): 模型对世界的了解程度如何? (7) 偏见 (Bias): 生成的图像中有无偏见? (8) 毒性 (Toxicity): 生成的图像是否包含不当内容? (9) 公正性 (Fairness): 生成图像是否有表现上的差异? (10) 稳健性 (Robust): 模型对输入变化的反应是否稳健? (11) 多语言支持 (Multilinguality): 模型是否支持多种语言? (12) 效率 (Efficiency): 模型处理速度快吗?

杰出研究:MVDream

通过文本提示来创建 3D 模型一直是 AI 领域的一个挑战,现有技术在处理如多面性问题(文本描述内容的不准确再现)及内容漂移(不同 3D 视角间的不一致性)等问题时常常力不从心。MVDream 是由字节跳动和加州大学圣地亚哥分校研究人员共同开发的一款新型 3D 创建工具,成功解决了这些问题 (图 2.4.5)。其定量评估结果显示,MVDream 所创建的模型在 Inception Score (IS) 和 CLIP 分数上与训练数据相当,证明了其图像质量的优异性 (图 2.4.6)。MVDream 的推出对于需要大量 3D 内容的创意产业而言,意味着创作过程可以更加高效,减少时间和人力成本。

MVDream 的样本生成 来源:Shi 等,2023
MVDream 的样本生成 来源:Shi 等,2023

关于图像合成质量的定量评估 来源:Shi 等,2023 | 表:2024 AI 指数报告
关于图像合成质量的定量评估 来源:Shi 等,2023 | 表:2024 AI 指数报告

指令执行

在计算机视觉领域,指令执行能力指的是视觉 - 语言模型根据文本指令解读与图像相关内容的能力。例如,可以想象一个 AI 系统得到一些食材的图片,然后指导如何使用这些食材制作健康美食。这种能够精确执行指令的视觉 - 语言模型对于开发先进的 AI 助理至关重要。

VisIT-Bench

2023 年,一组来自工业界和学术界的研究人员推出了 VisIT-Bench,这是一个包含大约 70 类指令的基准测试,涉及 592 项挑战性强的视觉 - 语言任务,如情节分析、艺术知识和地点理解等 (图 2.4.8)。到 2024 年 1 月,GPT-4V 成为 VisIT-Bench 的领头羊,这是 GPT-4 Turbo 的视觉版,其 Elo 分数高达 1349 分,略高于人类在此基准测试的分数 (图 2.4.9)。

A sample VisIT-Bench instruction set Source: Bitton et al., 2023
A sample VisIT-Bench instruction set Source: Bitton et al., 2023

VisIT-Bench: Elo rating Source: Hugging Face, 2024 | Chart: 2024 AI Index report
VisIT-Bench: Elo rating Source: Hugging Face, 2024 | Chart: 2024 AI Index report

图像编辑

图像编辑是指利用 AI 技术根据文本提示来修改图片的过程。这种由 AI 辅助的编辑方法在工程设计、工业设计和电影制作等多个领域发挥着重要作用。

EditVal

文本引导的图像编辑技术虽然前景广阔,但目前还缺少能够准确评估编辑器是否忠实于提示的可靠方法。为此,推出了 EditVal,这是一个新的基准测试,专门用于评估文本引导的图像编辑。它包括了 13 种以上的编辑方式,如增加物体或调整物体位置,覆盖 19 类物体 (图 2.4.10)。此基准已应用于测试包括 SINE 和 Null-text 在内的八大文本引导图像编辑技术。自 2021 年起,这些编辑任务的表现提升可见于图 2.4.11。

样本 VisIT-Bench 指令集 来源:Bitton 等,2023
样本 VisIT-Bench 指令集 来源:Bitton 等,2023

EditVal 自动评估:编辑准确性 来源:EditVal 排名榜,2024 | 图表:2024 AI 指数报告
EditVal 自动评估:编辑准确性 来源:EditVal 排名榜,2024 | 图表:2024 AI 指数报告

杰出研究:ControlNet

所谓调节输入或者说条件控制,是指通过设定某些必须满足的条件来指导图像生成器输出的方法。目前的文本转图像模型在控制图像的空间布局上往往力不从心,难以仅通过简单的提示来创造出布局复杂、形状各异且具有特定姿态的图像。尽管理论上可以通过在更多图像上进行微调 (fine-tunes) 来增强这些模型的布局控制能力,但像人体姿态这样的特定数据集往往规模不足,不足以支撑有效的训练。

2023 年,斯坦福大学的研究人员推出了一种新的模型,ControlNet,它在大型文本到图像扩散模型 (text-to-image diffusion models) 的条件控制编辑上取得了显著进步 (图 2.4.12)。ControlNet 特别能够有效处理多种调节输入,相较于 2022 年推出的其他模型,它在图像质量和条件符合度上更受评审们的青睐 (图 2.4.13)。ControlNet 的开发标志着向能更真实地再现复杂现实图像的高级文本转图像生成器的一个重大进展。

Sample edits using ControlNet Source: Zhang et al., 2023
Sample edits using ControlNet Source: Zhang et al., 2023

Average User Ranking (AUR): result quality and condition LJdelity Source: Zhang et al., 2023 | Chart: 2024 AI Index report
Average User Ranking (AUR): result quality and condition LJdelity Source: Zhang et al., 2023 | Chart: 2024 AI Index report

杰出研究:Instruct-NeRF2NeRF

新型模型可以仅使用文本指令编辑 3D 几何形状。Instruct-NeRF2NeRF 是由伯克利研究人员开发的一个模型,该模型采用图像条件扩散模型 (image-conditioned diffusion model) 进行 3D 几何形状的迭代文本编辑 (图 2.4.14)。这种方法能高效生成符合文本指令的新编辑图像,实现比当前领先方法更高的一致性 (图 2.4.15)。

Instruct-NeRF2NeRF 演示中的一个示例 来源:Haque 等,2023
Instruct-NeRF2NeRF 演示中的一个示例 来源:Haque 等,2023

评估文本 - 图像对齐和帧一致性 来源:Haque 等,2023 | 图表:2024 AI 指数报告
评估文本 - 图像对齐和帧一致性 来源:Haque 等,2023 | 图表:2024 AI 指数报告

图像分割

图像分割任务是将图像中的每个像素点分类到特定的类别中,例如人类、自行车或街道。

杰出研究:万物分割

2023 年,Meta 研究团队启动了一个名为“万物分割” (Segment Anything) 的项目,它不仅包括了划时代的万物分割模型 (Segment Anything Model, SAM) ,还有一个庞大的 SA1B 图像分割数据库。SAM 模型作为首批能广泛通用并在全新任务和环境中即插即用 (zero-shot) 的高效分割模型,显示了非凡的性能,在 23 个数据集中的 16 个上超过了如 RITM 等主流方法 (图 2.4.17)。该项目使用的核心评价标准是平均交集比 (Intersection over Union, IoU)。

在人类标注者的协助下,Meta 使用“万物分割”模型创建了 SA-1B 数据库,涵盖了超过 1 亿个分割图案,总计 1100 万张图像 (图 2.4.16)。这一巨大的数据库将极大加速未来图像分割技术的培训进程。通过与人类的合作,这个项目展示了如何更高效地利用 AI 创建大规模数据集,并利用这些数据集培养更先进的 AI。

由“万物分割”制作的多样化分割图案 来源:Kirillov 等,2023
由“万物分割”制作的多样化分割图案 来源:Kirillov 等,2023

SAM 与 RITM 性能对比:平均 IoU 来源:Kirillov 等,2023 | 图表:2024 AI 指数报告
SAM 与 RITM 性能对比:平均 IoU 来源:Kirillov 等,2023 | 图表:2024 AI 指数报告

图像到三维重建

从二维图像到三维数字模型的转换,这一技术广泛应用于医疗影像、机器人学和虚拟现实领域。

杰出研究:Skoltech3D

AI 系统在开发特定任务时,经常会受到数据不足的阻碍。2023 年,国际研究团队推出了 Skoltech3D,这是一个用于多视图三维表面重建的庞大新数据集 (图 2.4.18)。该数据集包括 1.4 百万张图片,涵盖 107 个不同场景,这些场景分别在 100 个视角和 14 种光照条件下被捕捉,显著优于现有的三维重建数据集 (图 2.4.19)。

Objects from the 3D reconstruction dataset Source: Voynov et al., 2023
Objects from the 3D reconstruction dataset Source: Voynov et al., 2023

Skoltech3D vs. the most widely used multisensor datasets Source: Voynov et al., 2023 | Table: 2024 AI Index report
Skoltech3D vs. the most widely used multisensor datasets Source: Voynov et al., 2023 | Table: 2024 AI Index report

杰出研究:RealFusion

RealFusion 是由牛津研究者开发的一种新技术,可以从单张图片生成物体的完整三维模型,解决了单图信息不足不能完全重建物体 360 度视图的问题。通过使用现有的二维图像生成技术,RealFusion 可以从多个角度展示物体,然后将这些视图合并成一个完整的 360 度模型 (图 2.4.20)。这种方法在各种物体上的三维重建效果,都优于 2021 年的先进方法 Shelf-Supervised (图 2.4.21)。

Sample generations from RealFusion Source: Melas-Kyriazi et al, 2023
Sample generations from RealFusion Source: Melas-Kyriazi et al, 2023

Object reconstruction: RealFusion vs. Shelf-Supervised Source: Melas-Kyriazi et al., 2023 | Chart: 2024 AI Index report
Object reconstruction: RealFusion vs. Shelf-Supervised Source: Melas-Kyriazi et al., 2023 | Chart: 2024 AI Index report

2.5 视频计算机视觉与视频生成

生成

视频生成通常指利用人工智能技术,根据文本或图像内容自动创造视频。

UCF101

UCF101 是一个涵盖了 101 种动作类别的动作识别数据集,这些视频都是从现实世界中捕捉的动作场景 (图 2.5.1)。近年来,这个数据集常用于评估视频生成技术的效果。例如,今年的表现最佳的模型,W.A.L.T-XL,其在 FVD16 指标上达到了 36 分,这个分数是去年最好成绩的一半还少 (图 2.5.2)。

来自 UCF101 的样本帧 来源:Soomro et al., 2021
来自 UCF101 的样本帧 来源:Soomro et al., 2021

UCF101: FVD16 来源:Papers With Code, 2023 | 图表:2024 AI Index report
UCF101: FVD16 来源:Papers With Code, 2023 | 图表:2024 AI Index report

杰出研究:潜在模型对齐

目前,大部分常用方法只能制作短时间且分辨率较低的视频。为此,一个国际研究团队采用了原本用于生成高质量图片的潜在扩散模型,成功制作了高分辨率视频 (图 2.5.3)。他们的潜在扩散模型 (LDM) 在分辨率上显著优于 2022 年推出的如长视频生成网络 (LVG) 等前沿技术 (图 2.5.4)。通过将文本到图片的技术改造为文本到视频的模型,这项研究展示了先进 AI 技术如何能够跨领域应用于计算机视觉。LDM 的强大视频制作能力可被广泛应用于现实世界,例如在驾驶模拟中创造出逼真的效果。

高质量生成的牛奶滴入一杯咖啡 来源:Blattmann 等,2023
高质量生成的牛奶滴入一杯咖啡 来源:Blattmann 等,2023

视频 LDM 对比 LVG:FVD 和 FID 来源:Blattmann 等,2023 | 图表:2024 AI 指数报告
视频 LDM 对比 LVG:FVD 和 FID 来源:Blattmann 等,2023 | 图表:2024 AI 指数报告

杰出研究:Emu Video

在视频生成领域,相较于图像生成,进展较慢,主要是因为视频的复杂性更高,且可用的训练数据集相对较少。Meta 研究人员开发的新型 Transformer 视频生成模型——Emu Video,标志着此领域的一个重大突破 (图 2.5.5)。这一模型能够从文本中生成图像,并以此为基础,进一步创造视频。图 2.5.6 显示了 Emu Video 在先进视频生成技术竞赛中的表现,其优势体现在更多的人类评审偏好其图像质量或对文本的忠实再现。Emu Video 不仅简化了视频制作过程,还预示着高品质视频生成技术的新纪元。

Emu Video 示例 来源:Girdhar 等,2023
Emu Video 示例 来源:Girdhar 等,2023

Emu Video 与之前作品的对比:人类评价的视频质量及文本忠诚度胜率 来源:Girdhar 等,2023 | 图表:2024 AI 指数报告
Emu Video 与之前作品的对比:人类评价的视频质量及文本忠诚度胜率 来源:Girdhar 等,2023 | 图表:2024 AI 指数报告

AI 的逻辑推理能力是指 AI 系统基于不同信息进行合理推理的能力。当前,AI 在多种推理场景中的表现正在变得越来越多样,包括视觉推理(解析图像)、道德推理(处理道德难题)及社会推理(应对社交场合)[20]。

2.6 推理

通用推理

通用推理指的是 AI 系统在多个广泛领域而非单一领域内的推理能力。例如,在一项通用推理挑战中,AI 可能需要处理多种主题的推理任务,而不仅仅是专注于例如棋类游戏等具体任务。

MMMU:用于专家级通用人工智能的大型多学科多模态理解与推理测试

近些年,AI 系统的推理能力大幅提升,原有的基准测试如文本推理的 SQuAD 和视觉推理的 VQA 已不再具备足够挑战性,这表明我们需要更复杂的推理测试。

基于这一需求,美国和加拿大的研究人员最近开发出了 MMMU,这是一项为专家级通用人工智能设计的大型多学科多模态理解与推理测试。MMMU 总共包括来自六大学科的约 11,500 个大学级别的问题,涉及艺术与设计、商业、科学、健康与医学、人文与社会科学以及技术与工程 (图 2.6.1)。这些问题的形式多样,包括图表、地图、表格和化学结构等。MMMU 是迄今为止最具挑战性的 AI 感知、知识和推理测试之一。截至 2024 年 1 月,得分最高的模型是 Gemini Ultra,其在所有类别中均处于领先位置,总分达到 59.4% (图 2.6.2)。在大部分单项任务中,顶尖模型的表现仍旧远超中级人类专家 (图 2.6.3),这一较低的分数足以证明 MMMU 在评估 AI 推理能力方面的高效性。

10 在之前的章节中,我们已经看到一些任务隐含地包含了推理元素。本节将聚焦于那些更专注于具体推理的任务。

11 根据 AI Index 的报道,MMMU 的验证集结果显示出色,这是论文作者推荐的最全面的测试方法。他们指出,尚未公开的测试集的标签和更大的数据规模构成了一个更具挑战性的基准,能够更有效地评估模型表现。这些测试结果可以在 MMMU 的网页上查询。

MMMU 问题示例 来源:Yue 等,2023
MMMU 问题示例 来源:Yue 等,2023

MMMU: 总体准确性 来源:MMMU, 2023 | 图表:2024 AI Index 报告
MMMU: 总体准确性 来源:MMMU, 2023 | 图表:2024 AI Index 报告

MMMU: 主题特定准确性 来源:MMMU, 2023 | 表 1: 2024 AI 指数报告
MMMU: 主题特定准确性 来源:MMMU, 2023 | 表 1: 2024 AI 指数报告

12 模型名称旁的星号 (*) 表示这些结果是由作者所提供的。

GPQA: 高级别的“Google 难题”问答基准

去年,来自 NYU、Anthropic 与 Meta 的研究人员推出了 GPQA 基准,目的是考察 AI 在多学科综合推理上的表现。这套数据集包括 448 道难度极高的多项选择题,常规的 Google 搜索无法直接找到答案。这些题目是由生物学、物理学、化学等领域的专家精心设计的(图 2.6.4)。在 GPQA 测试中,具有博士学位的专家在各自领域的正确率为 65%,而普通人只有 34% 的正确率。在所有 AI 模型中,GPT-4 的表现最佳,其在主测试集的正确率为 41.0%(图 2.6.5)。

GPQA 中的一个化学题 示例 来源:Rein et al., 2023
GPQA 中的一个化学题 示例 来源:Rein et al., 2023

GPQA 主测试集的准确性 | 来源:Rein et al., 2023 | 图表:2024 AI 指数报告
GPQA 主测试集的准确性 | 来源:Rein et al., 2023 | 图表:2024 AI 指数报告

杰出研究:人类、GPT-4 和 GPT-4V 在抽象和推理任务上的对比

抽象推理是指利用已知信息来解决陌生和创新问题的能力,这是人类认知的重要特征,甚至在幼儿中也可见一斑。尽管近期的大语言模型(LLM)如 GPT-4 表现出色,其真正的抽象推理能力却是众多讨论的焦点 [13]。圣达菲研究院的研究人员对 GPT-4 进行了 ConceptARC 基准测试,该测试包括一系列用于评估抽象推理能力的类比谜题 (图 2.6.6)。研究结果表明,GPT-4 在抽象推理方面大幅落后于人类:在此测试中,人类的平均得分为 95%,而最优的 GPT-4 系统的得分仅为 69% (图 2.6.7)。因此,要开发出真正的通用人工智能,抽象推理能力是不可或缺的。持续跟进这一领域的进展至关重要。

A sample ARC reasoning task Source: Mitchell et al., 2023
A sample ARC reasoning task Source: Mitchell et al., 2023

ConceptARC: accuracy on minimal tasks over all concepts | Source: Mitchell et al., 2023 | Chart: 2024 AI Index report
ConceptARC: accuracy on minimal tasks over all concepts | Source: Mitchell et al., 2023 | Chart: 2024 AI Index report

数学推理

数学问题解决基准用于测试 AI 系统的数学推理能力。AI 模型可针对从小学水平到竞赛级的各类数学问题进行测试。

GSM8K

GSM8K 是一个涵盖大约 8000 道小学数学文字题的数据集,这些问题需要 AI 模型通过算术操作来进行多步骤的解答(图 2.6.8)。GSM8K 很快就成为了评估高级大语言模型的标准测试之一。目前在 GSM8K 上表现最出色的是一种 GPT-4 版本(GPT-4 代码解释器),它的准确率高达 97%,较去年最好成绩提高了 4.4%,相比 2022 年这个基准首次设立时则提高了 30.4%(图 2.6.9)。

Sample problems from GSM8K Source: Cobbe et al., 2023
Sample problems from GSM8K Source: Cobbe et al., 2023

GSM8K: accuracy Source: Papers With Code, 2023 | Chart: 2024 AI Index report
GSM8K: accuracy Source: Papers With Code, 2023 | Chart: 2024 AI Index report

MATH

MATH 是一个由加州大学伯克利分校研究人员于 2021 年推出的竞赛级挑战性数学问题数据集,包含 12500 道题(图 2.6.10)。MATH 刚推出时,AI 系统只能解决其中的 6.9%,但到了 2023 年,基于 GPT-4 的模型已显著提高了解题效率,成功率达到 84.3%(图 2.6.11)。

A sample problem from the MATH dataset Source: Hendrycks et al., 2023
A sample problem from the MATH dataset Source: Hendrycks et al., 2023

MATH word problem-solving: accuracy Source: Papers With Code, 2023 | Chart: 2024 AI Index report
MATH word problem-solving: accuracy Source: Papers With Code, 2023 | Chart: 2024 AI Index report

PlanBench

规划系统设定一个具体的目标,一个起始状态和多个行动。每个行动都有必须先满足的前提条件,并且行动执行后会产生相应的效果。系统将这些行动组织成一个序列,形成一个计划,以从起始状态达到目标。

有研究表明,大语言模型 (LLM) 能有效处理规划问题。来自亚利桑那州立大学的研究团队开发了 PlanBench,这是一个包含各种问题的基准测试套件,主要包括在国际规划竞赛中使用的问题。他们在 Blocksworld 领域使用一次性学习对 I-GPT-3 和 GPT-4 进行了测试,测试中涉及 600 个问题。在这些测试中,GPT-4 在约 34% 的案例中能生成正确且成本最优的计划,而 I-GPT-3 的成功率大约为 6% (图 2.6.12)。验证计划的正确性相对简单。

GPT-4 vs. I-GPT-3 on PlanBench 来源:Valmeekam, 2023 | 表格:2024 AI 指数报告
GPT-4 vs. I-GPT-3 on PlanBench 来源:Valmeekam, 2023 | 表格:2024 AI 指数报告

视觉推理

视觉推理能力测试 AI 系统在处理视觉和文字信息时的推理能力。

视觉常识推理(VCR)

2019 年推出的视觉常识推理 (VCR) 挑战赛主要考察 AI 系统处理视觉信息的常识推理能力。参与挑战的 AI 不仅要根据图片回答问题,还需逻辑推理答案的合理性(图 2.6.13)。VCR 成绩通过 Q->AR 分数来评定,这个分数检验 AI 选择正确答案(Q->A)及其理由(Q->R)的准确性。尽管 AI 还没有超过人类,但从 2022 到 2023 年,AI 的表现已经提升了 7.93%(图 2.6.14)。

一个典型的视觉常识推理 (VCR) 测试题 来源:Zellers et al., 2018
一个典型的视觉常识推理 (VCR) 测试题 来源:Zellers et al., 2018

视觉常识推理 (VCR) 评分图:Q->AR 分数 来源:VCR 排名榜,2023 | 图表:2024 AI 指数报告
视觉常识推理 (VCR) 评分图:Q->AR 分数 来源:VCR 排名榜,2023 | 图表:2024 AI 指数报告

道德推理

在未来,AI 将更广泛地被用于需要严格道德判断的领域,如医疗和法律系统。因此,AI 系统必须具备高度的道德推理能力,这样它们才能在复杂的伦理和道德问题中做出恰当的判断和决策。

MoCa

虽然 AI 模型在处理语言和视觉问题上的能力已经相当成熟,但它们在道德推理——特别是能与人类道德判断相符的推理——方面的能力还未得到充分理解。为了深入研究这一问题,Stanford 的研究者们创建了一个包含道德元素的人类故事数据集(MoCa)(见图 2.6.15)。他们向 AI 模型展示这些故事,并记录模型的反应,使用“离散一致性度量”来评估其与人类道德判断的吻合程度:得分越高,说明其判断越接近人类。研究发现,虽然没有任何一个模型能完全符合人类道德体系,但像 GPT-4 和 Claude 这样的新型大模型在道德一致性上表现更好,比起如 GPT-3 这样的小模型,显示出它们在扩展时能更好地适应人类的道德观(见图 2.6.16)。

A moral story from MoCa Source: Nie et al., 2023
A moral story from MoCa Source: Nie et al., 2023

Discrete agreement (agg.) Zero-shot alignment with human judgments on the moral permissibility task: discrete agreement | Source: Nie et al., 2023 | Chart: 2024 AI Index report
Discrete agreement (agg.) Zero-shot alignment with human judgments on the moral permissibility task: discrete agreement | Source: Nie et al., 2023 | Chart: 2024 AI Index report

因果推理

因果推理是评估 AI 系统是否能够理解因果关系的能力。随着 AI 越来越成为我们生活的一部分,确保 AI 模型不仅可以解释其输出,还能在必要时更新其结论变得格外重要,这是因果推理的一个核心。

评估大语言模型是否具备理解他人心理状态的能力,如信念、意图及情感,一直是 AI 研究的一大挑战。之前的方法在评估这种“心理理论”能力时既不充分也缺乏稳定性。为此,2023 年研究者们设计了一个名为 BigToM 的新基准测试,用来专门评价大语言模型在社交和因果推理方面的能力。BigToM 涵盖了 25 个控制测试和 5000 个模型生成的评估,其被认为比现有的同类测试更优。该测试包括预测未来事件、根据未来事件预测来行动和追溯过去行为原因三个方面 (图 2.6.17)。

在这个基准测试中,GPT-4 表现最佳,其理解他人心理状态的能力虽接近但未超过人类 (图 2.6.18, 图 2.6.19, 和 图 2.6.20)。具体来说,无论是预测未来信念还是追溯过去信念,GPT-4 的表现几乎和人类一样,而在根据预测来行动的任务上甚至略胜一筹。研究表明,随着新模型的推出,如 GPT-4 的表现已超越前代如 2022 年推出的 GPT-3.5。

Sample BigToM scenario Source: Gandhi et al., 2023
Sample BigToM scenario Source: Gandhi et al., 2023

Forward action inference with initial belief: accuracy Source: Gandhi et al., 2023 | Chart: 2024 AI Index report
Forward action inference with initial belief: accuracy Source: Gandhi et al., 2023 | Chart: 2024 AI Index report

Backward belief inference with initial belief: accuracy Source: Gandhi et al., 2023 | Chart: 2024 AI Index report
Backward belief inference with initial belief: accuracy Source: Gandhi et al., 2023 | Chart: 2024 AI Index report

图 2.6.20:

Forward belief inference with initial belief: accuracy Source: Gandhi et al., 2023 | Chart: 2024 AI Index report
Forward belief inference with initial belief: accuracy Source: Gandhi et al., 2023 | Chart: 2024 AI Index report

杰出研究:图宾根因果对

微软和芝加哥大学的研究团队证明,大语言模型 (LLMs) 在分析因果关系方面非常有效。他们使用图宾根因果对数据集对包括 GPT4 在内的几种先进大语言模型进行了测试。这个测试涵盖了 37 个领域中的超过 100 个因果实例,目的是评估 AI 系统的识别因果关系的能力(图 2.6.21)。GPT4 在这项测试中的表现尤为出色,准确率达到 96%,比去年最好成绩高出 13 个百分点(图 2.6.22)。特别地,GPT-4 的效果超过了其他专门训练进行因果分析的 AI 模型。研究还发现,一些精心设计的提示,尤其是那些旨在提升协助性的提示,可以大大提高大语言模型的因果推理能力。

图 2.6.21:

Sample cause-effect pairs from the Tübingen dataset Source: Kiciman et al., 2023
Sample cause-effect pairs from the Tübingen dataset Source: Kiciman et al., 2023

图 2.6.22:

Performance on the Tübingen cause-effect pairs dataset: accuracy Source: Kıcıman et al., 2023 | Chart: 2024 AI Index report
Performance on the Tübingen cause-effect pairs dataset: accuracy Source: Kıcıman et al., 2023 | Chart: 2024 AI Index report

AI 系统不仅能够精确地转换语音为文字,还能识别出不同的说话人。而且,近来在创造模拟音频内容,如语音和音乐等方面也有了新的突破。

2.7 音频

生成

2023 年标志着音频生成技术的一个飞跃年份,这项技术使我们能够制作各种从人声到音乐的合成音频。这一年,几款突出的音频生成器如 UniAudio, MusicGen 和 MusicLM 的推出,更是让这一领域的发展受到广泛关注。

杰出研究:UniAudio

UniAudio 是一种先进的语言模型技术,专门用来创造音频内容。它能够统一处理各种音频格式,并且使用类似于现代大语言模型的下一标记预测技术,从而产生高品质的音频。无论是语音、声音还是音乐,UniAudio 都能生成极致的高质量效果。在文本转语音、语音增强和声音转换等多个领域,UniAudio 的表现都超过了现有的主流技术(参见图 2.7.1)。通过使用超过一亿的参数,并在超过 16.5 万小时的音频训练数据的帮助下,UniAudio 展示了利用大数据和自监督技术进行音乐创作的巨大潜力。

UniAudio 与之前研究在训练阶段的比较:客观评价指标 来源:Yang 等人,2023 | 图表来源:2024 AI 指数报告
UniAudio 与之前研究在训练阶段的比较:客观评价指标 来源:Yang 等人,2023 | 图表来源:2024 AI 指数报告

杰出研究:MusicGEN 和 MusicLM

Meta 推出的 MusicGen 是一个创新的音频生成工具,该模型借鉴了语言模型中常用的 Transformer 架构来创造音频。使用 MusicGen,用户可以通过文本描述他们想要的音效,然后通过特定旋律来精细调整这些音效。在多项生成音乐的评比中,MusicGen 的表现优于其他一些流行的文本转音乐模型,如 Riffusion、Moûsai 和 MusicLM。其 FAD 得分较低,说明其生成的音乐更自然;KL 得分也较低,更加符合原音乐;CLAP 得分较高,显示它能更好地贴合音乐的文本描述 (见图 2.7.2)。在总体音质上,人们也更偏爱 MusicGen。

尽管 MusicGen 在多个新近推出的模型中表现突出,MusicLM 的推出也很有看点,特别是它同时推出了 MusicCaps —— 一个先进的含有 5500 组音乐和文字配对的数据库。MusicGen 的开发者使用 MusicCaps 来评估他们模型的性能。MusicGen 这样的新模型和 MusicCaps 这样的新基准测试的出现,标志着生成式 AI 正在向音频等更多领域扩展。

Evaluation of MusicGen and baseline models on MusicCaps Source: Copet et al., 2023 | Chart: 2024 AI Index report
Evaluation of MusicGen and baseline models on MusicCaps Source: Copet et al., 2023 | Chart: 2024 AI Index report

AI 智能体是设计来在特定环境下达成目标的自主或半自主系统,它们是 AI 研究的新前线。这些系统在多种场景下都有应用,例如帮助进行学术研究、安排会议、在线购物或是预定假期等。

2.8 智能体

通用智能体

这一部分主要介绍了那些能够在各种通用任务环境中灵活工作的智能体的基准测试和研究。

AgentBench 是一项新的基准测试,专为评估基于大语言模型 (LLM) 的智能体而设计。它涵盖了八种不同的互动场景,如网页浏览、在线购物、家庭管理、解谜以及数字卡牌游戏等 (图 2.8.1)。研究涉及了包括 OpenAI 的 GPT-4、Anthropic 的 Claude 2 和 Meta 的 Llama 2 在内的超过 25 种智能体。其中,GPT-4 成为表现最优的一员,总得分高达 4.01 分,明显超过了 Claude 2 的 2.49 分 (图 2.8.2)。此外,研究显示,2023 年推出的大语言模型在行为代理的场景中比以往的版本表现更好。AgentBench 团队还指出,智能体在某些测试环节上表现不佳,主要是因为它们在长期推理、决策和遵循指令方面的能力有限。

Description of the AgentBench benchmark Source: Liu et al., 2023
Description of the AgentBench benchmark Source: Liu et al., 2023

AgentBench across eight environments: overall score Source: Liu et al., 2023 | Chart: 2024 AI Index report
AgentBench across eight environments: overall score Source: Liu et al., 2023 | Chart: 2024 AI Index report

杰出研究:Voyageur

最近由 Nvidia、加州理工、德州大学奥斯汀分校、斯坦福和威斯康辛大学麦迪逊分校的研究显示,像 GPT-4 这样的大语言模型 (LLM) 能够帮助创建出可以持续自我学习的灵活 AI 智能体。团队开发了一个名为 Voyager 的智能体,专为 Minecraft 这个没有终点、开放式的巨大虚拟世界而设计(图 2.8.3)。在这个游戏中,Voyager 表现出极高的适应性,它不仅能记住策略,还能适应新挑战和转移它的知识。它在游戏中的成绩远超过之前的模型,包括收集物品提升了三倍多,探索距离增加了两倍多,达到关键成就的速度也快了超过十五倍(图 2.8.4)。

Voyager 在 Minecraft 中的实况图,来源:Wang 等,2023
Voyager 在 Minecraft 中的实况图,来源:Wang 等,2023

Voyager 在 Minecraft 中性能提升的图表,来源:Wang 等,2023 | 图表:2024 AI 指数报告
Voyager 在 Minecraft 中性能提升的图表,来源:Wang 等,2023 | 图表:2024 AI 指数报告

Voyager 的推出标志着 AI 研究的一个重要里程碑,因为开发一个能在开放世界里探索和学习的 AI 一直是一个挑战。以前的 AI 如 AlphaZero 虽然在棋类等固定规则的游戏中表现优秀,但在更自由的环境中则常常束手无策。而 Voyager 则在这样的动态环境中展现了它的高超技能,成为了 agentic AI 领域的一大进展。

针对特定任务的智能体

这一节介绍了一些专门为解决特定类型任务——比如数学题或进行学术研究——而设计的智能体,及其性能的研究成果。

MLAgentBench

MLAgentBench 是一个新的基准测试平台,主要用于评估 AI 智能体在科学研究中的表现。具体而言,它检验 AI 系统是否能成为合格的计算机科学研究助理,通过 15 种不同的研究任务来考察它们的能力。这些任务包括在 CIFAR-10 图像数据集上优化基线模型和在 BabyLM 上训练一个涵盖超过 1000 万词汇的语言模型。参与测试的有多种基于 LLM 的 AI 智能体,如 GPT-4, Claude-1, AutoGPT, 和 LangChain。测试结果表明,虽然 AI 智能体展现出了研究潜力,但它们在不同任务上的表现差异较大。例如,一些智能体在如 ogbnarxiv 的任务上成功率超过 80%,而在 BabyLM 的语言模型训练任务上则全数失败(图 2.8.5)。在这些测试中,GPT-4 总是能够提供最优秀的表现。

MLAgentBench 评估:选定模型在各研究任务中的成功率图表 来源:Huang et al., 2023 | 图表:2024 AI Index report
MLAgentBench 评估:选定模型在各研究任务中的成功率图表 来源:Huang et al., 2023 | 图表:2024 AI Index report

15 我们的全面任务涵盖:(1) CIFAR-10 (优化一个图像分类的基础模型), (2) imdb (优化一个情感分析的基础模型), (3) ogbn-arxiv (从头开始优化一个学术论文分类的基础模型), (4) house prices (开发一个回归模型), (5) spaceship titanic (从头开始构建一个分类模型), (6) Parkinson’s disease (构建一个时间序列的回归模型), (7) FathomNet (开发一个识别新奇图像的分类模型), (8) feedback (创建一个新型文本的回归模型), (9) identify contrails (开发一个新型图像分割模型), (10) CLRS (在图与列表上模拟经典算法), (11) BabyLM (培养一个包含超过 1000 万词的语言模型), (12) llama-inference (加快 Llama 7B 的处理速度和自动文本生成速度), (13) vectorization (加快模型推理速度), (14) literature-review-tool (执行文献综述), 和 (15) bibtexgeneration (基于初稿生成 BibTex)。

AI 的发展随时间不断深入,特别是基础模型的应用使得机器人技术得到飞跃性的提升。这些机器人不仅可以从环境中持续学习,还能够灵活适应新场景并自主作出决策。

2.9 Robotics

杰出研究:PaLM-E

PaLM-E 是 Google 的一款新型 AI 模型,该模型将机器人技术与语言建模结合起来,用于处理诸如机器人操控以及知识任务(例如问答和图像描述)等现实世界任务。通过利用基于 Transformer 的架构,最大的 PaLM-E 模型扩展至 562B 参数。该模型在多样化的视觉语言和机器人数据上进行训练,从而在多种机器人基准测试中展现出优异的性能。PaLM-E 还在视觉任务(如 OK-VQA)中树立了新标准,在其他语言任务中表现出色,并且能够进行思维链、数学和多图像推理,即使在这些领域没有具体训练。图 2.9.1 展示了 PaLM-E 模型能够执行的一些任务。

在任务与动作规划(TAMP)领域,当机器人需要操控物体时,PaLM-E 的表现超过了之前的最佳方法,如 SayCan 和 PaLI,在体现视觉问答和规划方面(图 2.9.2)。在机器人操控任务中,PaLM-E 在检测失败的能力上超过了竞争模型(PaLI 和 CLIP-FT),这一能力对于机器人执行闭环规划至关重要(图 2.9.3)。

PaLM-E 的重要性在于,它证明了语言建模技术以及文本数据可以提升 AI 系统在非语言领域,如机器人技术的性能。PaLM-E 还突出显示,目前已经有能够进行实际交互和高级推理的语言熟练机器人。开发这类多功能机器人是创造更通用的机器人助手的关键步骤,这些机器人助手可以用于例如家庭工作的协助。

16 身体化视觉问答 (Embodied VQA) 是一种任务,代理需要在 3D 环境中导航并回答关于他们在环境中视觉感知的对象的问题。

PaLM-E 行动中 来源:Robotics at Google, 2023
PaLM-E 行动中 来源:Robotics at Google, 2023

选定模型在 TAMP 环境下的表现:成功率 来源:Driess et al., 2023 | 表格:2024 AI Index 报告
选定模型在 TAMP 环境下的表现:成功率 来源:Driess et al., 2023 | 表格:2024 AI Index 报告

图 2.9.3: 在移动操纵环境测试中选择模型:故障检测。来源:Driess 等人 (2023) | 来源:2024 AI Index 报告
图 2.9.3: 在移动操纵环境测试中选择模型:故障检测。来源:Driess 等人 (2023) | 来源:2024 AI Index 报告

杰出研究:RT-2

在真实世界中,机器人能够从大语言模型 (LLM) 的特定功能中获益,例如文本与代码生成和视觉理解。DeepMind 最近推出的机器人 RT-2,是尝试打造一个既具备 LLM 特性又能广泛适应不同环境的机器人模型的大胆创新。RT-2 基于 Transformer 架构,训练数据包括转换为文本的机器轨迹数据以及丰富的视觉 - 语言数据。

RT-2 在调节机器人行为方面表现出色,超越了当前最先进的模型如 Manipulation of Open-World Objects (MOO),特别是在处理未知对象的任务上。在这类任务中,RT-2/PaLM-E 的成功率高达 80%,远高于 MOO 的 53% (图 2.9.4)。在面对未知对象的任务中,RT-2 的表现也有显著提升,比去年的高级模型 RT-1 高出 43 个百分点,显示出机器人在新环境中性能的逐年提高。

图 2.9.4: 对 RT-2 模型和基线在已知及未知任务上的成功率评估。来源:Brohan 等人 (2023) | 来源:2024 AI Index 报告
图 2.9.4: 对 RT-2 模型和基线在已知及未知任务上的成功率评估。来源:Brohan 等人 (2023) | 来源:2024 AI Index 报告

强化学习是一种训练 AI 系统的方法,通过与先前行为的互动来优化在特定任务上的表现。系统如果达到了既定目标,则会获得奖励;反之,如果任务失败,则会受到惩罚。

2.10 强化学习

从人反馈中学习的强化学习技术

强化学习技术自 2017 年被引入后,就通过整合人类的反馈到奖励功能中,有效地训练模型以具备如帮助性和无害性等特点,因此在提升如 GPT-4 和 Llama 2 这样的顶尖语言模型中发挥了重要角色。

本年度,AI Index 对使用 RLHF 作为训练手段的基础模型数量进行了追踪。具体来说,Index 团队审查了 CRFM 生态图中包含的所有模型的技术文档等资料,这是一个覆盖范围非常广的基础模型生态资料库。如图 2.10.1 所示,报道使用 RLHF 的基础模型数量逐年增加:2021 年无模型采用 RLHF,2022 年增至七个,而 2023 年则达到了十六个。RLHF 的增长趋势也得到了众多领先的大语言模型的实际使用情况的支持,这些模型通过 RLHF 显著优化了自身性能(见图 2.10.2)。

Number of foundation models using RLHF, 2021–23 Source: AI Index, 2024 | Chart: 2024 AI Index report
Number of foundation models using RLHF, 2021–23 Source: AI Index, 2024 | Chart: 2024 AI Index report

RLHF usage among foundation models Source: AI Index, 2024 | Table: 2024 AI Index report
RLHF usage among foundation models Source: AI Index, 2024 | Table: 2024 AI Index report

17 可能有更多模型实际上在训练中采用了 RLHF,但并未全部公开报告。Index 只统计了那些有公开报告的情况。

杰出研究:AI 反馈学习 (RLAIF)

RLHF 被认为是对齐 AI 模型的有效手段,但需要大量时间和劳动力来创建人类偏好数据集,这一点经常成为其发展的障碍。人工智能反馈学习 (RLAIF) 则提出了一个新思路:利用基于大语言模型 (LLM) 的偏好进行强化学习,以此来调整其他 AI 模型,使之更贴近人类的期望。

谷歌研究院最新的研究对比了 RLAIF 和传统标杆 RLHF,探讨 RLAIF 是否能成为一个可靠的备选方案。结果显示,无论是 RLAIF 还是 RLHF,它们在执行摘要和提升帮助性任务时,都优于监督式微调 (SFT);而且在喜好程度上,二者之间没有明显的统计差异 (图 2.10.3)。特别是在致力于生成最安全对话的任务中,RLAIF 的表现 (88%) 明显优于 RLHF (76%) (图 2.10.4)。这表明,RLAIF 在资源和成本效率上,可能是一个更优的选择。

图 2.10.3: RLAIF 和 RLHF 对比 SFT 的胜率 来源:Lee 等人,2023 | 图表:2024 AI 指数报告
图 2.10.3: RLAIF 和 RLHF 对比 SFT 的胜率 来源:Lee 等人,2023 | 图表:2024 AI 指数报告

图 2.10.4: 各政策的无害输出比率 来源:Lee 等人,2023 | 图表:2024 AI 指数报告
图 2.10.4: 各政策的无害输出比率 来源:Lee 等人,2023 | 图表:2024 AI 指数报告

杰出研究:直接偏好优化

如前所述,通过强化学习从人类反馈中优化 (RLHF) 是一种调整大语言模型 (LLM) 以适应人类偏好的有效方法。但是,RLHF 的操作需要大量计算资源,因为它不仅需要训练多个模型,还要在训练的过程中不断调整策略。这种复杂性使得其难以被广泛应用。

针对这一问题,斯坦福和 CZ Biohub 的研究者们提出了一个新的简化版强化学习算法——直接偏好优化 (DPO)。这种算法不仅简化了过程,还能与其他成熟的模型调整技术如近端策略优化 (PPO) 和监督细调 (SFT) 相媲美,尤其在执行任务如摘要撰写 (图 2.10.5) 等方面表现优秀。DPO 的出现,预示着模型调整技术正在变得更加直接和用户友好。

各种算法在进行极简摘要任务上的效果对比,考虑了不同的温度设置 来源:Rafailov 等,2023 年 | 表:2024 AI Index 报告
各种算法在进行极简摘要任务上的效果对比,考虑了不同的温度设置 来源:Rafailov 等,2023 年 | 表:2024 AI Index 报告

本节重点介绍大语言模型 (LLM) 的一些关键特性,例如它们在特定情况下可能突然改变行为或在逻辑推理中自我修正的能力。通过深入了解这些研究,我们可以更好地理解这些位于人工智能研究前沿的模型是如何工作和表现的。

2.11 大语言模型的特性

杰出研究:重新审视“涌现行为”

众多研究曾声称大语言模型(LLM)具有“涌现能力”,即它们可能在扩大规模时突然展现出新的能力【18】。这种现象让人担忧,更大的模型可能带来不可预测甚至难以控制的新功能。

然而,斯坦福大学的最新研究提出了反对意见,他们认为,所观察到的“新能力涌现”更多是评测方法的影响,而非模型本身特有的属性。研究表明,当评价模型的标准采用非连贯或跳跃性质的方法时(如多选题评分),模型似乎具有更明显的涌现能力。相反,如果采用连续性或线性的评测方式,这种能力就大为减少。通过对 BIGbench 基准测试的深入分析,该研究发现,在 39 项测试中仅有 5 项出现涌现能力(图 2.11.1)。这一发现对 AI 安全和协调性研究提出了新的视角,挑战了 AI 模型必然会随着规模增加而学习到新奇行为的常规看法。

18 包括 Brown 等(2023 年),Ganguli 等(2022 年),Srivastava 等(2022 年)和 Wei 等(2022 年)的研究。

杰出研究:重新审视“涌现行为”(续)

图 2.11.1: 在全部 Big-bench 任务中的涌现得分情况,来源:Schaeffer 等人,2023 年

杰出研究:大语言模型 (LLM) 性能如何随时间改变

Emergence score over all Big-bench tasks Source: Schaeffer et al., 2023
Emergence score over all Big-bench tasks Source: Schaeffer et al., 2023

像 GPT-4, Claude 2 和 Gemini 这样的公开可用闭源大语言模型,经常因为开发者根据新的数据反馈进行更新。对于这些更新后模型性能的变化,目前研究还不多。

斯坦福与伯克利的研究团队对公开可用的大语言模型性能随时间的变化进行了探究,发现性能实际上可以有很大的波动。研究具体比较了 2023 年 3 月和 6 月的 GPT-3.5 与 GPT-4 版本,结果显示在多个任务上性能都有下降。例如,6 月的 GPT-4 在编写代码方面比 3 月的版本下降了 42 个百分点,在回答敏感问题方面下降了 16 个百分点,在一些数学任务上则下降了 33 个百分点 (见图 2.11.2)。研究还指出,GPT-4 执行指令的能力随时间逐渐减弱,这可能是性能整体下降的一个原因。此项研究强调了大语言模型的性能是会随时间变化的,并提醒用户应对此保持关注。

2023 年 3 月与 6 月 GPT-4 在八大任务中的表现 来源:Chen 等人,2023 | 图表:2024 年 AI 指数报告
2023 年 3 月与 6 月 GPT-4 在八大任务中的表现 来源:Chen 等人,2023 | 图表:2024 年 AI 指数报告

杰出研究:大语言模型不擅长自我修正

大家普遍了解到,如 GPT-4 这类大语言模型 (LLMs) 在推理上有其局限,偶尔还会出现判断失误。针对这些问题,有人提出了“自我修正”作为解决方法,即让大语言模型自行发现并改正其推理错误。随着 AI 在社会中的作用越来越大,不需外部帮助、自己能够独立进行推理修正的能力变得格外重要。但现实中,大语言模型是否真能做到这一点,我们还知之甚少。

来自 DeepMind 和伊利诺伊大学厄巴纳 - 香槟分校的研究人员对 GPT-4 进行了三项推理测试:GSM8K (小学级数学), CommonSenseQA (常识推理), 和 HotpotQA (跨文档推理)。研究发现,在无外部指导的自我修正测试中,GPT-4 在所有指标上都表现不佳 (图 2.11.3)。

图 2.11.3: GPT-4 在独立自我修正下的推理测试表现 来源:Huang 等,2023 | 图表:2024 AI 指数报告
图 2.11.3: GPT-4 在独立自我修正下的推理测试表现 来源:Huang 等,2023 | 图表:2024 AI 指数报告

封闭与开放模型性能对比

随着大语言模型(LLM)的日益普及,关于它们的可获取性的不同程度的争论也在加剧。一些模型如谷歌的 Gemini 仍然是封闭的,只能由其开发者使用。相对地,像 OpenAI 的 GPT-4 和 Anthropic 的 Claude 2 这样的模型提供了有限的访问权限,可以通过一个 API 公开访问。然而,模型权重并未完全公开,这意味着公众不能独立地修改模型或进一步审查。相反,Meta 的 Llama 2 和 Stability AI 的 Stable Diffusion 采取了一种开放的方式,完全公开了他们的模型权重。开源模型可以被任何人修改和自由使用。

对于封闭与开放 AI 模型的优点,观点各异。一些人支持开放模型,他们认为开放模型有助于抗衡市场集中、促进人工智能 第 2 章:技术性能指数报告 2024 [20] 通过封闭模型,AI 指数同时指的是完全封闭和有限访问的模型。[20] 这一部分的数据是在 2024 年 1 月初收集的。2.11 大语言模型的属性 创新,并增强 AI 生态系统内的透明度。其他人则认为开源模型存在相当大的安全风险,例如有助于制造虚假信息或生物武器,因此应该谨慎对待。

在这场辩论的背景下,重要的是要认识到当前的证据显示,开放和封闭模型之间有明显的性能差异。[19] 图 2.11.4 和图 2.11.5 对比了顶级封闭与开放模型在一系列基准测试上的表现。[20] 在所有选定的基准测试上,封闭模型的表现都优于开放模型。具体来说,在 10 个选定的基准测试中,封闭模型的中位数性能优势为 24.2%,差异范围从数学任务如 GSM8K 的 4.0% 到代理任务如 AgentBench 的 317.7%。

图 2.11.4: 顶级封闭 vs 开放模型在选定基准上的得分差异 来源:AI 指数,2024 | 表:2024 AI 指数报告
图 2.11.4: 顶级封闭 vs 开放模型在选定基准上的得分差异 来源:AI 指数,2024 | 表:2024 AI 指数报告

19 AI 指数提到的封闭模型,包括那些完全不对外开放的和限制访问的模型。 20 本节数据收集自 2024 年初。

顶尖封闭型与开放型模型在选定基准上的性能比较 来源:AI 指数,2024 | 图表:2024 AI 指数报告
顶尖封闭型与开放型模型在选定基准上的性能比较 来源:AI 指数,2024 | 图表:2024 AI 指数报告

2.12 大语言模型 改进技巧

提示技巧

提示技巧是 AI 开发流程的核心部分,它通过向模型提供描述应完成任务的自然语言指令来工作。

精通创建有效的提示可以大幅提升大语言模型的表现,而不需要对模型本身做出改变。

杰出研究:思维图提示技巧

杰出研究:连续思维(CoT)和思维树(ToT)是已知可以提升大语言模型在推理任务上表现的提示技巧。2023 年,欧洲的研究者提出了新的提示方式——思维图(GoT)。这种方法已证明有潜力,它允许模型以一种类似人类思维的灵活图形结构来组织思路(图 2.12.1)。此外,研究者还开发了一种新的模型架构来使用 GoT,结果显示,GoT 在一个排序任务上比 ToT 提高了输出质量 62%,同时降低了成本约 31%(图 2.12.2)。

图 2.12.1: 思维图 (GoT) 的推理流程图 来源:Besta 等,2023
图 2.12.1: 思维图 (GoT) 的推理流程图 来源:Besta 等,2023

图 2.12.2: 使用 ChatGPT-3.5 完成排序任务的错误数量 来源:Besta 等,2023 | 图表:2024 AI 指数报告
图 2.12.2: 使用 ChatGPT-3.5 完成排序任务的错误数量 来源:Besta 等,2023 | 图表:2024 AI 指数报告

杰出研究:通过提示进行优化 (OPRO)

DeepMind 最近发表的一篇论文中介绍了一种新技术,名为通过提示进行优化 (OPRO)。这种方法利用大语言模型 (LLM) 通过反复生成提示来提升算法的表现。在这一过程中,OPRO 通过自然语言来引导大语言模型,根据问题的描述和之前的解决方案来创造新的提示 (图 2.12.3)。这些新生成的提示目的是在特定的评测标准上增强 AI 系统的性能。相较于其它提示方法,如逐步思考或从零开始,OPRO 在所有 23 个 BIG-bench Hard 任务中几乎都能显著提高准确度 (图 2.12.4)。

Sample OPRO prompts and optimization progress Source: Yang et al., 2023
Sample OPRO prompts and optimization progress Source: Yang et al., 2023

Accuracy diDŽerence on 23 BIG-bench Hard (BBH) tasks using PaLM 2-L scorer Source: Yang et al., 2023 | Chart: 2024 AI Index report
Accuracy diDŽerence on 23 BIG-bench Hard (BBH) tasks using PaLM 2-L scorer Source: Yang et al., 2023 | Chart: 2024 AI Index report

微调

微调已经逐渐成为一种流行的提升大语言模型性能的方法,它包括在更小的数据集上对模型进行额外的训练或调整。通过微调,不仅可以提升模型的整体表现,还可以在特定任务上增强其性能,并且使我们能够更精确地控制模型的行为。

杰出研究:QLoRA

2023 年,华盛顿大学的研究人员开发出了一种名为 QLoRA 的新技术,这是一个用于模型微调 (fine-tuning) 的高效方法。这项技术显著降低了内存的需求,使得在仅有的 48 GB GPU 上就能完成 650 亿参数模型的微调,且完全保持 16-bit 的处理效率。相比之下,通常一个 65B 参数的 Llama 大语言模型 (LLM) 微调就需要约 780 GB 的内存,QLoRA 的效率提高了近 16 倍。通过引入如 4-bit NormalFloat (NF4)、双重量化及页面优化技术,QLoRA 极大提升了性能。使用 QLoRA 训练的 Guanaco 模型在 Vicuna 比较测试中展示了出色性能,甚至超过了 ChatGPT 等模型(图 2.12.5)。引人注目的是,这些 Guanaco 模型只需使用单个 GPU 微调 24 小时即可完成,展示了模型优化技术的进步,这意味着将来制造更高效的模型将消耗更少资源。

模型竞赛基于 10,000 次模拟使用 GPT-4 和 Vicuna 基准测试 来源:Dettmers 等,2023 | 图表:2024 AI 指数报告
模型竞赛基于 10,000 次模拟使用 GPT-4 和 Vicuna 基准测试 来源:Dettmers 等,2023 | 图表:2024 AI 指数报告

注意事项

大语言模型 (LLMs) 虽能处理多样的任务,但其训练需占用巨额计算资源。正如前文所提,这种高昂的训练成本是 AI 广泛应用的一大障碍。因此,通过改善内存使用等方法提升 AI 的效率显得尤为重要,这不仅让大语言模型更加便捷,也使其更实用。

杰出研究:闪电解码

由斯坦福大学研究者们开发的“闪电解码”技术,旨在通过加速注意力机制来提高传统大语言模型 (LLM) 在处理长序列任务时的效率。其方法是并行地加载关键字和值,然后独立地进行调整和组合,以确保产生正确的注意力输出 (图 2.12.6)。经过多项测试证明,闪电解码在效率上不仅超过了 PyTorch Eager 和 FlashAttention-2 等主流技术,而且推理速度也大大提高。例如,在处理 256 批量大小和 256 序列长度的任务时,其速度是 PyTorch Eager 的 48 倍,是 FlashAttention-2 的 6 倍 (图 2.12.7)。使用像 ChatGPT 这样的模型进行推理,每次响应的成本约为 0.01 美元,这在大规模部署时成本非常高。因此,闪电解码等创新技术对于降低 AI 的推理成本极为重要。

Flash-Decoding operation process Source: Dao et al., 2023
Flash-Decoding operation process Source: Dao et al., 2023

Performance comparison of multihead attention algorithms across batch sizes and sequence lengths Source: Dao et al., 2023 | Chart: 2024 AI Index report
Performance comparison of multihead attention algorithms across batch sizes and sequence lengths Source: Dao et al., 2023 | Chart: 2024 AI Index report

这一节分析了 AI 系统的环境影响趋势,特别强调了在透明度和环境意识方面的进步。过去,模型开发者很少公开其 AI 系统的碳排放数据,这使得研究者们往往只能估算。但最近情况有所改变,尤其是在公开训练 AI 模型的碳成本方面。然而,与推理相关的环境成本披露仍显不足。本节除了提供开发者报告的碳排放数据外,还突出展示了 AI 与环境影响研究的最新进展。随着 AI 模型的不断壮大及其使用的普及,AI 研究社区更需勤奋地监控和缓解 AI 系统的环境影响。

2.13 AI 系统的环境影响

概览环境影响

培训

图 2.13.1 展示了选定大语言模型 (LLM) 在培训过程中释放的碳量 (以吨为单位) 与人类参考数据的比较。带有星号的模型的排放数据是由独立研究者估计的,因为开发者没有公开这些数据。排放数据差异很大。例如,Meta 的 Llama 2 70B 模型释放了大约 291.2 吨碳,这几乎是一位旅行者往返纽约至旧金山航班排放碳量的 291 倍,大约是美国普通人一年排放总量的 16 倍。21 然而,Llama 2 的排放量仍然少于据报道在 OpenAI 的 GPT-3 培训期间释放的 502 吨。

二氧化碳当量排放 (吨) 由选定的机器学习模型和现实生活示例,2020–23 来源:AI Index, 2024; Luccioni 等人,2022; Strubell 等人,2019 | 图表:2024 AI Index 报告
二氧化碳当量排放 (吨) 由选定的机器学习模型和现实生活示例,2020–23 来源:AI Index, 2024; Luccioni 等人,2022; Strubell 等人,2019 | 图表:2024 AI Index 报告

排放估计的差异是由于多种因素,如模型大小、数据中心的能源效率和能源网的碳强度。图 2.13.2 显示了根据其大小选择的模型的排放。通常,较大的模型会排放更多的碳,这一趋势在 Llama 2 模型系列中表现得很明显,这些模型都是在同一超级计算机上培训的 (Meta 的研究超级集群)。然而,如果在能源来源效率较低的能源网上培训,较小的模型仍然可以有高排放。一些估计表明,模型的排放量随着时间的推移有所下降,这可能与培训机制的日益高效有关。图 2.13.3 展示了选择模型的排放量及其功率消耗。

二氧化碳当量排放 (吨) 和参数数量由选定的机器学习模型来源:AI Index, 2024; Luccioni 等人,2022 | 图表:2024 AI Index 报告
二氧化碳当量排放 (吨) 和参数数量由选定的机器学习模型来源:AI Index, 2024; Luccioni 等人,2022 | 图表:2024 AI Index 报告

环境影响的选定模型 来源:AI Index, 2024; Luccioni 等,2022 | 表 1: 2024 AI Index 报告
环境影响的选定模型 来源:AI Index, 2024; Luccioni 等,2022 | 表 1: 2024 AI Index 报告

AI 模型对环境的影响评估面临一个主要问题:关于排放的信息不够透明。很多知名的模型开发商,如 OpenAI、Google、Anthropic 和 Mistral,通常不会公开其碳排放数据,这使得对这些数据进行全面准确的评估变得更加困难。而 Meta 则是一个例外。

推理

之前我们已提到,AI 模型的训练对环境的影响可能非常显著。尽管单次查询的碳排放可能不高,但当每天的查询次数达到数千甚至数百万次时,其总体影响可能会超过训练本身。对于模型推理的排放,研究还很少。2023 年,Luccioni 等人的研究首次全面地评估了这一问题。图 2.13.4 揭示了进行 1,000 次推理时不同任务的碳排放情况,比如图像生成任务的碳排放远高于文本分类。

模型推理期间各种任务的碳排放 来源:Luccioni 等,2023 | 图 2: 2024 AI Index 报告
模型推理期间各种任务的碳排放 来源:Luccioni 等,2023 | 图 2: 2024 AI Index 报告

22 研究显示,如 Hugging Face 这样的开放模型开发平台上,碳排放报告的频率正在逐渐减少。

积极案例

虽然训练 AI 系统的环境成本已经被广泛认识到,但 AI 仍能在提高环境可持续性方面发挥正面作用。图 2.13.5 展示了 AI 在支持环境保护方面的一些新进展,如优化热能系统管理、改善害虫控制策略及提升城市空气质量。

AI 在环境保护中的积极应用 来源:Fang 等,2024 | 表 3: 2024 AI Index 报告
AI 在环境保护中的积极应用 来源:Fang 等,2024 | 表 3: 2024 AI Index 报告

附录

意译

AI Index 想要感谢以下人员的贡献:Andrew Shi 对 AI 模型的环境影响进行了深入的文献综述;Emily Capstick 研究了强化学习机器学习模型中 RLHF 的应用;Sukrut Oak 制作了 Midjourney 样本生成的示例;Emma Williamson 识别了时间线上的重要 AI 技术进展。

基准测试

  1. AgentBench: 2024 年 1 月,我们从 AgentBench 的研究论文中获取了相关数据。若想深入了解 AgentBench,不妨查阅其原始论文。
  2. BigToM: BigToM 的最新数据,摘自 2024 年 1 月发表的论文。有兴趣的读者可以参考这篇原始论文,以获取更多信息。
  3. Chatbot Arena Leaderboard: 该领域的数据更新来源于 2024 年 1 月的 Chatbot Arena Leaderboard。想知道更多?推荐阅读相关的原始论文。
  4. EditVal: EditVal 的数据直接来源于 2024 年 1 月的官方论文。详细内容,请参阅原文。
  5. GPQA: 我们从 2024 年 1 月的 GPQA 论文中提取了最新数据。更多 GPQA 的细节,原始论文将提供详尽解释。
  6. GSM8K: 2024 年 1 月,GSM8K 的更新数据发布在 Papers With Code 的排行榜上。想了解详细背景?原始论文值得一读。
  7. HEIM: 最新的 HEIM 数据,记录在 2024 年 1 月的排行榜上。更多精彩内容,见原始论文。
  8. HELM: HELM 的相关数据于 2024 年 1 月更新在其排行榜上。深入了解 HELM 的研究,请参阅原始论文。
  9. HumanEval: HumanEval 的数据在 2024 年 1 月通过 Papers With Code 的排行榜对外发布。原始论文中有更丰富的信息等你探索。
  10. MATH: 从 MATH 的 Papers With Code 排行榜中,我们获取了 2024 年 1 月的数据更新。详细了解请查阅原始论文。
  11. MLAgentBench: MLAgentBench 的数据来自于 2024 年 1 月的研究论文。对这一项目感兴趣的读者可以阅读其原始论文以获得更多信息。
  12. MMLU: MMLU 在 Papers With Code 的最新排行榜上更新了其数据,时间是 2024 年 1 月。详细信息,原始论文将为你揭晓。
  13. MMMU: 2024 年 1 月,我们从 MMMU 排行榜获取了相关数据。如需深入了解 MMMU,请参阅其原始论文。
  14. MoCa: 2024 年 1 月,MoCa 的相关数据摘自其发布的学术论文。如需更多详情,敬请查阅原文。
  15. PlanBench: 2024 年 1 月,我们参考了 PlanBench 发表的论文中的数据。想要获取更多信息,请阅读其原始论文。
  16. SWE-bench: 2024 年 1 月,SWE-bench 的数据来自其排行榜。详细了解 SWE-bench,建议阅读其原始论文。