多模态大模型（LMMs）的曙光：初探 GPT-4V(ision)[译]

Zhengyuan Yang∗ , Linjie Li∗ , Kevin Lin∗ , Jianfeng Wang∗ , Chung-Ching Lin∗ , Zicheng Liu, Lijuan Wang∗♠

Microsoft Corporation

∗ Core Contributor ♠Project Lead

摘要

多模态大模型（LMMs）不仅拥有大语言模型（LLMs）的特点，还拓宽了其多感官技能，例如视觉理解，从而实现了更强的通用智能。本文深入探索并分析了最新的 GPT-4V(ision) 模型，旨在加深我们对 LMMs 的认识。我们的分析重点是 GPT-4V 能够完成的各种有趣任务，通过一系列精心设计的测试样本，来检验 GPT-4V 能力的质量和通用性，以及它所支持的输入和工作方式，还有有效启动模型的方法。在探索 GPT-4V 的过程中，我们整理了一系列涉及多个领域和任务的定性样本。这些样本的观察结果表明，GPT-4V 能够处理任意混合的多模态输入，并且其功能的通用性使其成为一个强大的多模态通用系统。此外，GPT-4V 独特的识别输入图像上绘制的视觉标记的能力，为发展新的人机交互方式，比如视觉参考提示，提供了可能。报告最后深入讨论了基于 GPT-4V 系统的新兴应用场景和未来研究方向。我们希望这一初步的探索能够启发未来关于多模态任务制定的下一代研究，发掘和强化 LMMs 以解决现实世界问题的新方法，以及对多模态基础模型有更深的理解。

注：报告专注探索具备视觉功能的 GPT-4V(ision)，并依据 OpenAI 的相关报告 OpenAI (2023b, a) 将其命名为“GPT-4V”。同时，我们将模型的纯文本版本称为“GPT-4 (no vision)”OpenAI (2023a)。

第一章引言

1.1 动机和概述

近年来，大语言模型（LLMs）取得的重大突破，例如由 Brown 等人 (2020)，OpenAI (2023a) 及 Chowdhery 等人 (2022) 的研究，展现出在各种领域和任务中的卓越多功能性和能力。未来，多模态大模型（LMMs）计划整合多感官技能，以扩充 LLMs 的能力，并实现更强的通用智能。考虑到视觉是人类感官中的主要部分，许多 LMMs 的研究首先关注拓展视觉能力。一些初步研究或是微调视觉编码器以适应预先训练好的 LLM，或是采用视觉 - 语言模型将视觉输入转化为 LLMs 能理解的文本。然而，大多数现有模型的规模和数据有限，这可能限制了其展现多种引人入胜能力。目前，基于如 GPT-4（无视觉功能）和 PaLM 这样的顶尖 LLMs 开发的 LMMs 的现状和新兴多模态能力仍然是个未知数。在这篇论文中，我们初步探讨了（早期版本的）GPT-4V，这是一个集成了视觉功能的顶尖 LMM，它基于最先进的 LLM 构建，并用大量的多模态数据进行训练。

我们对 GPT-4V 的研究主要围绕以下几个核心问题。

我们想了解 GPT-4V 支持哪些输入及其工作方式是什么？由于多模态模型天生具有广泛的适用性，因此系统必须能够处理各种不同输入模式的随意组合。事实证明，GPT-4V 在理解和处理图片、子图、文本、场景文字和视觉指示等多种输入的组合时表现出非凡的能力。此外，GPT-4V 完美支持 LLMs 的测试技术，例如 Ouyang 等（2022）的指令跟随技术，Wei 等（2022c）和 Kojima 等（2022）提出的思维链条，以及 Brown 等（2020）的情境少数样本学习等。
我们试图评估 GPT-4V 在不同领域和任务上的表现如何？通过样本查询，我们探索了 GPT-4V 在开放式视觉理解、视觉描述、多模态知识、常识推理、场景文本理解、文档推理、编程、时间推理、抽象推理和情感理解等多个领域的能力。结果表明，GPT-4V 在许多测试领域都展现出与人类相当的能力。
如何有效地使用和提示 GPT-4V？GPT-4V 在理解像素空间编辑方面表现出色，比如理解在图像上添加的视觉指示和场景文字。基于此，我们探讨了“视觉引用提示”方式，这是一种直接编辑输入图像以指导任务的方法。这种视觉引用提示可以轻松与其他图像和文本提示集成，为用户提供了一个细致的指示和示例演示界面。
面对 GPT-4V 展示的跨领域强大实力，未来的多模态学习和人工智能发展路在何方？我们着眼于两个方面：需要重点关注的新兴应用场景和基于 GPT-4V 系统的未来研究方向，通过初步探索为未来的研究提供启示。

考虑到以上问题，我们详细地梳理和呈现了我们的定性研究成果。该报告最小化定量基准测试结果的使用，转而集中展示一些精选的、引人入胜的定性实例。虽然这种方法缺乏严格性，但它提供了一份涉及广泛领域、任务、工作模式和提示技巧的全面分析报告。我们坚信，这一系列有组织的探索将为新兴应用、下一代多模态任务的构想和基于 LMM 的先进智能系统的开发提供启发。

1.2 GPT-4V 探索路径

本报告目的在于通过针对一系列精选数据集的基准测试，对系统进行评估，每个数据集都是为特定领域和任务量身定制的。然而，某些现有基准可能已不适用于评估 LMMs。例如，与 Chen et al. (2015) 的图像字幕基准数据集相比，LMMs 输出的图像字幕更为丰富，描述也更为详尽。而关于 GPT-4V 的大规模预训练，公开信息匮乏，这可能使得一些现有数据集的训练 - 测试设置被打破，导致相关基准数字无效。因此，仅依赖现有基准和评估标准可能会无意中限缩 GPT-4V 的评估范围。一个理想的方案是制定一套完善的下一代评估任务和基准，但由于这需要大量工作，目前我们只能将其作为未来的研究方向。

本论文并未进行定量基准测试，而是通过定性结果简要展示 GPT-4V 的新增功能和可能出现的新用途。我们的目的是预览 GPT-4V 已有的潜能，虽然这些新增功能可能还不完全稳定可靠。我们期望这些探索性的集合能够激励更多的研究，为下一代多模式任务设置定量基准，更新现有基准，进一步优化模型表现和系统稳定性，并在新兴用例中催生创新。接下来，我们将深入探讨关于 GPT-4V 探索的核心设计方案。

关于样本选择的指导建议：本报告聚焦于通过定性结果展现 GPT-4V 的潜能，而非提供详尽的定量基准测试数据。这自然让人对所展示示例的可靠性产生疑问。报告中呈现的示例可能需要经过精细的指令调整，以突出 GPT-4V 的特定功能。值得一提的是，某些复杂场景可能仅在使用特定设计的提示时才能工作。因此，展示出的功能可能无法在所有样本中稳定运行。报告的主要目标并非只展示可靠的功能，而是向读者展示 GPT-4V 的潜在能力清单，这些能力在几次失败的尝试后可能会被忽略。

为避免模型仅依赖于训练期间的记忆样本，Bubeck 等人（2023）在其定性报告中强调了样本选择的重要性。我们需区分模型真正的能力与仅仅依靠记忆训练样本或根据提示进行有教育性猜测的能力。为确保训练过程中未曾出现过的输入提示，我们精心控制了其中的文本和图像内容。我们制定了全新的文本查询，并尽量选用无法在线查找或时间戳在 2023 年 4 月之后的图片。特定不符合这一准则的样本，如故意选用的特定视觉 - 语言数据集样本，将会被标注出来。我们不仅确保模型未“见过”这些样本，还加入了理由查询以深入探测模型的推理过程，进一步验证 GPT-4V 是否具备预期的能力。

在默认工作模式方面，如第 3 节将详述，GPT-4V 能够有效地在多种工作模式下运行，包括零射击学习和上下文少射击学习等。本报告主要集中在零射击指导调整上，以防止信息从上下文示例中泄漏。尽管上下文少射击学习可以增强性能和可靠性，但并不能始终带来新的能力。因此，我们以零射击为默认展示模式，并减少上下文示例的使用，以降低它们对评估能力的影响。

1.3 如何阅读本报告？

本报告详细描述了计算机视觉和视觉语言多模态领域研究者对 GPT-4V 的研究和探索。主要目的是为相关领域的研究人员提供一个定性的了解，让他们可以感知 LMM 的功能，以及与传统视觉 - 语言模型之间的差异。此外，本报告也对非 AI 或计算机科学专业的从业人员有帮助，指导他们理解 LMM 如何助力他们在各自领域内提升专业效能。

报告概要围绕四个核心问题展开。

GPT-4V 能接受哪些输入并以何种模式运作？第 2 节总结了 GPT-4V 所能接受的输入，并概述了相关的应用场景。第 3 节基于可交替的图像和文本输入，深入探讨了 GPT-4V 的多种工作模式，比如指令调优、上下文学习和其他新兴用法。此部分将介绍使用 GPT-4V 的创新方式，为后续章节的使用提供全面的指导。
GPT-4V 在不同领域和任务上展现出了怎样的质量和通用性？报告的大部分都是探索这个问题。第 4 节进行了全面的分析，覆盖了多个视觉和视觉 - 语言场景，包括在不同领域的图像描述与识别、密集视觉理解、多模态知识、常识、场景文本理解和文档推理等。报告还特别提及了一些新颖和有趣的功能。第 6 节研究了 GPT-4V 在理解时间、运动和视频方面的能力。第 7 节深入了抽象视觉理解和推理能力，而第 8 节探讨了情绪和情感理解方面的能力。
怎样更高效地使用和指引 GPT-4V 呢？我们从第三部分的工作方式和提示方法做起，开始讨论这一主题。第五部分特别提到了一种创新的提示技术，名为“视觉参照提示”，通过在输入图片上标出视觉指示和场景文字来指引 GPT-4V 的注意力。报告内的示例透彻展示了如指令和示例演示等多种灵活的提示方式。
未来有哪些值得期待的发展方向呢？第九部分聚焦 GPT-4V 所开创的新奇应用场景。我们希望这些初步示例能为未来的研究提供灵感，推动人们设计新的任务架构并设立严格的评测标准。第十部分则描绘了一幅未来的宏伟蓝图，展示了基于 GPT-4V 可以构建出如多模态插件、多模态链、自我反思、自洽性和检索增强型 LMMs 等强大系统。

除了概览和目录，我们还附上了一份图表列表，其中详列了报告中的定性示例，为读者寻找感兴趣的研究案例提供便利。

第二章 GPT-4V 输入方式概述

该部分总结了 GPT-4V 所支持的输入方式：作为单模式语言模型处理纯文本输入、接收单个图像 - 文本配对（也可以仅为单个图像），以及接收交替的图像 - 文本配对（可选多个图像输入）。我们还列举了在这些不同输入方式下的一些典型应用场景。

2.1 纯文本输入

凭借其强大的语言处理能力，GPT-4V 能够作为高效的单模式语言模型进行操作（Devlin 等人，2019 年；Raffel 等人，2020 年；Brown 等人，2020 年），仅需纯文本输入。在纯文本的输入和输出模式下，GPT-4V 可以胜任多种语言和编程任务。更多关于 GPT-4V 在语言和编程能力方面的全面和深入分析，以及与无视觉功能的 GPT-4 的比较，请参阅 OpenAI 2023a 年的 GPT-4 技术报告。

2.2 单个图像 - 文本对

作为最新的多模态大模型，GPT-4V 能够接收图像和文本输入，进而生成文本输出。该模型与 Anderson et al. (2018)、Lu et al. (2019) 等人的通用视觉 - 语言模型保持一致。GPT-4V 可以处理单个图像 - 文本对或仅一个图像输入，执行诸如图像识别 Deng et al. (2009)，物体定位 Zhou et al. (2016)，图像描述 Chen et al. (2015)，视觉问题回答 Antol et al. (2015)，视觉对话 Das et al. (2017) 以及密集式标注 Johnson et al. (2016) 等不同的视觉及视觉 - 语言任务。在图像 - 文本对中，文本可以是用于描述的指令，如“描述图像”，也可以是视觉问题回答中的查询输入。相较于先前的技术，GPT-4V 表现出显著增强的性能和泛化能力，是一款真正卓越的智能模型。对其在多个领域中的多模态能力进行的全面分析可见于第 4 节。

GPT-4V 有能力处理多重图像和图文交织的输入，详情请参阅第 2.3 节。

图 1：GPT-4V 可以处理由多重图像和图文交织组成的输入，详细讨论见第 2.3 节。

2.3 图文交织输入

GPT-4V 的通用性得到了增强，其可以灵活地处理图文交织输入。这些输入既可以是以视觉为主，比如多张图片配以简短的问题或指令；也可以是文本为主，如一个长网页中插入了两张图片；亦或是图片和文本平衡混合的形式。这种混合输入方式为广泛的应用提供了灵活性。比如，如图 1 所示，它可以计算多张收据图片中支付的总税额。此外，它也能处理多张输入图片并提取所查询的信息。GPT-4V 还能够有效地将图文交织输入中的信息关联起来，例如找到菜单上的啤酒价格，统计啤酒数量，并返回总成本，就像图 1 所展示的那样。在直接应用之外，处理图文交织输入也是在上下文中进行少样本学习（in-context few-shot learning）和其他先进的测试时提示技巧的基础，进一步提升了 GPT-4V 的通用性。在第 3 节，我们将展示这一技术的一些新颖用途。

第三章 GPT-4V 操作模式与提示技巧一览

GPT-4V 具备理解并执行文本指令的能力，旨在产生期望的文本输出或学习进行新任务。

图 2：GPT-4V 能够依据文本指令，输出所需文本或学习新任务。红色部分标出了信息较少的答案。详细讨论见第 3.1 节。

设定提示，使其以 JSON 格式呈现。图像作为样本的例子 ID。

图 3：经过设定的提示将以 JSON 格式显示。图像作为样本的例子 ID。红色标出了不正确的答案。详细讨论见第 3.1 节。

在有良好表现的前提下，优化计数功能。

图 4：在良好表现的条件下，进行计数功能的优化。绿色（红色）标记正确（错误）的答案。蓝色表示除了“计算图片中苹果数量”的基础要求外，还有其他不同的提示方式。详细讨论见第 3.1 节。

3.1 遵循文本指令

GPT-4V 的一大特长在于其通用性，这部分得益于其出色的理解并执行文本指令的能力 Ouyang 等（2022）; Mishra 等（2022）; Wei 等（2022a）; Sanh 等（2021）。通过指令，用户可以自然而然地定义并定制视觉 - 语言任务的预期输出文本。图 2 呈现了一个图像描述的实例，其中设定了句子长度和用词的限制。另一方面，GPT-4V 通过理解详细指令，能够执行一些更为复杂的任务，比如通过提供中间步骤的指令，帮助 GPT-4V 更好地解读抽象推理题。通过指令学习新任务的能力，展现了其在适应不同未知应用和任务方面的巨大潜力，详见第 9 节。正如近期的研究 Alayrac 等（2022）; Awadalla 等（2023）; Gong 等（2023）; Zhu 等（2023）; Liu 等（2023b）; Dai 等（2023）所述，本小节讨论的指令主要以文本形式出现，为感兴趣的任务提供语言描述。我们将在第 3.3 节进一步讨论 GPT-4V 遵循多模式示例指导指令的独特功能。

我们在此揭示文本指令对 GPT-4V 响应的重要指导作用，采用了两个源自 LLM 文献 45; 149 的策略：（i）“有限提示”，令 GPT-4V 以特定格式回应；（ii）“明确要求佳绩”，直接要求 GPT-4V 表现优秀。

有限提示

如图 3 所示，我们引导 GPT-4V 阅读图像中的文字，并按照特定的 JSON 格式返回信息。虽然 GPT-4V 在识别驾驶证上信息时出了些差错，但其回应严格遵循了文本指令中规定的 JSON 格式。在第 9 节，我们将此技巧应用于特定场景中。

要求优秀表现

据观察，LLM 并非总是致力于成功完成任务（Andrej，2023）。实际上，它们倾向于模拟各种表现的训练数据集。用户若希望模型成功执行任务，则需明确提出要求，此举对提升 LLM 的性能非常有效（Zhou 等，2022）。在 LMM 方面，我们有类似发现。如图 4 所示，我们比较了模型对不同计数文本指令的响应。首先，我们提出一个简单明了的指令：“数一下图片中有多少苹果。”然而，GPT-4V 错误地计算出图片中共有 12 个苹果。为优化表现，我们尝试加入“让我们一步一步思考”的表达，使用了 Kojima 等（2022）为 LLM 提出的零射程思考链策略。尽管 GPT-4V 正确预测了步骤，但这对最终的计数没有帮助，得出的答案“12 个苹果”仍是错误的。随后，我们更改指令为“按行数苹果”，这更符合图像的实际内容。虽然 GPT-4V 给出了正确的总数，但在数第二/三行苹果时出错。当我们进一步细化指令为“先数苹果的行数，再数每行的苹果数，最后加总”时，最终得数与正确答案（15 vs 11）相差更大。最终，参照 Zhou 等（2022）为 LLM 设计的指令“让我们逐步解决，确保答案准确”，我们设计了类似指令：“你是计数专家。让我们逐行数图中的苹果，确保得到准确答案。”通过这样的指导，GPT-4V 不仅准确数出每行的苹果数，还正确给出了总数。本文中，我们多次利用这一策略，以期在不同场景下都能取得更好的效果。

3.2 视觉指向及视觉参考提示

指向是人际交互的基础行为 Malle 等人（2001）。为了模拟这一互动方式，研究人员探索了多种“指向”方式，以引用空间感兴趣区域。比如，如图 5 显示，可以通过数字空间坐标（例如框坐标和图像裁剪）或图像像素上的视觉标记（比如箭头、框、圆或手绘）来表示“指向”。我们发现 GPT-4V 在理解直接绘制在图像上的视觉指标方面表现出色。考虑到在图像上绘图的灵活性，这一特点未来可用于野外人机互动 Mani 等人（2020）; Shtedritski 等人（2023）; Zhu 等人（2023）。为此，我们探索了一种名为视觉参考提示的新方法，人们可以编辑输入图像的像素空间以指定期望的目标，比如绘制视觉指针或手写场景文本。如图 6 所示，与常规文本提示不同，视觉参考提示通过编辑图像像素来执行任务。举个例子，它可以是简单的描述，关注指向物体的描述，同时保持对整个图像上下文的理解，如图 6（1,2）所示。此外，视觉参考提示还开启了其他新的使用场景，比如将指向的物体与场景文本中的索引关联起来（图 6（3）），或是解答靠近查询的边缘或角度提出的问题（图 6（4））。更多关于视觉参考提示的详细讨论见第 5 节。

“视觉指示”的多种表达方式在多模态交互中的应用。

图 5：描绘了多模态交互中多样的“视觉指示”模式。

GPT-4V 成功展示了它能直接解读叠加在图片上的视觉指示的独到之处。在此基础上，我们探索了视觉指示提示的方式，通过编辑图片像素（参见图 6），绘制视觉指针和场景文本来引导感兴趣的任务。更多细节请参阅第 3.2 节讨论。

图 6：GPT-4V 不仅能直接识别叠加在图片上的视觉指示，还能在此基础上探索视觉指示提示，通过编辑输入的图片像素（比如绘制视觉指针和场景文本）来引导任务。详细讨论请查阅第 3.2 节。

GPT-4V 在解析图像、子图像、文本、场景文本和视觉指针输入的混合内容方面表现出色。这些元素可以作为指令、示例或输入查询，协助 GPT-4V 高效完成新奇任务。更多细节请参阅第 3.3 节。

图 7：GPT-4V 擅长解读图像、子图像、文本、场景文本以及视觉指针输入的混合内容。这些元素可以作为指令、示例或是查询输入，帮助 GPT-4V 高效地完成新奇任务。详细讨论请查阅第 3.3 节。

3.3 节图文提示

视觉指示提示可以和其他图文提示无缝集成，提供了一种细致的界面，精简而清晰地展现了问题的核心。图 7 通过两个例子展示了 GPT-4V 提示的灵活性，特别体现在集成不同输入格式并在输入中自然结合指令和示例的能力。GPT-4V 的通用性和灵活性使其能像人类一样理解多模态指令，并能适应各种未曾见过的任务。

集成多种输入方式

目前的模型在格式上通常对同时输入的图片和文本有着一些隐形的限制。比如，在少量学习案例中，图片和文本配对需要和查询输入保持类似的格式。然而，GPT-4V 可以非常灵活地处理各种不同的图片、子图片、文本、场景文本和视觉指针。以图 7 中“添加一行”模式为例，我们既可以用一个圈圈标出矩阵图片中的第一列，如子图 (1) 所示；也可以将子图片直接插入，如子图 (2) 所示。同理，对于输入的查询，既可以将问题作为场景文本呈现在大图片中，如子图 (1)；也可以将文本和子图片混合发送，如子图 (2)。相比之下，现有多模态模型在如何结合图片和文本，以及能处理的图片数量上有很多限制，这些都限制了它们的功能和通用性。

多模态实例引导的指令

GPT-4V 不仅支持更多变的输入格式，其通用性还让任务示范变得更加直观和高效，相较于仅仅跟随指令或在特定上下文中进行少量学习的方式。Ouyang 等（2022）、Mishra 等（2022）、Wei 等（2022a）及 Sanh 等（2021）首次针对 NLP 任务提出的指令跟随技术，主要关注的是纯文本形式的任务指令，与视觉查询输入关系较远，无法清晰展示任务。相对的，在上下文少量学习方式下，Brown 等（2020）、Tsimpoukelli 等（2021）和 Alayrac 等（2022）提供了包含图像和文本的实时示例，但这些示例需要与推理查询的格式严格对齐，使用起来较为复杂和繁琐。此外，上下文示例常常与指令分开使用，模型需要推理出任务目标，这降低了示范的有效性。而 GPT-4V 能理解多模态指令，可以直接将任务示范与相关上下文示例相结合，使得任务说明更为直观和明确。例如，在图 7 中，将“寻找第一列中的模式”的指令与示范例子（如（1）中圈出的模式和（2）中的相关子图）相结合，简化了学习流程，提升了模型的表现。这一方式也更贴近人类的学习过程，将抽象指令和直观示例相结合。

3.4 上下文中的少样本学习

上下文中的少样本学习是 LLMs 模型展示出的一种令人着迷的能力，早在 Brown 等人 (2020)、Dong 等人 (2022)、Wei 等人 (2022b) 以及 Dai 等人 (2022) 的研究中就已被观察到。该技术允许 LLMs 在没有更新参数的情况下，仅通过加入几个相关样本，便能在推理时生成所期望的输出。这些样本需要与输入查询的格式一致，起到示范期望输出的作用。近期的一些研究，比如 Tsimpoukelli 等人 (2021)、Alayrac 等人 (2022)、Huang 等人 (2023)、Driess 等人 (2023) 和 Zhang 等人 (2023)，发现多模态模型中也出现了类似的能力，其查询输入是由图像和文本配对组成。情境学习与指令调优相辅相成，在测试阶段提供相同格式的样本，指导模型完成新的任务。我们通过几个实证例子展示了 GPT-4V 在情境少样本学习方面的出色表现。值得强调的是，当零样本或单样本指令方法不能满足需求时，提供足够的情境样本进行少样本学习是非常必要的。图 8-10 探讨了一个困难的情境：读取速度计的读数。图 8 描述了 GPT-4V 在视频截图中的速度计上的零样本表现。虽然我们多次尝试让 GPT-4V 以零样本方式进行预测，但它始终无法准确读取图片中的速度读数。它给出的预测值（22/30/40 mph）与实际的读数“大约 9 mph”相去甚远。如图 9 所示，即便使用一个情境样本，无论样本是相似（图 (a)a）还是不相似（图 (b)b），GPT-4V 都无法精确识别黄色指针两侧的数字。然而，如图 10 所示，当提供一个与查询图片相似和一个不相似的两个情境样本时，GPT-4V 成功地预测出速度“大约 9 mph”，因为它识别出指针位置接近 10 mph，但并未完全到达。

图 11-13 展示了在解读一个复杂折线图时，zero-shot、1-shot 和 2-shot 性能的对比。此例具有相当高的难度级别，因其涉及到多步推理。要回答“图中哪年六月的平均油价最高”这一问题，需要完成四个步骤：（i）在 x 轴上找到六月，（ii）比较六月中每条线的数据点，（iii）找出数值最高的线条的颜色，并（iv）将这个颜色与图例上的年份相对应。任何步骤的错误都会导致答案出错。正如 Figure 11 所展示的，即便在 zero-shot 情况下使用“文本指导，逐步思考”的提示，GPT-4V 也无法正确匹配颜色与图例中的年份。而且，它的注意力还被图中突出的 $3.32 油价吸引了过去。如 Figure 12 所示，虽然 GPT-4V 在识别图例方面有所提升（相对于 zero-shot，成功纠正了 2021 和 2022 的颜色），但它仍然错误地认为 2023 年的六月油价最高，虽然数据只覆盖到 01/17/2023。然而，当我们在 Figure 13 中加入另一个上下文示例后，GPT-4V 终于得出了正确答案（2022 年），并给出了解释其推理过程的中间步骤，这与在上下文示例中展示的情况相似。

通过这些初步示例，我们可以清晰地看到，在上下文少样本学习的背景下提高 LMMs 性能的重要性逐渐提升。这种策略是一种可行的微调替代方案，与 Brown 等人 (2020)、Dong 等人 (2022)、Wei 等人 (2022b) 和 Dai 等人 (2022) 对于 LLMs 的观察是一致的。虽然上下文少样本学习对于 LMMs 的优化表现至关重要，但为防止从上下文例子中可能泄露的信息或产生不期望的提示，我们在报告中有所保留。关于少样本学习带来的具体收益，我们将在未来的研究中进行量化评估。

在一个难度较大的读取速度表的情境中，GPT-4V 在零样本任务上的表现不佳，甚至尝试了不同的 ZS 提示方式也无法准确读取。

图 8：在一个读速度表的困难情境下，GPT-4V 的零样本表现。尽管试用了多种 ZS 提示，仍无法准确读数。错误答案以红色标出。详细的讨论见第 3.4 节。

图 9：在同样的困难情境下，GPT-4V 即便是在一个单样本任务上（或者接收了多模态示例指令的提示），无论是（a）不相似还是（b）相似的 1-样本上下文示例，表现都不理想。错误的答案以红色标出。详细的讨论见第 3.4 节。

然而，在双样本任务上，GPT-4V 终于能够准确读取速度表了。

图 10：在这一困难情境下，GPT-4V 在双样本任务上的表现。此时，它能够准确读取速度，正确的答案以绿色标出。详细的讨论见第 3.4 节。

在另一个难度较大的读取线形图的情境中，即使采用了多种 ZS 提示方式，GPT-4V 也无法准确作出回应。

图 11：GPT-4V 在解读折线图这个复杂任务时的零样本性能表现。纵使采用多种零样本提示方式，该模型仍未能准确回应。错误答案以红色标出，更多讨论详见第 3.4 节。

图 12：展示了 GPT-4V 在单样本测试环境下解读折线图的表现，即使在给出一个相关示例的情况下，模型仍然没有给出正确答案。错误答案以红色标出，更多讨论详见第 3.4 节。

图 13：在双样本测试环境下，GPT-4V 终于能准确回答“哪一年的六月份平均汽油价格最高？”这个问题了，详细讨论见第 3.4 节，正确答案以绿色标出。

第四章视觉与语言能力

理解并描述视觉信息是人类认知不可或缺的一部分。本节将深入研究 GPT-4V 如何被应用来解读视觉世界，并首先关注该模型在创建开放式的、用于一般视觉内容的文字描述方面的表现。

在接下来的第 4.2 节，我们将研究 GPT-4V 在更为高级的视觉任务中的应用，这包括空间关系分析、物体定位、物体计数以及生成密集的文字描述。而在第 4.3 节，我们将探索该模型在多模态知识和常识推理方面的表现，并研究其是否能够理解不同信息类型间的上下文及其关系。

在 4.4 节，我们将深入评估模型分析各类来源信息（如场景文本、表格、图表及文档）的能力。4.5 节将探讨 GPT-4V 多语言环境下理解和生成描述的技巧。最后，4.6 节会研究模型如何运用视觉信息编程，并通过选定示例展示其完成任务的技能。

4.1 多领域图像描述

我们通过输入一组图像 - 文本配对来评估 GPT-4V 的性能和泛化能力，并引导 GPT-4V 生成涵盖多个主题的自然语言描述。

名人识别

如 Guo 等 (2016) 及 Liu 等 (2015) 指出，因为人类外貌千变万化，识别是个大挑战。为了检验 GPT-4V 对名人识别和描述的表现，我们进行了实验，输入“描述图片”这样的文本提示和一张名人照片。从 Figure 14 顶部的行我们看到，GPT-4V 成功识别出了八位背景和领域各异的名人。更进一步，当我们问“图片中的人是谁，他/她在做什么？”时，如 Figure 14 底部的行所示，GPT-4V 判读出美国现任总统正在 2023 G7 峰会上发言。这突显出模型能适应和处理新的情境，比如不在其训练数据中的 2023 G7 峰会。

地标辨识

由于角度、光线、遮挡以及季节的变化，地标的外观会呈现出极大的差异。为了在这些复杂情境下识别地标，模型需具备卓越的泛化能力和对不同视觉外观的处理能力 Zheng et al. (2009); Agarwal et al. (2011)。在测试中，我们使用了简单直白的文本提示：“描述图片中的地标”，来检验模型的性能。如 Figures 15-16 所示，GPT-4V 能为每张测试图片生成准确且不设限的描述。比如，它准确无误地辨识出位于华盛顿州西雅图的 Space Needle，并了解这座塔是为 1962 年世界博览会所建，后来更成为了城市的标志之一。其他测试图片也得出了相似的观察结果。生成的描述不仅限于简单的标签或通用语句，更是提供了形象生动且详尽的叙述，深刻揭示了每个地标的独特之处。

食品辨识

食物或菜品的识别是一项极具挑战性的任务 Bossard et al. (2014); Min et al. (2023)，因为它们的外观千差万别，而且常常会有其他物品或成分与其重叠，导致识别困难。在我们的实验中，我们使用简洁的文本提示，让系统“描述这道菜的名称”，来进行测试。Figure 17 展现了 GPT-4V 能准确识别不同菜品的能力，并且，GPT-4V 还能够有效捕捉图像的细节，识别出菜品中的特定原料、装饰和烹饪手法。

医学图像理解

因患者种群和检测设备的不同，X 射线和 CT 扫描等医学图像经常存在很大的差异。此外，要解读这些图像的视觉内容需有专业知识。在图 18 中，通过给 GPT-4V 提供提示：“描述这个图像”，来测试其性能。结果发现，GPT-4V 能够准确识别 X 射线图上的牙齿和颌骨。当给出提示：“这张 X 射线图上有需要拔除的智齿吗？”时，GPT-4V 能基于视觉上下文进行推理，并解释称，下颌左右两侧的智齿并未完全长出牙龈，可能需要拔除。我们还对其他类型的医学图像进行了测试（如图 19 所示），使用的提示包括：“有什么问题？”和“看看这个 CT 扫描，告诉我有什么问题。”观测结果显示，GPT-4V 能识别 Jones 骨折等常见病症，并能根据肺部 CT 扫描指出可能存在的问题。这些实验显示 GPT-4V 对医学图像有基础的理解能力。更多关于 GPT-4V 在医学领域应用的讨论，请参见 9.3 节。

标志辨识能力探究

图 20 展示了 GPT-4V 在标志识别任务上的表现。首先，我们用“描述图像”作为文本提示开始实验，GPT-4V 成功准确识别了图像中的三个标志。随后，我们提出了更细致的问题：“能详细描述这些标志吗？”于是，GPT-4V 为每个标志的设计、风格及其所代表的含义分别给出了精细的解读。在图 21 的更高难度实验场景中，某些标志或许部分被遮挡、形态扭曲，或者出现在混乱的背景中，GPT-4V 仍展现出强大的识别和理解能力。值得一提的是，对于近期推出的 Microsoft 365 Copilot 等新标志和图标，GPT-4V 同样能提供详尽的描述。

场景理解测试

参照 Lin 等（2014）、Cordts 等（2016）及 Zhou 等（2017）的研究，场景理解为计算机视觉领域的核心任务之一。我们通过“描述图像”这一简洁查询来检测模型的场景理解能力。在图 22 中，GPT-4V 不仅成功描述了道路及车辆的位置和颜色，还能读取路牌，准确识别出道路的限速标志。

反事实示例实验。通过随机挑选 Liu 等（2023a）提供的反事实示例进行实验，图 23 显示，在面对可能误导的问题或指令时，GPT-4V 仍能准确解读图像内容。

名人辨识及描述。GPT-4V 能够识别各类名人，并细致描述相关视觉信息，包括其职业、活动、背景和所参加的活动等。更多细节请参见相关章节。

图 14：名人识别与描述结果。GPT-4V 能够辨识出各种各样的名人，并能详尽描述他们的视觉信息，包括职业、动作、背景及相关事件等。更多详细讨论请参见第 4.1 节。

图 15：地标识别与描述结果。在测试图片中，GPT-4V 能够准确识别出地标，并创作出生动且详实的叙述，揭示了地标的精髓。具体的讨论细节请查看第 4.1 节。

图 16：地标识别与描述结果展示。GPT-4V 能准确辨认测试图片中的地标，并提供富有生气且详细的描述，准确把握了地标的核心特点。想了解更多，请参考第 4.1 节。

图 17：食物识别与描述结果展示。GPT-4V 不仅可以识别出各式各样的菜品，还可以鉴别出菜品图片中的特定食材、装饰或是烹饪手法。更多讨论细节见第 4.1 节。

对于医学图像理解的结果，GPT-4V 能在 X 光片上识别出牙齿和颌骨，并且解释左右下颌部分突出的智齿可能需要进行拔除。更多信息请参阅第 4.1 节。

图 18：医学图像解读成果。GPT-4V 成功从 X 光片中识别出牙齿和颌骨，并指出下颌左右两侧的部分露出的智齿可能需要进行拔除。更多细节可参见 4.1 节讨论。此类医学图像均来自互联网。

图 19：医学图像解读成果。GPT-4V 能准确识别如琼斯骨折等常见病症，并根据肺部 CT 扫描结果指出可能存在的问题。更多详细讨论可查看 4.1 节。所展示医学图像均来源于网络。

图 20：商标识别展示。GPT-4V 成功识别并详细描述了商标，包括设计、颜色、形状和符号等方面的信息。更多细节讨论可参考 4.1 节。

图 21：实际环境下的商标识别和描述。无论是在遮挡、光线条件或者方向多变的环境下，GPT-4V 均展现出卓越的商标识别和理解能力。此外，它还能描述新推出的图标，如 Microsoft 365 Copilot。详细讨论请查阅 4.1 节。

关于场景理解的成果。GPT-4V 能够为场景和物体提供详细的描述，请参考第四节。

图 22：场景理解成果展示。GPT-4V 能深入描述场景和物体的细节，更多详细讨论请查看 4.1 节。

反事实例子的测试结果。GPT-4V 准确地描述了图片中场景和物体的事实信息，请参考第四节。

图 23：反事实例子测试成果。GPT-4V 提供了图片中场景和物体的准确事实描述，更多细节请查看 4.1 节讨论。

4.2 物体定位、计数和详细标注

空间关系的理解

理解人与物体在图片中的空间关系是视觉智能的重要一环 Johnson et al. (2017); Bagherinezhad et al. (2016)。如图 24 所示，GPT-4V 在此方面表现出了出色的能力。它不仅识别出了飞盘与图中男子的空间关系，还分辨出了男子与汽车的空间关系，并指出了摄像机的视角可能影响了它们的大小感知。

物体计数能力

图 25 展示了 GPT-4V 在物体计数方面的能力。我们通过文本提示“Count the number of X in the image”来测试它的表现。实验结果显示，GPT-4V 能够准确计算出图片中如苹果、橙子和人的数量。但是，在物体被遮挡或场景复杂的情况下，计数可能会出现错误。例如，在图 25 的左下角，GPT-4V 计数结果为 12 人，然而实际上只有 11 人。这可能是因为我们在实验中使用的文本提示有限，未来需要更多的研究来优化提示技术。

对象定位

对象定位是计算机视觉领域的核心难题之一，此前有 Zhou 等人（2016）、Lin 等人（2014）、He 等人（2017）进行过深入探索。我们初步试验中，采用简单文本提示“用边界框标记图片中每个人的位置”来进行对象定位。初步实验结果见图 26，显示 GPT-4V 能够生成文本格式的边界框坐标，但生成的坐标并不总是精准的。在背景简单、无杂乱物品的场景下，GPT-4V 的定位结果较为可靠。要想在复杂、拥挤的环境中提升定位性能，则需进一步研发和应用更多提示技巧。

密集图像说明

密集图像说明的任务是为图片中每个感兴趣的区域生成详尽的描述，如 Johnson 等人（2016）与 Lu 等人（2018）的研究所示。这一复杂任务需要一个集成了多个专家系统的复杂体系，如对象检测器、名人识别模型和图像字幕模型等。我们采用图 27 中的指导性提示，探索 GPT-4V 在密集字幕方面的表现，结果是令人鼓舞的：GPT-4V 不仅成功定位并识别了图片中的个体，还为每位科学家提供了精炼的描述。

图 24：揭示了 GPT-4V 在理解图像中物体间空间关系方面的成果。有关更多细节和深入讨论，请参考第 4.2 节。

图 25：在对象计数任务上，图 25 展示了 GPT-4V 可以准确数出图片中特定物体的数量，红色高亮部分为计数错误。详细讨论见第 4.2 节。

图 26：对象定位方面，GPT-4V 能够描绘出图片中特定物体的大概边界位置。当只有简短文本提示时，该模型可能在处理遮挡和复杂背景等困难场景时会遇到一些问题。具体内容见第 4.2 节讨论。

图 27：GPT-4V 能依据文本提示成功为图片生成详细的字幕。更多细节见第 4.2 节。

4.3 多模态知识和常识

笑话和梗图

在理解笑话和梗图方面，GPT-4V 显示出了出色的能力。笑话和梗图通常与特定事件、流行文化或网络趋势有关，理解它们需要具备一定的文化和背景知识。此外，由于梗图多由网民创作，因此呈现出极大的多样性。图 28 展示了 GPT-4V 对此的处理能力，通过分析文本和视觉信息，模型成功捕捉到了梗图的幽默元素。

科学和知识

我们深入探讨了 GPT-4V 在执行需要科学知识推理任务方面的性能（参见 Lu et al. 2022a 的研究）。实验是通过提供一段文本提示和一张相关图片来进行的，其中包含各种各样的主题，涉及地理、物理、生物和地球科学等多个领域。在图 29 至图 31 中，可以看出 GPT-4V 能够准确地根据图片中的视觉信息来回答科学问题。以图 29 下方的例子为例，GPT-4V 准确识别出了样本 A 和样本 B 中粒子的平均速度。GPT-4V 在考虑了粒子速度、动能和温度之间的关系后，成功给出了正确答案。在另一个例子中，如图 30 下方所示，GPT-4V 利用图示中的箭头准确识别了食物链中的初级生产者。而如图 31 所示，当我们给出更具体的提示，比如“假如你是老师，请利用这张图来解释 X”，我们发现 GPT-4V 生成的答案呈现出教学式的格式，逐步、清晰地解释了相关主题。

多模态的常识推断

在图 32 里，我们探索了 GPT-4V 在联合使用多种信息模式进行常识推断上的表现（参考 Zellers 等人 [2019] 和 Hessel 等人 [2022] 的研究）。我们的实验发现 GPT-4V 能有效使用图像中标注的边界框（比如 [person1] 和 [person2]）来辨认人物的行为。图 32 的第二个示例显示，通过观察 [person1] 和 [person2] 的正装和周围的花卉装饰，可以推断出他们正在参加婚礼。更进一步，当我们给出更明确的输入提示，比如“如果你是侦探，从这些视觉线索中你能推断出什么？”时，GPT-4V 能够识别图像中的细微视觉信号，并给出一系列合理的猜测。

梗图和笑话理解结果。GPT-4V 表现出对梗图内幽默元素的深刻理解能力。更多细节，请参考第 4.3 节。

图 28：梗图和笑话理解结果。GPT-4V 表现出对梗图内幽默元素的深刻理解能力。更多细节，请参考第 4.3 节。

科学问题回答结果。GPT-4V 能文本和视觉地理解问题，并整合所需信息进行回答。更多细节，请参考第 4.3 节。

图 29：科学问题回答结果。GPT-4V 能文本和视觉地理解问题，并整合所需信息进行回答。更多细节，请参考第 4.3 节。

图 30：科学问题回答结果。GPT-4V 能文本和视觉地理解问题，并整合所需信息进行回答。更多细节，请参考第 4.3 节。

科学问题回答方面，我们发现，通过使用更精确的文本提示，例如“假设你是教师，请用图表解释 X”，GPT-4V 能以教程形式简洁解释相关主题，详情见第 4.3 节。

图 31：科学问题回答结果展示，采用特定文本提示后，GPT-4V 能简洁地生成相关主题的教程。更多讨论请参见第 4.3 节。

对于多模态常识推理方面的结果，详细信息可参见第 4.3 节。

图 32：多模态常识推理的结果展示，详细讨论请参见第 4.3 节。

4.4 场景文字、表格、图表及文档推理

场景文本识别

场景文本识别是一个关键任务，对于理解图像中的文本至关重要，这一点由 Sidorov et al. (2020)、Singh et al. (2019)、Su et al. (2019) 以及 Biten et al. (2019) 的研究所强调。通过使用“图像中所有场景文本是什么？”这一提示，我们探索了 GPT-4V 识别场景文本的能力。图 33 为我们提供了一些样例结果，显示 GPT-4V 能在各种情境下，准确识别场景文本，无论是手写还是印刷文字。多语言场景的更多结果将在第 4.5 节展示。

视觉数学推理

视觉数学推理方面，在图 34 中，GPT-4V 显示了其在解决视觉数学问题方面的强大能力。我们观察到 GPT-4V 不仅能从图像中提取核心信息，例如在图 34 中，准确识别了直角三角形，并测得 AB 边长为 4，BC 为 3，而且能以结构化的方式，逐步解决问题，清晰地展示其解题思路。

图表的理解与分析能力

我们进一步探讨了 GPT-4V 在解读和分析图表方面的能力，其中图 35 至图 37 展示了几个实例。在初步探索中，GPT-4V 表现出能为图表提供细致的描述。例如，图 35 中模型清晰地描述了从开始到结束的提案流程。在图 36 中，模型不仅理解了流程图中展示的程序，还能将其详细信息转译为 Python 代码。在图 37 的下方，GPT-4V 对 x 轴和 y 轴有着清晰的认识，并阐述了图表所呈现的核心信息。更进一步的是，我们注意到 GPT-4V 能够根据图表内容回答问题。在图 37 的上方，GPT-4V 正确地计算了不包含 Ford F150 的情况下的平均加油费用。

表格的理解与分析

关于表格的理解与分析，图 38 展示了我们对 GPT-4V 在表格理解和推理方面的初步研究。与图表实验的结果一致，GPT-4V 在理解表格细节和回答相关问题方面表现出良好的前景。

文档解读能力

图 39 展现了 GPT-4V 在解读不同类型文档（如平面图、海报和考卷）时的表现。我们发现，GPT-4V 不仅能理解文档内容，还能给出合适的回应。例如，在平面图中，模型准确地指出了第二个卧室浴室的位置。它还识别出中国美食“热干面”，并能根据文本内容将其与武汉市联系起来。此外，GPT-4V 还能阅读和理解考卷，它能以 Markdown 格式准确重建表格，并在表格中填入正确答案。关于编码能力的更多探索将在第 4.6 节呈现。

在图 40 中，我们探讨了一个较难的实例，即输入 Von Bearnensquash（2010）所写的多页技术报告。通过有限的试验，GPT-4V 展现出了显著的效果，准确把握并表达了报告的核心思想和作者提出的方法，并考虑了跨页的上下文。然而，一些实施细节可能被遗漏。需要注意的是，数据集包括 1196+665=1861 个样例，提取的特征需包含方向梯度直方图（HOG）。我们相信，通过逐步深入或使用少数示例上下文的方法等先进的提示技巧，而非一次性向模型展示所有页面，模型的表现会得到提升。

在场景文本识别方面，GPT-4V 能够在多个具挑战性的场合准确识别文本，更多细节请参阅第 4.4 节。

图 33: 场景文本识别的成果，GPT-4V 在众多困难环境下均能识别场景文本。详细讨论可参见第 4.4 节。

对于视觉数学推理，GPT-4V 不仅理解视觉数学问题，并且能给出结构清晰的答案。详细讨论请查看第 4.4 节。

图 34: 在视觉数学推理方面的成果，GPT-4V 不仅理解问题，并能提供清晰结构的答案。详细讨论见第 4.4 节。

在流程图理解上，GPT-4V 准确且详尽地描述了提议过程。详细讨论见第 4.4 节。

图 35 展示了流程图理解的结果，GPT-4V 准确且详细地描述了提议过程。更多细节请查看第 4.4 节。

在流程图的理解方面，GPT-4V 能够将流程图准确翻译成 python 代码。详情请参见第 4.4 节。

图 36 展示了流程图的理解结果，GPT-4V 能将流程图转化为 python 代码，详细讨论请参见第 4.4 节。

GPT-4V 在解读图表细节及相关问题的应答方面展示出了令人印象深刻的结果。详细讨论可参见章节

图 37：GPT-4V 在解读图表细节及有针对性地、准确地回答相关问题方面展示出了令人印象深刻的成果。请参见 4.4 节获取更多讨论细节。

我们注意到 GPT-4V 能够理解表格中的详细内容，并作出相应的回答。详细讨论可参见章节

图 38：我们注意到 GPT-4V 能够理解表格中的详细内容，并作出相应的回答。请参见 4.4 节获取更多讨论细节。

文档理解方面的结果表明，GPT-4V 能辨识三种不同的文档类型，并正确作出回答。详细讨论可参见章节

图 39：文档理解方面的结果表明，GPT-4V 能辨识三种不同的文档类型，并正确作出回答。请参见 4.4 节获取更多讨论细节。

在文档理解的表现上，GPT-4V 能读懂多页的技术报告，了解每一节的核心内容，并进行技术报告贡献的总结。

图 40：在文档理解的表现上，GPT-4V 能读懂多页的技术报告，了解每一节的核心内容，并进行技术报告贡献的总结。错误的答案以红色标出。请参见 4.4 节获取更多讨论细节。

4.5 多语种与多模态理解

我们评估了 GPT-4V 对多语种和多种表达方式的理解能力。首先，我们通过没有场景文字的自然图像，展示了这一能力，正如图 41 所示。在图像的第一行，我们分别用中文、法文和捷克文给出了“描述这个图片”的输入提示。GPT-4V 识别了不同语言的输入提示，并用相应的语言准确描述了图片。在图 41 的第二行，我们用英文给出输入提示，并指定了输出语言，GPT-4V 按照指示，用期望的语言生成了准确的描述。在图 41 的最后一行，我们用西班牙语给出输入提示，并要求 GPT-4V 用 20 种不同的语言描述图片。我们观察到，GPT-4V 能够用多种语言处理输入和输出文本。

此外，我们还探索了一个涉及多语言场景文字识别的场景，在这个场景中，输入图片可能包含用多种语言书写的文字。如图 42 所示，GPT-4V 成功地识别并理解了不同场景下的文字。如图 43 的前两行所示，我们注意到 GPT-4V 不仅能识别场景文字，还可以将其翻译成其他语言。在图 43 的最后一行，我们展示了一个用加泰罗尼亚语编写的维基百科网页截图，并指示 GPT-4V 使用 20 种不同语言进行信息总结。GPT-4V 不仅成功识别了加泰罗尼亚语的文字，还精准生成了摘要并进行了多语言翻译，充分展示了 GPT-4V 对多语言场景文字的理解和翻译能力。

我们还探讨了 GPT-4V 在多文化理解方面的能力 Yin 等人 (2021); Liu 等人 (2021)。如图 44 所示，GPT-4V 能够领会文化差异，并为所给的婚礼照片生成合适的多语言描述。

在探索过程中，我们发现 GPT-4V 能轻松准确地用不同语言生成描述，显示出其在应对多种语言环境时的多样性和灵活性。

关于多语言图像描述的测试结果，GPT-4V 能够用多种语言进行图像描述。详细讨论可参见第 4.5 节。

图 41：关于多语言图像描述的测试结果。GPT-4V 能用不同语言进行图像描述，具体细节请查看第 4.5 节。

图 42：多语言场景文本识别的测试结果显示，GPT-4V 能够识别不同语言的场景文本，详细内容请参见第 4.5 节讨论。

图 43: GPT-4V 在多语言文本识别、翻译和描述方面的表现。详细讨论可参见第 4.5 节。

图 44: GPT-4V 展示了其多语言多文化理解的成果。更多精细的分析和讨论，敬请参阅第 4.5 节。

4.6 视觉编码能力

图 45: GPT-4V 根据手写输入生成 LaTeX 代码的能力。每个示例的任务都是“生成 LaTeX 代码”。输出结果即为 LaTeX 代码，并附有渲染效果。尽管 GPT-4V 在复杂方程的代码生成方面存在困难，但通过将复杂方程分解成几个简单的方程，GPT-4V 仍能有效处理。详细讨论请见第 4.6 节。

图 45 揭示了 GPT-4V 可以根据手写的数学方程生成 LaTeX 代码，为用户高效撰写 LaTeX 方程提供了便利。虽然在长方程的代码生成上有所挑战，但模型对简短方程则能轻松应对。只需将长方程分成几部分，模型便能产生相应的代码。图 46 进一步显示了 GPT-4V 能够将输入的表格图像转化为 MarkDown/LaTex 代码。

图 47 通过 Python、TikZ 和 SVG 的编码示例展示了复制输入图形的过程。尽管结果并不完全一致，但整体布局类似，且代码可轻松修改来满足特定需求。

GPT-4V 能够生成用于重构图像内表格的 Markdown/LaTex 代码。

图 46: GPT-4V 重构图像中表格时生成的 Markdown/LaTex 代码能力，其中红色部分突显了重构过程中出现的错误。具体的讨论细节请参见第 4.6 节。

我们展示了由 GPT-4V 编写的代码所渲染出（通过 Python/TikZ/SVG）的图形，与输入图形大致一致，且代码可方便地进行调整。

图 47: GPT-4V 编写代码复制输入图形的能力，展示了通过 Python/TikZ/SVG 渲染出的图形作为 GPT-4V 的响应。这些渲染图形与输入大致一致，并且代码可以轻松地进行调整。更多详细讨论，请参阅第 4.6 节。

第五章，人机互动：视觉引导提示

在进行人机互动时，指向特定空间位置是至关重要的，特别是在与多模态系统（如视觉对话系统）交互时。如第 5.1 节所示，GPT-4V 能够准确理解直接在图像上绘制的视觉指针。据此，我们推出了一种名为“视觉引导提示”的创新模型交互方式。其核心理念是直接编辑图像的像素空间，绘制视觉指针或场景文本作为人的指示，如图 50 所示。第 5.2 节详细介绍了这一方法的使用方式和优势。最后，第 5.3 节探索了 GPT-4V 生成视觉指针输出以与人互动的可能性。这些视觉指针对人和机器都容易理解和生成，是人机互动的有效途径。

5.1 理解指向输入

图 48 展示了 GPT-4V 能识别直接覆盖在图片上的各种视觉标记，如圆圈、矩形框和手绘，用作指示器。此能力使 GPT-4V 能够生成与图片相关的文字说明，对于传统视觉 - 语言模型（Wang 等人，2022a）来说，创建关注于特定区域的视觉描述一直是个挑战。像 Johnson 等人（2016）和 Wu 等人（2022）所提出的密集标注法虽然可以生成局部描述，但经常忽略了图片的整体背景，导致描述的质量不高。视觉指示器不仅能够突出显示特定的区域，还保留了图片的全局背景。例如，图中左上角的示例详尽描述了标出的 Magna 啤酒，还提及了啤酒瓶放在桌子上的场景。

相比于在图片上添加视觉指示器，用数字文本格式标出区域坐标也是一种直观的方法。如图 49 所示，GPT-4V 能够直接识别这些坐标，无需像之前的视觉 - 语言模型（Wang 等人，2022b；Yang 等人，2023b）一样，进行额外的标记微调。虽然这一功能看似有潜力，但当前的提示方式在空间定位上还不够精准。比如，图 49 左上角的示例，虽然只有啤酒瓶在 (0.47, 0.48, 0.55, 0.87) 这个区域内，GPT-4V 仍然提到了旁边的纸巾和水瓶。总体而言，与文本坐标相比，GPT-4V 在处理带有视觉指示器的提示时表现得更为稳定可靠。这一独特功能促使我们探索一种新的提示方式，也就是视觉引导提示。

GPT-4V 能直接识别并理解叠加在图片上的视觉指示符。其特色用途之一就是能够结合局部和全局的视觉信息来做出有依据的描述。更多深入的讨论可参见第 5.1 节。

图 48：GPT-4V 可以直接识别图片上的视觉指示符，并结合局部和全局视觉信息进行有依据的描述，这是它的一个独特应用场景。详见第 5.1 节。

与图片上的视觉指示符相比，用数字文本格式表示的区域坐标是另一种选择，而 GPT-4V 同样能理解这些坐标。

图 49：数字文本格式表示的区域坐标是图片上视觉指示符的一种替代方式。比如，GPT-4V 可以识别坐标 (0.47, 0.48, 0.55, 0.87)、(0.01, 0.09, 0.29, 0.21) 和 (0.01, 0.67, 0.36, 0.91)，分别对应图片上的中间啤酒瓶，左上角的串灯和左下角的桌子。我们发现，在使用文本坐标作为提示时，GPT-4V 的表现没有视觉指示符那么可靠。更多详情请参见第 5.1 节。

5.2 视觉参照提示

鉴于 GPT-4V 在理解视觉指示和场景文本方面表现出色，我们探索了一种名为“视觉参照提示”的新交互方式。这种方式直接编辑输入图片的像素空间进行人机交互，不同于传统通过编辑文本空间的提示技巧。通过这种视觉提示方式，用户能与图片进行更细致和全面的交互，从而可能激发模型做出更多样的响应。例如，在图 50 中，GPT-4V 能自然地将箭头指向的物体与给定的物体索引关联，从而简化视觉推理和文本输出的过程；在 (2) 中，GPT-4V 能理解图片上的问题，并指向相应的边缘或角度，为基于视觉的对话提供了细致的交互界面；在 (3) 中，用户可以指向图片内任意区域，帮助 GPT-4V 更好地理解复杂的文档和图表；在 (4) 中，通过简洁的箭头和“+dot”场景文本，可以帮助 GPT-4V 预测下一张图片。视觉参照提示为用户提供了一种新的交互方式，与文本提示相辅相成，有助于实现各种应用场景。图 51 和第 9 节提供了更多示例。

5.3 创造指示性输出

第 5.1 节深入探讨了 GPT-4V 对人类产生的视觉指示反应的理解能力。一个立刻浮现的问题是：GPT-4V 能否自主产生指示性输出，进而实现人机互动的无缝交流？

在图 52 中，我们探索了通过让 GPT-4V 预测文本形式的区域坐标来生成视觉指示输出。我们指导 GPT-4V 确定文本（例如“蓝色 Subaru SUV”）或参考图片（例如“黑色 Audi 轿车”图片）所描述的对象的位置。与 GPT-4V 输入坐标理解的观察一致，模型对空间位置有一个大致的理解，但根据实验的提示，这一理解并不精确。比如，在图 52 的“图表可视化”环节，GPT-4V 能够模糊识别查询中提到的蓝色 SUV 和黑色轿车，但却难以精确画出与之完全匹配的边界框。我们发现，在提示中加入以实例为基础的说明会帮助 GPT-4V 更准确地理解坐标的定义，并相应地产生更精准的指示输出。

虽然这些生成的指示输出可能并不完全覆盖被查询的区域，但它们依然是理解模型互动、解读及执行多阶段视觉推理的有力工具。更具体地说，人们可以通过解读这些指示输出来更深入地理解 GPT-4V 的指示，或是 GPT-4V 也可以利用这些输出进行进一步推理。如图 52 下方所示，GPT-4V 能理解其自动生成的指示，根据图 48 的提示给出更有依据的描述。此外，GPT-4V 对指示生成和理解的迭代过程将大大助力于解决复杂的多阶段视觉推理任务。GPT-4V 能够分解问题，为每个子任务生成明确的视觉标记，聚焦于图像的不同区域，最终整合所有信息，得出最终答案。

“视觉引用提示”技术通过直接编辑输入图像，如画出视觉指针或添加场景文本，来作为输入提示，为用户带来更微妙和自然的交互体验。

图 50：通过编辑输入图像，“视觉引用提示”技术为用户带来更细腻和自然的交互体验，例如：（1）将指向的物体和索引联系起来；（2）直接指向图像提问；（3）高亮文档和表格中的线条；（4）在图像上创作图案等，还有更多创新的应用场景。详细讨论请参见第 5.2 节。

“视觉引用提示”技术增强了人机交互的流畅性，特别是在集成到计算机和移动设备的图形用户界面（GUIs）中，以及帮助理解文档和幻灯片时表现突出。详细讨论请参见第 5.2 节。

图 51： “视觉引用提示”技术通过增强人机交互的流畅性，在计算机和移动设备的图形用户界面（GUIs）集成，以及文档和幻灯片理解支持方面表现突出。详细讨论请参见第 5.2 节。

利用坐标理解，GPT-4V 能生成视觉指向输出，为文本或视觉查询对象进行定位。通过例证式指令，GPT-4V 可以更好地理解和定义坐标，从而进行更准确的指向。尽管输出的空间区域不一定完全准确，这一方法确实加深了“理解”的层次。

图 52：通过理解坐标，GPT-4V 能产生视觉指示输出，有效定位文本或视觉查询中的对象。运用实例辅助教学，可以加深 GPT-4V 对坐标定义的理解，进而提高指示的准确性。虽然空间区域的输出并不完全精准，此方法却创造了一个“理解（即有根据的描述）与产生”的视觉指示循环，从而有效促进人机交互。更多细节请参考第 5.3 节。

第六章时序与视频理解

本节讨论了时序和视频理解的能力。虽然 GPT-4V 主要处理图像输入，评估其理解时序和视频内容的能力仍然十分关键，因为现实世界的事件都是随时间而展开的。AI 系统能否理解这些动态过程，在很多真实应用中都是十分关键的。诸如时序预测、时序排序、时序定位、时序推理，以及有根据的时序理解等能力，都是评价该模型是否能理解事件序列、预测未来事件，以及在一系列静态图像中进行时间活动分析的重要标准。虽然 GPT-4V 主要关注图像，它理解视频和时序的方式却和人类十分相似。为了增加 GPT-4V 这种高级 AI 模型的通用性和实用性，这一测试环节是其开发和完善过程中的关键部分。在本节的后续实验中，我们会用多个选定的视频帧作为输入，来测试模型理解时序和视频内容的能力。

6.1 多画面序列化

在此小节，我们要展示 GPT-4V 能准确解读和分析视频帧序列的能力。在对每一帧进行分析时，GPT-4V 不仅能识别正在进行的活动场景，还能深刻理解其背景。如图 53 所示，这一模型不仅局限于识别环境，它还能准确解读视频中人物的动作。GPT-4V 通过理解各种人体动作的连续性和上下文，从而与正在进行的活动建立智能关联。通过深入理解姿势的细微变化，GPT-4V 能准确把握人的动作和运动的微妙之处，从而捕捉视频中事件的核心，提供比简单识别物体和场景更为深刻和细致的见解。

图 53：多画面序列解读：通过解读人体动作从视频序列中提取相关信息。更多详细讨论请参见 6.1 节。

6.2 视频理解：时间顺序

时间顺序对理解时间常识至关重要，是评估 GPT-4V 能力的核心环节。这里指的是向模型展示一系列被打乱的图片，然后评估其是否能辨识出因果关系以及时间的推移。要理解这种关系，模型需要能够按照逻辑连贯且时间准确的顺序重新排列图片。图 54 举了一个长期时间顺序的例子，展示了 GPT-4V 如何对制作寿司的一系列被打乱的图片进行重新排序。尽管图片顺序被打乱，GPT-4V 还是能正确识别出事件并确定寿司制作过程的正确顺序。另外，图 55 则是短期时间顺序的一个例子，通过一个指定动作，比如开门或关门，展示了 GPT-4V 理解图片内容并确定事件正确顺序的能力。这些例子凸显了 GPT-4V 在时间常识方面的出色能力，证明了它能够准确理解长期和短期的事件序列。

长期顺序整理：当 GPT-4V 面对混乱的寿司制作过程图片时，它能准确识别并整理出正确的制作顺序。更多详情请参阅第六章第二节。

图 54：GPT-4V 准确理解并整理出描绘寿司制作过程的混乱图片中的正确顺序。第六章第二节有更多详细讨论。

短期顺序整理：对于特定的动作，比如开关门，GPT-4V 显示出它能准确理解图片内容，并按照这些特定动作的逻辑顺序进行排序。更多详情请参阅第六章第二节。

图 55：对于如开关门这样的特定动作，GPT-4V 能准确理解图片内容并确定正确的顺序。第六章第二节有更多详细讨论。

时间预判：

我们展示了 GPT-4V 能根据初始画面预判未来事件的能力，通过长短期示例验证了这一点。图 56 的右侧用足球点球为例，展示了 GPT-4V 如何准确预判球员和守门员的下一步动作，这得益于其对游戏规则的理解。如图 56 左侧所示，通过视觉线索理解活动，GPT-4V 不仅识别出寿司准备过程的当前阶段，还能准确预判接下来的步骤，表现出其对长时间跨度、多步骤过程的解读和预测能力。GPT-4V 通过结合短期和长期预判，能够理解和把握不同时间结构和复杂性的活动。

短时和长时期预期：GPT-4V 能够捕捉和理解各种时间结构和复杂性的活动。更多细节请参见第 6.2 节。

图 56：短时和长时期预期：GPT-4V 擅长捕捉和解析不同时间结构和复杂性的活动。具体讨论详见第 6.2 节。

时间定位及推理能力

图 57 展示了 GPT-4V 在时间定位和推理方面的卓越能力。它能精准识别球员击球的瞬间。而且，GPT-4V 还能通过分析守门员和球的关系，展现出了其因果推理的能力，从而判断守门员是否成功挡住了球。在这个例子中，判断守门员是否能挡住球，不仅要看守门员和球的位置关系，还要理解他们互动的动态，以及预测这些动态交互的结果。这充分证明了该模型在推理方面的高水平。

时间定位与推理：GPT-4V 能精准定位球员击球的时间点，并且能通过观察守门员和球的交互，展现因果推理，判断球是否被成功挡住。更多细节请参见第 6.2 节。

图 57：时间定位与推理：GPT-4V 能准确识别出球员击球的时刻，并通过分析守门员和球的交互关系进行因果推理，从而判断是否成功阻挡了球。具体讨论详见第 6.2 节。

“时空定位理解”：GPT-4V 可对圈定的重点人物实施时空理解，详情参见第 6.3 节。

图 58：时空定位理解：GPT-4V 能针对圆圈标注的重点人物实施时空理解。详细讨论请见第 6.3 节。

6.3 针对时空定位理解的视觉引导提示

第 5 节已为我们展现了 GPT-4V 在视觉引导提示方面的威力。本节我们将进一步，通过测试视觉引导提示来拓展 GPT-4V 在时空理解方面的能力，为视频理解任务带来更精准的掌控。

时空定位理解：

该理解方式是 GPT-4V 的核心功能之一，通过在一系列图像帧中使用指向输入进行实验。图 58 以实例的形式展示了 GPT-4V 如何对圆圈标注的重点人物进行时空理解。GPT-4V 能以符合时间顺序的方式准确描述事件，并专注于圆圈内个体的活动。更进一步，GPT-4V 对事件有更深入的理解，能识别交互的性质。比如，它可以区分友善交流和暴力事件，不仅能把握事件的时间进程，还能洞悉交互的性质和基调。这表明，GPT-4V 能够处理并洞察序列中的复杂时间和社交线索，为其理解带来更多层次。

第七章抽象视觉推理与智商测试

探索如七巧板这样的抽象视觉刺激的理解

图 59：图 59 揭示了对七巧板等抽象视觉刺激的理解。Ji 等人（2022）以及 ASCII 艺术文本的相关研究可供参考。更多细节请参见第 7.1 节讨论。

深入探索抽象和自然图像中部分与对象关联的理解。请参见相关章节。

图 60：图 60 描述了在抽象和自然图像中理解部分与对象的关联。第 7.2 节有详细讨论。

理解与推理抽象视觉刺激和符号是人类智力的核心能力。本节将研究 GPT-4V 是否能从视觉信号中提取语义，并进行各种人类智商测试。

7.1 抽象视觉刺激

人类能从抽象或模糊的视觉刺激中领会其内涵。图 59 探索了 GPT-4V 如何解读七巧板，详见 Clark 和 Wilkes-Gibbs（1986）；Murfitt 和 McAllister（2001）；Fasquel 等人（2022）；Ji 等人（2022）。七巧板是一种经典的拼图游戏，由七块平面片组成，这些片可以拼成不重叠的各种形状。例如，GPT-4V 认为图 59 中的子图 7 最像一只飞翔的鹅，并为其他子图提供了推理描述，如 4. 人形或机器人，9. 船或帽子，以及 10. 狗或狸。此外，GPT-4V 还能理解其他类型的抽象视觉图像，例如图 59 中的 ASCII 文字艺术和图 61-62 中的符号输入，相关研究有 Wang 等人（2023）；Barrett 等人（2018）；Zhang 等人（2019）。

7.2 零部件与对象的发现和关联

发现与关联对象的各个部分是一项重要的抽象视觉推理能力，这一点由 Xu 等 (2018) 和 Gadre 等 (2021) 的研究所指出。人类能轻松识别对象各部分是如何组合成一个语义明确的整体的。在图 60 中，设计了一些示例来检验 GPT-4V 在关联对象各部分的能力。在一个例子中，研究者要求 GPT-4V 能根据语义来定位对象的某一部分。在另一个例子中，GPT-4V 需要关联由 SAM Kirillov 等 (2023) 所分割的对象部分。结果显示，GPT-4V 能够处理所有对象部分，并将它们语义明确地关联起来，如右下方的示例所示。

7.3 韦氏成人智力量表

如 7.1 节所示，GPT-4V 展现了抽象视觉理解的能力。作为更大的挑战，研究者让 GPT-4V 完成了一系列抽象推理任务，这些任务源自人类的智商测试。由 Wechsler (1981) 设计的韦氏成人智力量表是被公认的“黄金标准智商测试”之一，它通过一系列子测验来全面评估个体的认知能力。图 61 中展示了各个子测验类别的代表性问题以及 GPT-4V 的回应。GPT-4V 在抽象推理方面展示了其潜能，能回答纯文本问题、符号视觉输入问题和自然图像问题。例如，图中右下角的示例展示了 GPT-4V 如何理解类比题并找到了最合适的鞋子进行比较。

7.4 雷文渐进矩阵

Raven’s Progressive Matrices（RPM），由 Raven 和 Court 于 1938 年创立，是一款知名的无需语言的智力测试工具，主要用于评估个体的抽象思维和解决问题的能力。测试旨在减少语言、文化和正规教育背景对测试结果的干扰，因此适合用于对 AI 模型的智力进行评估，相关研究包括 Barrett 等人 (2018)，Zhang 等人 (2019)，以及 Huang 等人 (2023) 的工作。测试题目通常包含 3 或 8 张图片，这些图片会被排列成 2×2 或 3×3 的方阵，并且方阵中会有一张图片缺失。测试者需要从多个备选图片中选择一张，使其能够符合方阵中图片的规律或模式。在我们的研究方法中，我们直接将整张包含问题的页面作为单一图像提交给 GPT-4V，而不是将其转换为交错的图片和文字，这种方式更接近人类参与智力测试的方式。如图 62 中展示的，即使没有经过处理的文本描述或分图，GPT-4V 仍然可以给出合理的答案。但同时我们也发现，如图 63 所示，将问题页面拆分为交错的文本和分图可以简化任务的难度，使 GPT-4V 提供更加可靠的答案。

“韦氏成人智力量表（WAIS）”样题

图 61： “韦氏成人智力量表（WAIS）”的样题 Wechsler（1981）。更多讨论详见第 7.3 节。

“雷文渐进矩阵测试”样题

图 62：“雷文渐进矩阵测试”样题 Raven 和 Court（1938）；Huang 等（2023）。我们以整页题目图的方式向 GPT-4V 投递挑战，这种方式类似于人类参与智商测试的方式。更多讨论详见第 7.4 节。

我们还可以把整张题目图片分割成多个小图，选择性提供详细指导和示例，以此提高答案准确性。详见第 7.4 节。

图 63：整张题目图片也可以被分割成多个小图，选择性提供详细的指导和示例，帮助提高答案的准确性。更多讨论详见第 7.4 节。

第八章情商测试

GPT-4V 能可靠地识别和解读人们通过面部表情所展示的情绪。详见第 8.1 节。

图 64：GPT-4V 可靠地识别和解读人们的面部表情情绪。更多讨论详见第 8.1 节。

GPT-4V 理解哪些视觉内容能触动人的情绪。详见第 8.2 节。

图 65：GPT-4V 能理解不同的视觉内容是如何触发人的情绪的。更多讨论详见第 8.2 节。

GPT-4V 能根据社会的一般标准和规范来判断图片的美感。详见第 8.2 节。

图 66：GPT-4V 依据社会通用标准和规范来评估图片美感。更多讨论详见第 8.2 节。

GPT-4V 能根据感知到或期望的情绪生成适当文本，使与人沟通更为舒适和高效。详见第 8.3 节。

图 67：GPT-4V 能生成合适的文本，准确把握和传达期望的情绪，使其与人类交流更加愉快和高效。详细内容请参考第 8.3 节。

GPT-4V 与人类互动时，能表现出同理心和情绪智慧（EQ），这使它能理解并感受到人类的情绪。我们参照 Mayer 等人 2008 年、Mayer 2002 年以及 Brackett 和 Salovey 2006 年关于人类 EQ 测试的定义，来评估 GPT-4V 在以下几个方面的表现：1）通过面部表情准确识别人类情绪；2）理解不同的视觉内容如何触发不同的情绪反应；3）根据预期的情绪和情感，生成恰当的文本回应。

8.1 面部表情的情绪读取

如图 64 显示，GPT-4V 可以准确识别并理解人们通过面部表情展现的情绪，并为观察到的视觉线索提供合理解释，凸显出其对面部情绪的深刻理解。

8.2 视觉内容激发情绪的理解

我们进一步探讨 GPT-4V 在分析视觉情绪方面的表现，也就是说，理解人们在观看某些视觉内容后情绪的变化。GPT-4V 能预见到视觉内容可能激发出的人类情绪，并做出恰当的反应。图 65 显示，无论是从语义内容还是图片风格的角度，GPT-4V 都能准确解读如满意、愤怒、敬畏和恐惧等多种情绪，这一能力在家用机器人等应用场景中至关重要。

GPT-4V 不仅能解读视觉情绪，还能根据人的审美标准做出主观判断。图 66 展示了 GPT-4V 是如何依据社会通行的审美标准来评判图像美观度的示例。

8.3 情绪调节输出

GPT-4V 可以依据识别的情绪，有效地生成与期望情绪相匹配的文本输出。比如，在图 67 中，GPT-4V 能根据提示，对右侧的恐怖图像进行描述，要么让它显得更加恐怖，要么让其看起来更加舒适。这展现了 GPT-4V 在人机交流中实现情感感知的潜力。

第九章新兴应用焦点

本节中，我们将展示由 GPT-4V 的卓越能力所可能启用的各种高价值应用场景和新的用例。虽然精心策划并微调现有的视觉语言（VL）模型的训练数据可以实现某些应用场景，但 GPT-4V 的真正优势在于其开箱即用的简便性。而且，我们还将展示 GPT-4V 如何轻松集成外部工具和插件，从而进一步拓展其潜能，促使更多创新和协作应用的产生。

9.1 寻找差异

我们以一个普遍的用例开始，该用例灵感来源于经典的益智游戏“寻找差异”。在图 68 至 69 中，我们呈现了给 GPT-4V 的两张有细微差异的视觉相似图片。GPT-4V 的任务是识别这两张图片之间的所有差异。在这四个例子中，GPT-4V 成功指出了图片中哪些区域或组件有差异，但在解释每张图片具体描绘了什么方面却略显不足。以图 68 的第一个例子为例，虽然 GPT-4V 没有准确识别出差异点在发带的切口数量而非头发的颜色，但它准确指出了两图中皇冠、裙子的蝴蝶结和头发有所不同。尽管 GPT-4V 在“寻找差异”游戏中的预测不尽完美，其比较两图内容的能力在诸如缺陷检测等实际应用中是非常宝贵的，我们将在接下来的小节中进一步探索。

9.2 行业

寻找差异。

图 68：寻找差异。红色部分标出了关于差异的错误描述，更多细节参见第 9.1 节讨论。

寻找差异。

图 69：寻找差异。红色部分突显了关于差异的不准确之处，详细讨论请查看第 9.1 节。

缺陷检测

计算机视觉技术在制造业历史长河中一直扮演着重要角色，其中一个特定的应用实例就是缺陷检测，它在制造过程中确保产品质量的关键环节。及时发现并处理故障和缺陷是降低运营和质量成本的关键。

在此，我们以图 70-71 中展示的带有缺陷的产品图片为例，展现了 GPT-4V 在缺陷检测方面的能力。对于日常常见产品（如图 70 中的榛子、布料、螺丝和车辆保险杠），GPT-4V 能准确识别出小洞、剥头的螺丝和保险杠凹痕等缺陷。然而，对于图 70-71 中的不常见产品（如金属部件）或者外形多变的产品（如图 71 的药片），GPT-4V 可能会犹豫不决，甚至不愿做出预测。图 71 中的一个汽车轮胎例子很有趣，图片展示了轮胎上的多处缺陷，包括轮子上的污渍、轮辋外侧的破损以及轮胎磨损的痕迹。然而，GPT-4V 只注意到了次要缺陷（轮上的污渍），却没有指出需要维修的重大缺陷（轮辋外侧的破损）。

考虑到 GPT-4V 在第 9.1 节“找出差异”场景的出色表现，我们尝试添加一张参考图片，展示无缺陷产品的理想状态，以期改善图 71 中所示的不理想案例。图 72 展示了这一方法的成果。凭借参考图片及经过改良的提示，GPT-4V 准确识别出了单图像缺陷检测中的三个问题案例中的缺陷。这些令人鼓舞的结果显示，GPT-4V 在制造业缺陷检测方面有巨大应用价值。

单图像缺陷检测。

图 70：黄色高亮部分显示 GPT-4V 在做预测时有所保留。更多详细讨论请参见第 9.2 节。

单图像缺陷检测失败案例。

图 71：红色高亮标出 GPT-4V 的失误。详细讨论请查阅第 9.2 节。

利用参考图像进行缺陷检测。

图 72：红色高亮标出描述的不准确之处。详情请参考第 9.2 节讨论。

安全检查

图 73 探讨了运用个人防护设备（PPE）计数进行安全检查。在建筑现场等工作环境，不恰当或未佩戴 PPE（比如头盔、安全带和手套）将极大增加工作相关的风险。为了有效应对，计算机视觉技术已被引入，用以监测 PPE 的合规使用并及时发现安全规定的违反行为。以头盔为例，我们需要一个能准确识别和报告未戴头盔员工数量的安全检查系统。

在图 1(a) 里，我们直接指导 GPT-4V 去数戴头盔的人数，来评估它的性能。GPT-4V 的回应是“8 名戴头盔的人”，和图像展示的总人数一致，意味着没有安全违规的警示。然而，GPT-4V 没有发现有 3 个人没有戴头盔，这样就威胁到了他们的安全。对 GPT-4V 来说，这项任务颇具挑战性，因为它需要检测图像里的人、判断他们是否戴了头盔，并计算出没戴头盔的人数。

在图 1(b) 里，我们给 GPT-4V 提供的不是含有 8 个人的原图，而是经过外部人员检测器检测出来的个别人的裁剪区域。这样做把 PPE 计数工作分成了两步：先用现成的人员检测器进行人员检测，再利用 GPT-4V 的视觉推理能力和处理图文混合输入的能力来识别安全问题。从图中可以看出，GPT-4V 能准确数出没戴头盔的人，这也显示了工具的使用和“分而治之”策略的优点。

图 73：关于安全检查应用的亮点：个人防护设备（PPE）计数。在图 1(a) 中 GPT-4V 的表现不佳，但在图 1(b) 的单人区域图片中表现良好。红色（绿色）分别标注出错误（正确）的答案。更多详细讨论，请参见第 9.2 节。

自助结账现已在 Walmart、Target 和 CVS 等大型零售店广泛使用，旨在加快顾客结账速度，减轻员工工作压力。然而，顾客在使用自助结账机时可能感到困扰。他们还需要寻找商品条码，或为苹果等生鲜商品手动输入代码，这对于不熟悉系统的人来说，尤为耗时。在图 74 中，我们展示了一个简化原型，演示 GPT-4V 如何帮助实现一个能自动识别和结账商品，无需用户干预的自助结账系统。

当展示一张购物篮中含有五个食品的照片时（见图 a），GPT-4V 并未能准确辨认出篮内的所有物品。错误地，它把草莓误认为是树莓，把蟹肉蘸酱误认为是希腊酸奶，还错误地“发现”了照片中根本不存在的三文鱼片。然而，在图 b 中，我们通过在提示信息中加入从零售网站上找来的食品图片作为参考，GPT-4V 就成功识别了篮子里的五个物品。这次成功的尝试使得自助结账系统能继续工作，从数据库中找到每个已识别产品的价格。虽然这只是个简单的例子，但它标志着自助结账系统自动化的一个重要进展。为了让自助结账过程更自动、更便利，未来可以进行更多复杂和贴近实际情况的研究和开发。

图 74 展示了在杂货结账应用中的一些亮点：在 a 中，GPT-4V 未能准确识别，而在 b 中，有了产品参考图的提示，它成功做到了。红色标记的产品是并不在购物篮中的。更多细节请参见第 9.2 和 10.5 节。

在第 4.1 节，图 18 至图 19 展示了 GPT-4V 在理解医学图像方面的有效性。我们还深入探索了 GPT-4V 在生成放射科报告的应用，如图 75 至图 78 所示。在此，我们提供了多张医学图像，让 GPT-4V 生成完整的放射科报告。由于准确评估报告需要专业知识，我们也征求了医学专家的意见进行评估。

图 75 展示了两个实例：一张是腹部 X 光图，另一张是右膝的 MRI。在这两个案例中，GPT-4V 都准确识别出了检查类型并作出了正确的诊断。接下来，在图 76 中，我们看到 GPT-4V 为手/腕部 X 光图片生成的放射科报告。虽然 GPT-4V 根据第一张 X 光图片成功作出了推荐的治疗方案，但它却遗漏了第二张 X 光图中明显的桡骨远端骨折。然而，生成的报告格式严谨，可以作为模板，帮助医生减轻书写报告的负担。

在图 77 中，我们再看两个例子：一个是胸部 CT，另一个是脑部 MRI。在胸部 CT 的案例中，GPT-4V 错将提到的结节识别在左侧而非右侧，并且还错误地测量了其大小。GPT-4V 能够处理并引用图像和文本信息，这在医生进行诊断时是非常关键的，如 Bannur 等人在 2023 年的研究中所指出。图 78 则展示了 GPT-4V 如何通过分析多张胸部 X 光图，理解症状的进展，该技术在 Johnson 等人 (2019) 和 Bannur 等人 (2023) 的研究中有所体现。这些例子表明 GPT-4V 有潜力作为 AI 助手，协助生成放射科报告。然而，必须有专业的医生对这些 AI 生成的报告进行审核，以确保其准确无误。

放射科报告自动生成的重点展示。这些生成的报告会由医疗专家审核，以确定其是否准确无误。

图 75：放射科报告自动生成的重点展示。报告的生成内容经过医疗专家的审核确认无误。其中，绿色高亮的部分已经得到医疗专家的验证，证实报告内容准确无误。有关详细讨论，请参见第 9.3 节。此处的医学图像来源于互联网。

图 76：放射科报告自动生成的重点展示。报告的生成内容经过医疗专家的审核确认无误。其中，绿色和红色的高亮部分分别表示报告内容经过专家验证的准确和不准确之处。详细讨论，请查看第 9.3 节。图中医学图像来自网络。

图 77：放射科报告自动生成的重点展示。生成的报告经过医疗专家的审核确认。其中，绿色（红色）高亮部分分别表示专家确认报告内容准确（不准确），黄色高亮部分表示模型产生了幻觉性的判断。详细讨论，请查阅第 9.3 节。此处的医学图像来源于互联网。

带有病历诊断信息的放射科报告自动生成的重点展示。详细信息请查看相关章节。

图 78：带有病历诊断的放射科报告自动生成重点展示。相关详细讨论请参见第 9.3 节。图中所用医学图像来自于 Johnson 等人（2019）的 MIMIC 数据集。

9.4 汽车保险

在本节，我们将探索 GPT-4V 在汽车保险领域的实际应用，特别关注车辆事故报告。在这里，我们明确两个子类别：（i）伤损评估和（ii）保险报告。伤损评估的核心任务是精确识别和评估车辆的受损程度，而保险报告则涵盖了伤损识别和车辆特定信息的识别，如品牌、型号、车牌等。通过应对这两个层面，我们旨在展示 GPT-4V 在汽车保险领域的全方位能力。

伤损评估

我们向 GPT-4V 展示了一张车辆受损的图片，并指示它“想象你是一位车辆伤损评估的专家，请根据下图评估车辆的伤损程度。”（见图 79）。GPT-4V 准确并精确地识别和定位了四张图片中的所有伤损，并详细描述了每个伤损实例。在某些情况下，GPT-4V 甚至提供了修理可能的成本估算。

保险报告

基于伤损评估的成功，我们修改提示，要求 GPT-4V 识别图片中车辆的品牌、型号和车牌，并以 JSON 格式返回获得的信息（见图 80）。GPT-4V 成功提取了所有请求的信息，尽管有时某些信息（如修理成本）可能无法获得，或因遮挡而难以识别（如第二张图片的车牌）。需要注意，实际的保险报告通常需要多角度的车辆图片，这些通常不容易在网络上找到。然而，图 79 至 80 的示例清晰地展示了 GPT-4V 在车辆事故保险报告自动化方面的巨大潜力。

汽车损害评估的应用要点。更多详细讨论请见第 9.4 节。

图 79：汽车损害评估的应用要点。想了解更多，请查阅第 9.4 节的详细讨论。

保险报告应用要点。在图 80 中，红色高亮文字部分，GPT-4V 未能识别车牌，可能是因为视线被遮挡。详细讨论请参见第 9.4 节。

9.5 个性化图像说明创建工具

图片整理

想象一下，你有一个家庭相册。我们展示了 GPT-4V 如何通过生成字幕来增强相册的质量，这些字幕清晰地标明照片中每个家庭成员的名字。如图 81-82 所示，这种个性化方式使得图片的整理更为精确和个性化。GPT-4V 根据每个家庭成员的视觉提示以及他们的名字，准确地识别出每个家庭成员（包括人、猫和狗），生成详细且个性化的字幕。保存这样的字幕可以使得家庭相册中的所有图片能够实现高度个性化的搜索。比如，用户可以搜索“一张包含 Linda、Cotton、Max、Sam 和 Emma 的家庭照”，轻松定位到图 81 中的相应家庭照片，或者搜索“Max 躺在 Sam 和 Emma 之间”，然后找到图 82 中的家庭照片。

带分段的密集图像说明

我们通过运用 Kirillov 等人 (2023) 和 Zou 等人 (2022, 2023b) 提出的强效分割模型，展示了 GPT-4V 在密集图像说明（dense captioning）任务上的卓越表现。图 83 展示了，在输入提示中融入由 SAM (Kirillov 等人，2023) 生成的物体剪裁（object cut-outs），能更精细地为各个关注物体生成详细的说明文字。除此之外，我们还提供了原始图像作为全局背景，并要求模型详细描述四个物体剪裁，同时引用背景图像中的相关内容。

从结果来看，GPT-4V 能够为每个物体生成详尽复杂的密集说明文字，其中一些还伴有与背景图像有关的参考信息。例如，在描述第三个物体（一只青蛙）时，虽然对应的物体剪裁图像中并没有蜗牛，但密集说明中提到了一张青蛙头上停着蜗牛的特写照。类似地，当描述第四个物体（一只乌龟）时，GPT-4V 能够识别背景图像中的信息，指出乌龟正在水中漂浮，从而使生成的说明文字更加丰富多彩。

图 81: 一种定制的照片组织用说明生成器（Customized Captioner），其参考图像是直接从查询图像中剪裁出来的。在这个图示中，家庭名字的部分用蓝色突出显示。想了解更多细节，可以参见第 9.5 节和第 10.5 节的讨论。

图 82: 另一种定制的照片组织用说明生成器，只不过它的参考图像是从与查询图像不同的图像中剪裁出来的。这里，家庭名字的部分同样用蓝色突出显示。更多细节可以参见第 9.5 节的讨论。

图 83：SAM Kirillov 等人 (2023) 提出的密集字幕带分割剪裁效果展示。其中蓝色部分突出标示了与上下文图片的相关引用内容。想了解更多细节，可参见第 9.5 节讨论。

9.6 图像生成

本节我们将连接到多模态研究的另一个重要领域：视觉合成。深入探讨图像生成的领域，我们将探讨 GPT-4V 如何通过多个路径（包括评估和引导）在这个领域发挥作用。

生成图片的评价

图 66 在第 8.2 节展示了 GPT-4V 在评判图片美观度方面的表现。在这里，我们详细说明了如何利用 GPT-4V 来评价生成图片的质量，依据其与文本生成提示的一致性，这一创意来自于 RL-Diffusion Black 等人 (2023)。RL-Diffusion 采用了 VL 模型 LLAVA Liu 等人 (2023b)，用于描述生成的图片，然后运用 BERT Devlin 等人 (2019) 计算文本提示与图片描述之间的相似度。得出的相似度分数则作为反馈信号，用于通过强化学习 (RL) 指导扩散模型的训练过程。值得一提的是，图 84-85 显示了 GPT-4V 能够单独有效评价生成图片与文本提示之间的相似度，并且 GPT-4V 为相似度分数的降低提供了合理解释，这些解释可以作为改进图片生成的有效反馈。

图 84 展示了通过询问“图像中发生了什么？请在 1 至 10 的范围内，对图像与‘鹦鹉开车’这一文本提示的相似度进行评分。”来评估图像相似度的情况。在这个评估中，GPT-4V 给与与提示最不相符的图像（一只跃动的海豚）1 分，而给与与提示最匹配的图像 9 分。值得关注的是，图 84 中最后三张图像在 RL-Diffusion 中展示了文本提示“鹦鹉开车”逐渐优化的生成结果，而 GPT-4V 对这三张图像的评分（4 → 8 → 9）也与这一优化过程相吻合。

图 85 展现了一组在蛋糕上渲染文本的图像生成效果，并对其进行了评估。GPT-4V 利用其卓越的光学字符识别（OCR）技能，精确地识别了生成图像中的文字，如“Azuze Research”、“ARAUIE”和“Azure Azure”，并将其与文本提示“Azure Research”进行了对比。

图 84: 让 GPT-4V 对生成的图像与文本提示的相似度进行 1 到 10 的评分，其中蓝色部分突出显示了 GPT-4V 的评分。最后三张图像是根据 RL-Diffusion Black 等人 (2023) 的方法生成的。更多细节请参阅第 9.6 节。

图 85: 让 GPT-4V 对生成的图像与文本提示的相似度进行 1 到 10 的评分，蓝色部分突出显示了 GPT-4V 的评分，红色和绿色则分别标记了错误和正确的文本渲染。这些图像由 DeepFloyd IF 32, Midjourney V5.1 89, SDXL Rombach 等人 (2022), 和 ReCo Yang 等人 (2023b) 生成。更多细节请参阅第 9.6 节。

提示生成图像编辑

GPT-4V 不仅在评估生成的图像方面表现出色，还拥有一项宝贵的特性，能大幅度增强图片编辑的效果。通过产生或重写编辑用的文字提示，GPT-4V 能精细调整编辑过的图片，呈现出更加吸引人的视觉效果。图 86 为我们示范了如何发挥 GPT-4V 的强大能力，生成专为图片编辑量身定做的文字提示。只需提供原图和描述期望编辑效果的文字说明，GPT-4V 即可产生一个经过优化的、专为当前任务准备的提示。这个精心优化的提示充分考虑了图片的独特属性，保证了编辑步骤的精准和有效。

图 87 进一步展示了 GPT-4V 的另一使用场景：通过重构编辑提示，改进图片编辑效果。GPT-4V 考虑原图、最初的提示和已编辑图片，生成一个整合了先前编辑更改的优化提示。用户可以反复交替执行图 86-87 中描绘的步骤，逐步完善编辑效果，直至获得满意的结果。通过这一迭代过程，有望大幅提升图片编辑的总体质量，赋予用户更多的操作控制权和创意自由。

根据所给原始图片和文本需求，我们对图像编辑的文本提示进行了优化。

图 86：这个图片展示了在已有原始图像和文本需求的情况下，我们是如何优化图像编辑文本提示的。其中，蓝色高亮的部分是 GPT-4V 提供的建议编辑提示。原始图像和示例编辑提示取自 2023 年 Brooks 等人的 Instruct Pix2Pix。想要查看详细讨论，请参考第 9.6 节。

考虑到已有的原图、编辑提示和编辑后的图片，我们优化了编辑提示。

图 87：该图片展示了在给定原图、编辑提示和编辑后的图片的情况下，对编辑提示的优化过程。其中蓝色高亮部分为 GPT-4V 提供的编辑提示建议。所有图片，包括原图、编辑提示和编辑后的图片，均来自 2023 年 Brooks 等人的 Instruct Pix2Pix。更多的讨论内容可参考第 9.6 节。

9.7 人工智能实体

在这一节中，我们将深入探索 GPT-4V 在人工智能实体应用方面的潜力及其带来的重要影响，它将有望成为连接静态输入多模态理解和动态环境物理交互之间的桥梁。作为示例，我们设想了一个场景：GPT-4V 扮演一个家庭机器人的角色。在这个场景中，我们可以看到 GPT-4V 如何读取和操作家用电器（比如，咖啡机）的菜单，并导航房屋执行特定任务。

操作设备

想象一下，你刚购买了一台崭新的咖啡机，让你感到惊喜的是，你的家庭机器人 GPT-4V 已经学会了如何帮你操作它。在我们的实验中，我们提供了一张包含插图和文字的操作菜单图片（图 88）给 GPT-4V。我们要求 GPT-4V 找出与咖啡机操作面板上的“8 OZ 咖啡”选项对应的按钮。出乎意料的是，GPT-4V 不仅成功找到了“8 OZ 咖啡”按钮，还识别出了“10 OZ 咖啡”的按钮。然而，可能是由于菜单和咖啡机上“6 OZ 咖啡”选项的位置导致的视觉混淆，GPT-4V 错误地将电源按钮识别为了“6 OZ 咖啡”的按钮。为了解决这一问题，我们采取了一种方法：单独展示每个按钮的操作菜单，并将这些菜单一起呈现给 GPT-4V（图 89）。经过这种调整，GPT-4V 现在能够准确地识别出“6 OZ 咖啡”按钮的准确位置。

阅读完整的咖啡机按钮目录后，GPT-4V 能精准选择制作 8 OZ 咖啡的正确按钮。

图 88：在阅读完整的咖啡机按钮目录后，GPT-4V 能够精确选中用于制作 8 OZ 咖啡的按钮。图中用绿色（红色）突出显示正确（错误）的选择。更多详细讨论，请参见第 9.7 节。

通过将咖啡机的完整按钮目录转换成交错的图文指导后，GPT-4V 成功识别出制作 6 OZ 咖啡的正确按钮，这在仅有完整菜单指导时是无法实现的。

图 89：在将完整的咖啡机按钮目录转换为图文交错指导后，GPT-4V 成功选中制作 6 OZ 咖啡的按钮。图中用绿色标出正确选项。详细讨论可参见第 9.7 节。

导航部分，为了测试导航功能，我们利用 Redfin 虚拟房屋导览，以此模拟实体代理可以互动的环境。我们的目的是检验 GPT-4V 在具体任务场景下的表现。图 90-91 展示了一个例子，GPT-4V 最初接收到虚拟房屋导览的入口图片，该图片显示了从房间一角到客厅的视野。我们指派给 GPT-4V 的任务是“前往厨房，从冰箱取出一样物品”，通过这个任务，我们希望引导 GPT-4V 预测接下来的操作。

如图 90 所示的上半部分，GPT-4V 在导航的第一步预测了起始动作，即“向右转，朝走廊方向前行”。GPT-4V 是基于一个假设做出这一预测的，也就是厨房很可能位于那个方向。我们手动通过一个视觉房屋导览界面实现了这个动作，并记录下了动作执行后的画面，这个画面随后用于指引 GPT-4V 的下一步动作，如图 90 下半部分所示。在整个过程中，我们一直记录着上一个转弯的信息，为 GPT-4V 后续的动作提供了必要的上下文。

随着导航的进行，我们成功地在第三次转弯时找到了冰箱，正如图 91 下半部分显示的查询图片。GPT-4V 预测的最终动作是：“前行并稍左移动，以便与冰箱门对齐，然后用机械臂打开冰箱门，取出所需物品”。这一果断的动作标志着 GPT-4V 在这次任务导向的导航场景中取得了成功。

图 90: 一个拥有实体的智能体（即机器人）在房屋内导航，目的是到冰箱取东西（涉及第一和第二次转弯的过程）。蓝色高亮部分显示了预测的动作。更多细节可以参见第 9.7 节的详细讨论。

图 91: 该智能体继续在房屋内导航，直至到冰箱取东西（涉及第三和第四次转弯的过程）。预测的动作用蓝色高亮标出。更多细节请参见第 9.7 节的详细讨论。

9.8 GUI 导航

本节不仅介绍了 GPT-4V 在实体世界导航方面的能力，更重点展现了其在计算机或手机的图形用户界面（GUI）上的互动和导航才能。我们进一步探讨了 GPT-4V 完成如网络浏览、网上购物等复杂任务的可能性。

网络浏览

在一个面向任务的环境中，我们评估了 GPT-4V 在计算机 GUI 导航的性能。测试过程中，模型接收到当前计算机屏幕的截图，明确的导航目标（比如寻找食谱或阅读今日新闻），以及一系列可能的操作（如移动鼠标，点击图标，或键入文本）。模型则需要预测接下来的动作（详细的操作提示可以参见图 92）。在模型预测之后，我们会手动执行预测动作，并进行屏幕截图，作为 GPT-4V 下一步的输入。当需要移动鼠标的时候，模型会被特别指示来描述鼠标应该在哪个位置。因此，所有预测动作都是切实可行的，展现了无需人工参与即可自动完成整个过程的潜力。

在图 92 至 96 中，我们可以看到 GPT-4V 预测出一系列合理的动作，成功操作计算机图形用户界面（GUI），最终达到了查找并打印麻婆豆腐食谱的目的（详见图 95）。然后，我们展示了一张打印出的食谱截图给 GPT-4V，它成功详细识别出了打印品上的烹饪时间、所需食材、食谱的作者和原食谱链接等信息（见图 96）。图 97 至 102 揭示了 GPT-4V 如何巧妙地浏览网页，阅读“今日新闻”。虽然在返回前一搜索结果页面，继续浏览更多新闻时（图 100），出现了轻微的错误，但 GPT-4V 还是成功导航并合理地阅读了两篇新闻。

在线购物

图 103 至 111 展示了 GPT-4V 如何操作智能手机界面完成购物流程。我们展示了给 GPT-4V 的手机屏幕截图和可能的操作动作列表（比如移动到图标，点击图标，下滑屏幕，或者使用键盘输入文本），以及购买一款 50 至 100 美元预算范围内的人体工学键盘的任务。在此过程中，GPT-4V 预测了依次打开 Amazon App（图 103），搜索人体工学键盘（图 104），打开过滤选项（图 105），设置 50 至 100 美元的价格过滤（图 106），展示过滤后的结果（图 107），选择搜索排名第一的产品（图 108），查看商品详情（图 109），将商品加入购物车（图 110）并进行结账（图 111）的完整操作流程。

理解通知

通知在现代的人机交互中起着核心作用。GPT-4V 已证明了它能理解通知的内容并作出合适的反应。如图 112 所示，该模型能读取并响应通知，比如对于在西雅图的会议提议，它会建议用户打开 Maps 应用。此外，它还能有效地处理电脑屏幕上的来电（图 113）和信息（图 114）通知。

观看视频

视频是网络浏览旁的另一大在线信息来源。GPT-4V 已展示了根据热门短视频截图来描述视频内容的能力。无论视频是否叠加字幕（图 115 和 116），或者没有字幕（图 117，118，119），GPT-4V 都能提供关于视频内容的深刻理解，显示出其在用户上传视频内容自动转录方面的潜力。

GPT-4V 通过 GUI 浏览网页搜索麻婆豆腐食谱。

图 92：模型 GPT-4V 通过图形界面（GUI）浏览网页搜索麻婆豆腐食谱，其中蓝色部分突显了预测的操作动作。更多详细讨论请参见第 9.8 节。

图 93：GPT-4V 通过 GUI 在网络上搜索麻婆豆腐的食谱，蓝色部分标出了预期的操作动作。有关详细讨论，请参见第 9.8 节。

图 94：GPT-4V 通过 GUI 在网络上搜索麻婆豆腐的食谱，蓝色部分标出了预期的操作动作。有关详细讨论，请参见第 9.8 节。

图 95：GPT-4V 通过 GUI 在网络上搜索麻婆豆腐的食谱，蓝色部分标出了预期的操作动作。有关详细讨论，请参见第 9.8 节。

GPT-4V 利用图形用户界面（GUI）在网络上搜寻麻婆豆腐的制作食谱。在预见到将食谱打印出来之后，我们要求 GPT-4V 阅读打印食谱的截图，并进行总结。

图 96：GPT-4V 通过 GUI 操作，在网络上搜索麻婆豆腐的食谱。在预测将食谱打印出来后，我们要求 GPT-4V 阅读食谱截图，并进行概括。红色高亮部分标出了对图像描述的不准确之处。更多详细讨论见第 9.8 节。

GPT-4V 通过 GUI 浏览网页，阅读当日的新闻。

图 97：GPT-4V 用 GUI 浏览网络阅读当日新闻。预测的动作用蓝色高亮标出。更多讨论请查阅第 9.8 节。

图 98：GPT-4V 用 GUI 浏览网络阅读当日新闻。预测的动作用蓝色高亮标出。更多讨论请查阅第 9.8 节。

图 99：在我们的提示下，GPT-4V 阅读了第一篇新闻文章的截图，并进行了总结。更多详细讨论见第 9.8 节。

在阅读完第一篇新闻后，GPT-4V 计划关闭该页面并返回前一页面继续浏览其他新闻，这一动作用蓝色高亮标出。

图 100：在阅读完第一篇新闻后，GPT-4V 预测会关闭页面并返回，继续查看其他新闻（蓝色高亮部分）。不准确的动作预测用红色高亮显示。更多详细讨论见第 9.8 节。

GPT-4V 利用图形用户界面（GUI）浏览网络读取今日新闻。

图 101：GPT-4V 通过图形界面浏览网页，查看当天新闻。预计的操作步骤用蓝色突出显示。更多详细讨论请参见第 9.8 节。

GPT-4V 利用图形用户界面读取今日新闻。我们要求 GPT-4V 浏览第二条新闻的截图并进行摘要总结。详情请参见相应章节。

图 102：GPT-4V 在图形界面下阅读第二篇新闻的截图并进行总结。更多细节请查阅第 9.8 节。

GPT-4V 使用 GUI 进行在线购物，寻找符合人体工学的键盘。

图 103：GPT-4V 在线选购人体工学键盘。预计的操作步骤用蓝色突出显示，而 Amazon 图标不准确的位置则用红色标出。具体细节请查阅第 9.8 节。

GPT-4V 使用 GUI 在线选购人体工学键盘。

图 104：GPT-4V 利用图形界面在线选购人体工学键盘，蓝色部分强调了预期的操作。更多相关讨论，请参见第 9.8 节。

图 105：GPT-4V 利用图形界面在线选购人体工学键盘，蓝色部分强调了预期的操作。更多相关讨论，请参见第 9.8 节。

图 106：GPT-4V 利用图形界面在线选购人体工学键盘，蓝色部分强调了预期的操作。更多相关讨论，请参见第 9.8 节。

图 107：GPT-4V 利用图形界面在线选购人体工学键盘，蓝色部分强调了预期的操作。更多相关讨论，请参见第 9.8 节。

GPT-4V 正通过图形用户界面（GUI）在线挑选人体工程学键盘。

图 108：GPT-4V 正在线选购人体工程学键盘，操作预测以蓝色高亮，而红色高亮则标出了产品选项被选位置的误差。更多详细讨论请参见第 9.8 节。

图 109：在 GPT-4V 在线选购人体工程学键盘的过程中，预测的操作以蓝色标注，不过“Buy New”按钮的预测位置是不准确的（并非可点击的按钮）。详细信息请参阅第 9.8 节。

图 110：图示 GPT-4V 在线选购人体工程学键盘，预测操作以蓝色高亮。详细讨论可参见第 9.8 节。

图 111：在 GPT-4V 购键盘的过程图中，预测操作以蓝色标注，而“Proceed to checkout”按钮位置的红色高亮显示了位置不准确。详情请查第 9.8 节。

图 112：GPT-4V 收到通知并进行操作预测，能准确识别通知及其内容（绿色高亮）。预测操作以蓝色标出，而 Maps app 图标的位置误差则以红色标出。更多细节请参见第 9.8 节。

图 113: 当 GPT-4V 收到通知时，系统会引导其进行动作预测。GPT-4V 能精准识别通知及其相关内容（绿色高亮部分见图 113）。蓝色高亮处展示了预测出的动作，而红色高亮则标出了 Maps app 图标位置的不准确之处。更多详细讨论见第 9.8 节。

图 114: 系统在 GPT-4V 收到通知时，会引导其预测接下来的动作。GPT-4V 能够准确地识别通知和相关内容（参见图 114 的绿色高亮部分）。预测的动作由蓝色高亮标出。详细讨论请参见第 9.8 节。

图 115: 我们引导 GPT-4V 观看网络视频时，按照视频的时间顺序展示了各个视频帧的截图给 GPT-4V 看。为了更加简洁，我们将这些帧排成一行，左侧的是第一帧（见图 115）。红色高亮部分标出了对视频描述的不准确之处。详细讨论见第 9.8 节。

图 116：网上视频观看实例。我们呈现了 GPT-4V 视频帧的截图，顺序与原视频一致。为简洁呈现，我们将视频帧一行排列，左起即为首帧。更多讨论详见第 9.8 节。

图 117：网上视频观看实例。图展示了 GPT-4V 捕获的视频帧，按照在原视频中出现的时间顺序排列。为简洁，我们将第 1-5 帧放在上一行，6-9 帧放在下一行。详情请查阅第 9.8 节。

图 118：网上视频观看实例。这里展示了 GPT-4V 视频帧的截图，帧的顺序与原视频一致。第一行展示了 1-5 帧，而第二行展示了 6-9 帧。详细内容请参阅第 9.8 节。

图 119：网上视频观看实例。我们呈现 GPT-4V 的视频帧截图，顺序与原视频一致。为简洁呈现，上一行是 1-5 帧，下一行是 6-9 帧。红色部分标出了关于视频的不准确描述。更多详情请见第 9.8 节。

第十章 LMM 动力代理

本节探讨了可能提升 GPT-4V 性能的未来研究方向，重点在于 LLM 如何将其独特应用拓展至多模态场景，从而赋予其全新能力，如多模态插件、多模态链条、自省、自恰和检索增强 LMM 等。以下子节利用人工生成的示例，展示增强基于 GPT-4V 系统的多种可能路径。

图 120: 使用 Bing Image Search Microsoft（2023）插件赋予 GPT-4V 实时知识（图底，绿色高亮部分）。值得注意的是，2023 年 2 月 6 日发生了一次地震，时间在 GPT-4V 完成训练之后。因此，没有插件支持的 GPT-4V 无法确认具体地点（图顶部）。详细讨论请参见第 10.1 节。

借助 ReAct 实现 GPT-4V 多模态链的扩展

图 121：借助 ReAct Yao et al.（2022）及 Yang et al.（2023a），GPT-4V 能够扩展至 PPE 计数场景的多模态链。详细讨论请参见第 10.2 节。

10.1 多模态插件

在 LLM 领域，插件（参见 Nakano et al.（2021）、Huang et al.（2022）、Ahn et al.（2022）、Schick et al.（2023）、Lu et al.（2022b）、Paranjape et al.（2023））在辅助 LLM 完成如获取最新信息、执行计算或使用第三方服务等任务中起到关键作用。这些插件主要处理自然语言输入或可译为语言的输入，如代码和数学公式。为突显多模态插件，如 Bing Image Search Microsoft（2023）在 LMM 场景下的重要性，我们呈现了图 120。通过集成 Bing Image Search 插件，我们让 GPT-4V 能够获取与输入图片相关的实时信息。图像上方部分展示了没有 Bing Image Search 插件时 GPT-4V 的局限，无法准确回答“此照片拍摄地点在哪？”的问题，因为照片记录了发生在 GPT-4V 训练结束后的 2023 年 2 月 6 日的土耳其和叙利亚边界的大地震。由于持续用当前信息对模型进行训练既耗时又昂贵，搜索引擎等插件成为获取最新信息的重要工具。图 120 的下方部分展示了装备 Bing Image Search 插件后的 GPT-4V，它有效利用插件检索到的信息，准确确定了照片拍摄地为土耳其伊兹密尔。

10.2 多模态链

近期的多项研究，如 Yao 等人 (2022)、Gao 等人 (2023) 和 Qin 等人 (2023) 所展示的，深入探索了与 LLMs 的串联使用方法。此种方法不仅仅局限于使用单一插件，反而构建了一个系统范式，它将 LLMs 与一系列插件整合在一起，以便实现更精细的推理和交互功能。当用如图像描述器、物体检测器或经过精心训练的文本至图像生成和音频至文本转换模型等视觉或多模态专家替代仅处理语言的插件时，我们便能与 LLMs 一道，构建起强大的多模态链。

然而，在这些链中，LLMs 和插件之间的互动主要是以文本形式进行的。尽管插件可以接受多种形式的输入，它们返回的结果却仍是文本形式，以增强 LLMs 的知识。唯一的例外是在图像合成/编辑的场景中，如 Wu 等人 (2023) 所述，插件可以生成图像，但这些图像并不用于进一步供 LLMs 分析或增强知识，因为 LLMs 只能处理语言输入。

图 121 展示了 GPT-4V 如何扩展以支持与 ReAct (参见 Yao 等人 [2022] 和 Yang 等人 [2023a]) 的多模态链。通过这一扩展，链中的插件能提供多模态信息，进而被 GPT-4V 集中处理，以在如 PPE 计数这样的场景中进行高级推理。如图 121 所示，整个串联过程分为两轮，包括思考、行动和观察，每一轮都激活了特定的插件。在第一轮，GPT-4V 判断需要进行人员检测以统计佩戴头盔的人数（思考 1），于是调用人员检测工具（行动 1），并得到图片中每个检测到的人的边界框坐标（观察 1）。进入第二轮，根据得到的边界框信息，GPT-4V 推断出图片中总共有 8 个人（思考 2）。然后，它使用图像裁剪工具，根据每个人的边界框坐标裁剪出各自的图片（行动 2）。结果输出（观察 2）包含 8 张编号的图片，从图片 1 到图片 8。最终，GPT-4V 分析每个人是否佩戴头盔，并总结出佩戴头盔的人数。

总的来看，通过 LMMs 与多模态插件的整合，我们开创了一种结合语言和视觉两大优势，以增强推理和交互的新方式。多模态链条的灵活性使我们能够更深入地理解和分析多模态数据，进而可能优化各种应用的性能。

10.3 自我反思

如图 122 所示，通过自我反思 Shinn 等人 (2023); Madaan 等人 (2023); Kim 等人 (2023)，改进了图 47 的结果。可以看出，经过自我反思后，结果更接近参考图像。例如，左侧的数据点数量从 4 个调整为 3 个，右侧则在条上方添加了百分比。虽然经过调整的结果并非完全一样，但很明显，通过自我反思，我们可以更容易手动优化结果。图 123 是另一个例子，展示了自我反思如何帮助改进文本到图像模型 Podell 等人 (2023) 的提示生成。

图 122: 是一个使用自我反思改进绘图代码的例子。左侧：经过反思后，曲线上的数据点数量与参考图像相匹配。右侧：添加了百分比，使其与参考图像相符。详见第 10.3 节。

图 122：使用自我反思改进绘图代码的例子。左侧：经过反思后，曲线上的数据点数量与参考图像相匹配。右侧：添加了百分比，使其与参考图像相符。详细讨论请参见第 10.3 节。

图 123 展示了使用自我反思改进文本到图像模型 SDXL 生成文本提示的例子。

图 123：通过自我反思改进文本到图像模型 SDXL Podell 等人 (2023) 的文本提示生成的例子。GPT-4V 发现了初始提示中的一个错误：没有提及狗的品种，并进行了正确的修正。详细讨论请参见第 10.3 节。

通过自洽性增强计数的可靠性

图 124: Wang 等人（2022c）提出通过自洽性增强计数的可靠性，该方法通过集合同一图像的多次计数结果来实现。详细讨论见第 10.4 节。

10.4 自洽性

根据 Wang 等人（2022c）的研究，自洽性是一种解码策略，它集合多个样本输出以得出最终答案，如采用多数票方式。Yao 等人（2023）在其 Tree-of-Thoughts 的研究中展示，将自洽性思想应用于中间思考过程，可以有效提升 LLM 的推理性能。图 124 详细展示了在 GPT-4V 上应用自洽性解决计数问题的实例。我们通过要求 GPT-4V 多次对同一图像进行计数，或者通过多次运行（样本 2-4）或者重述输入文本指令（样本 1,2），从而得到多个计数结果。然后，通过简单的多数票策略，我们得出了“4 艘船”的最终答案。关于自洽性 LMM 的更多探索，将在未来的研究中进行。

10.5 检索增强型 LMM

检索增强型 LMM 由 Mialon 等人（2023）、Lewis 等人（2020）、Guu 等人（2020）、Borgeaud 等人（2022）、Shi 等人（2023）、Peng 等人（2023）共同提出，该技术通过检索和整合相关信息来增强文本生成能力。当需要特定领域的专业知识、最新信息或者用户定制的信息时，该技术显得尤为重要。我们预见检索增强技术将继续在 LMM 中发挥核心作用。例如，图 74 中展示了检索增强型 LMM 在协助超市结账时的应用。由于每家商店的产品的图像、文本和价格都有所不同，从商店的数据库中检索相关信息，将有助于提供准确的结账信息。同样，在图 81 的场景中，系统可以从相册中自动检索家庭成员的照片，以实现定制化的字幕功能。

第十一章结论

11.1 总结与结论

报告主要探讨了 GPT-4V 在不同场景下的表现和能力。发现中，GPT-4V 展现出了一系列卓越的能力，其中有些是前人未曾探讨或证实的。我们虽努力展示这些能力，但报告可能并未涵盖所有细节。不过，报告足以作为未来研究的起点，帮助深入了解 GPT-4V 的潜力、提高对 LMM 的理解，并助力构建更为强大的 LMM。

11.2 未来 LMM 的发展方向

GPT 模型的不足和限制已在 OpenAI (2023a, b) 和 Bubeck 等人 (2023) 的相关报告中有详细讨论。这一部分我们简要介绍未来可能的研究方向。

GPT-1、GPT-2 和 GPT-3 主要作为文本输入输出系统，仅处理自然语言。而 GPT-4（无视觉）在文本理解和生成方面表现卓越，GPT-4V 则在图像领域也展现出了强大的理解能力。

LMM 在未来应能创建包含文本和图像的内容，比如生成图文并茂的教程，实现多模态内容的全面理解和生成。另外，考虑集成更多模态，比如视频、音频和传感器数据，也是拓宽 LMM 能力的重要步骤。

目前，大多数学习方法主要依赖于整理良好的数据，如图像 - 标签或图像 - 文本数据集。然而，未来的模型应能从不同的来源学习，包括网上内容甚至现实世界环境，以实现持续的自我完善和发展。

致谢

我们对 OpenAI 表示深切的感谢，感谢他们让我们提前使用了这个非常优秀的工具。我们特别要感谢 Misha Bilenko，他的指导和支持对我们来说是无价之宝。同时，我们也要向我们在 Microsoft 的同事们表示感谢，他们的见解给了我们很大的帮助。在此，我们特别要感谢 John Montgomery、Marco Casalaina、Gregory Buehrer、Nguyen Bach、Gopi Kumar、Luis Vargas、Kun Wu、Meenaz Merchant、Jianfeng Gao、Matt Lungren、Sheela Agarwal、Yumao Lu、Thomas Soemo、Fisayo Okikiolu、Ce Liu、Michael Zeng、Faisal Ahmed、Ehsan Azarnasab 和 Lin Liang，他们给了我们非常有建设性的反馈。最后，我们也要感谢 Yingkai Yu，他在创建 GUI Navigation 屏幕截图方面给予了我们很大的帮助。