什么是多模态大语言模型(MLLM)?[译]

本文翻译自 Tenyks 的官网

本文将介绍多模态大语言模型(MLLMs)[1],展示它们在各种高难度提示(prompt)下的应用,并介绍目前正在重塑计算机视觉领域的顶尖模型。


什么是多模态大语言模型(MLLM)?

从简单的角度来讲,多模态大语言模型(MLLM)是结合了大语言模型(LLM)推理能力(如 GPT-3 [2] 或 LLaMA-3 [3])与多模态信息(包括视觉、音频或视频等)接收、推理和输出能力的模型。

下图(图1)展示了医疗保健领域的多模态 AI 系统示例 [4]。它接收两个输入:1)医学影像,2)文本查询:“这张影像中是否存在胸腔积液?”。系统输出包括对给定查询的回答(即预测结果)。

图1. 将放射学视觉编码器与 LLM 进行对齐后构建的多模态医学系统 [4]

在本文中,我们有时会直接使用“多模态模型”一词来指代 MLLM。

人工智能中多模态的崛起

过去几年里,人工智能领域发生了重大变革,其中最主要的推动力之一是基于 Transformer [5] 的语言模型的兴起 [6]。自谷歌在 2017 年提出该架构以来,Transformer 也对计算机视觉领域产生了深远影响。

其中一个早期例子就是 Vision Transformer(ViT)[7],它使用 Transformer 将图像分割为多个小块(patch),并将这些小块视作独立的视觉“tokens”进行输入表示。

图2. 2022 年至 2024 年间出现的一些多模态大语言模型(MLLM)

随着大语言模型(LLM)的发展,一种新型的生成式模型——多模态大语言模型(MLLM)也应运而生。

如图2 所示,2023 年大部分大型科技公司都至少推出了一款多模态模型。2024 年 5 月,OpenAI 发布了 GPT-4o,引起了广泛关注。

MLLM vs VLM vs 基础模型

有些人认为 MLLM 实际上就是基础模型(foundation model)的一种。例如,在 Google 的 Vertex AI 中,就将 Claude 3、PaLI-Gemma 或 Gemini 1.5 这样能够处理多模态的模型称为“基础模型”。

另一方面,视觉语言模型(VLM)[8] 则是一类融合了文本和图像输入,并能够生成文本输出的多模态模型。

二者之间的主要区别在于:

  1. 多模态模型(MLLM)可以处理不止文本和图像,还包括音频、视频等更多模态;

  2. VLM 在推理能力上通常不及多模态大语言模型(MLLM)。

架构

如图3 所示,MLLM 的架构一般分为三个部分:

  1. 模态编码器(modality encoder):编码部分将原始数据(如视觉或音频)转换为更简洁的表示形式。常见做法是使用已经在其他任务或数据上预训练好的编码器(例如 CLIP),而非从头开始训练。

  2. LLM 主干(LLM backbone):即语言模型部分,用于输出文本形式的响应。它相当于 MLLM 的“核心大脑”。编码器会输出图像、音频或视频的特征,然后通过“连接器(connector)”或“模态接口(modality interface)”提供给语言模型。

  3. 模态接口(connector):它是编码器与 LLM 之间的中间环节或桥梁。由于 LLM 只能处理文本格式,所以该部分的关键在于如何有效地将来自其他模态的信息与文本对齐。

图3. 多模态理解:多模态发展的第一阶段组件示意图


多模态模型在计算机视觉中的应用和使用场景

我们没有简单列举这些模型能在哪些场景表现出色,而是借助三个顶尖 MLLM,设计了具有挑战性的提示(prompt)来让它们回答(不再是简单的猫狗识别):

  • GPT-4o [9]:2024年5月发布的 OpenAI 最强多模态模型,我们通过 OpenAI 的 Vision API 访问其视觉功能。

  • LLaVA 7b [10]:基于开源的 LLaMa 模型,并结合了视觉编码器与 Vicuna 的多模态模型,可在通用视觉和语言理解任务上表现优异,有时甚至接近 GPT-4 水平。我们在 Jarvislab 上通过启动 Ollama 实例来使用它。

  • Apple Ferret 7b [11]:由苹果推出的一款开源多模态大语言模型(MLLM),其特色在于“空间理解(spatial understanding)”能力,通过引用(referring)与“落地(grounding)”机制来识别并描述任意图像中的形状位置,对更细粒度的目标拥有精准理解。我们同样在 JarvisLab 上启动 Ferret 实例进行测试。

在遮挡情况下统计目标数量

图4 展示了将这些模型应用在工地安全帽统计的场景中的表现。该场景具有一定挑战性:有一顶安全帽被遮挡了。

图4. Apple 的 Ferret 模型是唯一能正确识别并定位所有安全帽(包括被遮挡的那一顶)的模型

虽然 GPT-4o 能对场景做出非常详尽的描述,但它输出的安全帽坐标是错误的,其中一些坐标甚至超出了图像本身范围。正因如此,我们只能在右下角看到一个落在正确位置的矩形框。

开源模型 LLaVA 同样没能检测到全部四顶安全帽(左侧那顶被遮挡的安全帽漏检),并且对检测框的坐标也有错误。

令人惊喜的是,Apple Ferret 能正确检测到四顶安全帽,甚至包括左侧那一顶被遮挡的安全帽。

自动驾驶:理解并规划风险

我们选取了一帧来自自动驾驶数据集的图像,然后给了模型一个难度较高的提示:它需要从自动驾驶汽车的角度评估图中的风险,并同时识别车辆和行人(图5)。

图5. 需要识别目标并评估风险的高难度提示:相比 GPT-4o,Apple Ferret 的表现更出色

结果显示,LLaVA 并不能很好地完成此任务:它没有识别到前方那辆大卡车,出现了“幻觉式”漏检。难道开源模型在难度稍高的任务上真的都不够稳定吗?

GPT-4o 虽然能输出较为详尽的文本推理,但在定位目标的坐标方面依旧表现不佳。相比之下,Apple Ferret 几乎是三个模型中唯一能比较准确地检测到绝大部分物体,并且给出了较为准确的边界框坐标。

体育分析:检测目标并理解场景

目前看来,Apple Ferret 在数数及检测目标上都展现出了不错的表现。现在让我们把目光转向一个更具挑战性的场景:体育分析。

通常,对于足球比赛中的球员检测,像 YOLO 这类单一模态、经过专门微调的架构往往表现非常好。那么,多模态大语言模型能否也在这一任务上有所建树?

图6. 用于测试三款 MLLM 的足球比赛场景

示例 3. 问题/提示:
“作为一款精通足球运动的 AI 系统,接下来会给你一张足球比赛的场景图。请你:(1)描述该场景,(2)分别数一数两支球队各有多少名球员,(3)给出足球和守门员的边界框坐标,(4)估算进球可能性,并判断哪支球队更有机会进球。”

正如图7 所示,这个任务难倒了三款测试模型!它们都无法准确识别两支球队,也无法识别出全部球员和足球。

图7. 三款 MLLM 对此场景请求的检测均失败

可见,多模态大语言模型(MLLM)整体表现不错,但显然还没有强大到能应对高难度场景。甚至对于某些特定(或称“小众”)场景的专业需求(如体育比赛中的关键细节识别),一款 YOLOv8 往往能表现得更好,详见我们关于体育分析的文章

那么,如果想要在这些特定场景中让 MLLM 发挥更大作用,也许就需要进一步**微调(fine-tuning)**了。


顶尖多模态大语言模型

下面列举了一些正在重新定义计算机视觉的关键 MLLM:

GPT-4o(2024 年,OpenAI)

  • 输入:文本、图像、音频(测试版)、视频(测试版)

  • 输出:文本、图像

  • 简介:GPT-4o 代表 “GPT-4 Omni”,其中 “Omni” 指的是该模型在文本、视觉、音频等多种模态下的能力。它是一个统一的模型,可以理解并生成文本、图像、音频和视频等任意组合的输入/输出。

  • 试用链接https://chatgpt.com/

  • 鲜为人知的细节:GPT-4o 使用了名为 “multi-modal chain of thought” 的方法,先针对问题在不同模态(文本、图像、音频)上分步推理,再综合这些推理过程得出最终答案。

Claude 3.5 Sonnet(2024 年,Anthropic)

  • 输入:文本、图像

  • 输出:文本、图像

  • 简介:Claude 3.5 Sonnet 拥有 20 万 token 的上下文窗口,是一款可以理解并生成文本、图像、音频等多种数据的多模态模型。在金融、生命科学、软件工程等领域擅长深度分析、研究、生成假设和自动化。

  • 试用链接https://claude.ai

  • 鲜为人知的细节:Anthropic 使用了 “recursive reward modeling” 技术,让早期版本的 Claude 对其产出的结果进行反馈与奖励,从而不断优化模型表现。

LLaVA(2023 年,威斯康星大学麦迪逊分校)

  • 输入:文本、图像

  • 输出:文本

  • 简介:LLaVA(Large Language and Vision Assistant)是一款开源多模态 AI 模型,可同时处理并生成文本和视觉数据,具有与 GPT-4 相当的对话能力,并在 Science QA 任务上刷新了记录,展现了先进的视觉-语言理解。

  • 试用链接https://llava-vl.github.io

  • 鲜为人知的细节:LLaVA 使用了称为 “instruction tuning” 的训练技巧:以 GPT-4 为教师模型,自动生成大量带有文本和图像的合成训练示例,而无需直接人工标注。

Gemini 1.5(2024 年,Google)

  • 输入:文本、图像

  • 输出:文本、图像

  • 简介:Gemini 是谷歌开发的一系列大语言模型,能理解并处理包括文本、图像、音频(测试版)和视频(测试版)在内的多种模态。该系列最早于 2023 年 12 月公布,包含三个优化版本:Gemini Ultra(最大规模)、Gemini Pro(可扩展版本)和 Gemini Nano(面向终端设备的轻量版本)。

  • 试用链接https://gemini.google.com/

  • (显而易见的)鲜为人知的细节:Gemini 的名字来源于星座“双子座”,象征了该模型的“双重属性”——既是强大的语言模型,又能处理和生成图像、音频与视频等多模态数据。

Qwen-VL(2024 年,阿里云)

  • 输入:文本、图像

  • 输出:文本、图像

  • 简介:Qwen-VL 是基于 Qwen 语言模型拓展而来的多模态开源 AI 模型,主要针对语言与视觉能力的融合。它克服了多模态泛化的瓶颈。最近升级的 Qwen-VL-Plus 和 Qwen-VL-Max 版本在图像推理、细节分析以及对高分辨率和各种纵横比图像的支持等方面有了进一步提升。

  • 试用链接https://qwenlm.github.io/blog/qwen-vl/

  • (有趣的)鲜为人知的细节:Qwen-VL 上线后很快在 OpenVLM 榜单上位居前列,但又迅速被 GPT-4o 等更强大的模型所超越。


接下来会怎样?

多模态模型的确在改变计算机视觉领域。那么,身为机器学习/MLOps 工程师,在构建可靠 AI 流水线时,该如何利用这些模型?

另外,这些模型(有些也被称为“基础模型”)又将如何影响传统的计算机视觉流水线?🤔Tenyks 我们相信,这些模型正引领着一种全新的发展方向——计算机视觉流水线 2.0

想要了解更多关于多模态与基础模型领域的前沿进展,欢迎关注我们全新的 CVPR 2024 系列文章:


参考文献

[1] A Survey on Multimodal Large Language Models
[2] Language Models are Few-Shot Learners
[3] Introducing Meta Llama-3: The most capable openly available LLM to date
[4] Multimodal medical AI
[5] Attention is all you need
[6] Language Models are Unsupervised Multitask Learners
[7] An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale
[8] An Introduction to Vision-Language Modeling
[9] GPT-4o
[10] LLaVA: Large Language and Vision Assistant
[11] FERRET: Refer and Ground Anything Anywhere at Any Granularity

作者: Jose Gabriel Islas Montero, Dmitry Kazhdan.