脑波解码:向着实时重现视觉感知迈进 [译]

作者:Yohann Benchetrit、Hubert Banville、Jean-Rémi King 单位:Meta 人工智能研究院(FAIR),高等师范学校感知系统实验室,PSL 大学 注:所有作者贡献均等。

摘要

在最近五年里,生成型和基础型人工智能系统在解读大脑活动方面取得了巨大进步。特别是在视觉感知方面,现如今我们能够通过功能性磁共振成像(fMRI)技术进行高度精确的解码。但是,这种技术的时间分辨率较低(大约为 0.5 Hz),这严重限制了它在实时应用方面的能力。为了解决这一问题,我们提出了一种新的方法,即利用脑磁图(MEG)这种设备。MEG 能以极高的时间分辨率(大约为 5000 Hz)测量大脑活动。我们为此开发了一个基于 MEG 的解码模型,该模型通过对比学习和回归分析进行训练,包括三个主要部分:i) 从图像中获得的预训练嵌入,ii) 端到端训练的 MEG 模块,以及 iii) 预训练的图像生成模块。我们的实验结果显示:首先,我们的 MEG 解码器在图像检索任务上的表现比传统的线性解码器提升了 7 倍。其次,我们发现利用 DINOv2(一种新型基础图像模型)能够更好地解码大脑对图像的反应,尤其是在反应较晚的阶段。第三,通过 MEG 信号,我们主要能够提取到高级的视觉特征,而当我们将同样的方法应用到 7T fMRI 数据时,我们还能够提取到低级的视觉特征。总的来说,这些发现为我们在实时解码人脑视觉过程方面迈出了重要的一步。

1 引言

揭秘大脑如何呈现世界:自动化的探索

深入了解人脑如何描绘周围世界,始终是科学界最富挑战性的课题之一。这项任务最初是一种繁复的"一对一"寻找,科学家尝试挖掘触发每一个神经元的独特信号(参见 Hubel 和 Wiesel 的研究(1962)、O’Keefe 和 Nadel 的研究(1979)以及 Kanwisher 等人的研究(1997))。如今,这项探索正逐渐被机器学习(ML)技术所替代,主要体现在两个方面。首先,ML 算法作为一种信号处理工具,它能通过数据驱动的方式,从大脑活动中提炼出富有信息的模式。举个例子,Kamitani 和 Tong 在 2005 年就训练了一个支持向量机,利用功能性磁共振成像(fMRI)技术,成功地分类了视觉光栅的不同方向(2005)。随后,深度学习技术被越来越多地运用于探索大脑活动的模式,如 Roy et al.(2019)、Thomas et al.(2022)等研究所示。其次,ML 算法同样被用来建模大脑的功能。以 Yamins et al.(2014)的研究为例,他们展示了预训练深度网络中的自然图像嵌入如何能线性地反映出这些图像在大脑皮层中引起的神经元反应。

随着预训练深度学习模型的不断发展,它们已经展示出了处理各种各样刺激的强大能力,不仅仅限于文本,还包括语音、导航以及运动等方面。这一点已经在多篇研究论文中得到了证实,如 Banino 等人在 2018 年、Schrimpf 等人在 2020 年、Hausmann 等人在 2021 年、Mehrer 等人在 2021 年,以及 Caucheteux 等人在 2023 年的研究中所展示的那样。

如何通过大脑活动来创造图像?

我们发现了大脑活动与深度学习模型之间的一种独特的对齐关系,这为我们提供了一个崭新的机会:现在我们不再局限于对一小部分分类进行视觉刺激的解读,而是可以运用预先训练好的数据来指导生成型人工智能模型。虽然最终得到的图像可能有一部分是基于我们大脑的“幻想”,但解读这些图像比解读隐藏在背后的复杂特征要容易得多。经过长时间的研究和各种生成方法的尝试(参见 Nishimoto 等人,2011 年;Kamitani 和 Tong,2005 年;VanRullen 和 Reddy,2019 年;Seeliger 等人,2018 年),我们发现扩散技术显著提高了使用功能性磁共振成像(fMRI)来生成图像的效果。这个过程主要包括三个步骤:首先,从图像中获得一组预训练的嵌入信息;其次,将 fMRI 的活动数据线性映射到这些嵌入信息上;最后,利用这些信息来指导预训练的图像生成模型。最近的一些 fMRI 研究(参见 Ozcelik 和 VanRullen,2023 年;Mai 和 Zhang,2023 年;Zeng 等人,2023 年;Ferrante 等人,2022 年)主要在使用的预训练图像生成模型的类型上有所不同,展示了这一技术的多样性和潜力。

实时解码的难题

目前,生成性解码这种方法主要应用在功能磁共振成像(fMRI)上。不过,由于 fMRI 的时间分辨率受到血液流动速度的限制,通常每两秒我们只能获取到一幅反映大脑活动的图像,这就使得 fMRI 在临床应用上受到了限制,比如对于那些需要使用大脑 - 计算机接口的病人来说,这样的时间尺度就太长了(可以参见 Willett 等人在 2023 年的研究,Moses 等人在 2021 年的研究,Metzger 等人在 2023 年的研究,以及 Défossez 等人在 2022 年的研究)。与之相对,磁脑电图(MEG)则能以更高的时间分辨率(大约 5000 Hz)来测量大脑活动,它是通过记录由锥体神经元的突触后电位产生的磁场变化来实现这一点的。但是,MEG 的空间分辨率相对较低,只有大约 300 个传感器,而 fMRI 能测量大约 100,000 个体素。总的来说,fMRI 在追踪神经活动的动态变化、解码动态刺激(如语音、视频等)以及将这些技术应用于实时场景上都有其局限性。反过来,我们还不确定像 MEG 这样以时间解析为主的神经成像系统是否具有足够的精确度,能否实时生成真实自然的图像。

我们的研究方法

我们的方法融合了之前在 MEG 语音检索方面的研究(Défossez 等,2022)和在 fMRI 图像生成方面的工作(Takagi 和 Nishimoto,2023;Ozcelik 和 VanRullen,2023),开发了一个包含三个模块的工作流程,其目标是:(1) 将 MEG 活动数据与预先训练好的视觉嵌入对齐;(2) 利用 MEG 信号流生成图像(如 图 1 所示)。

(
(

图 1:(A) 我们的方法。锁头图标代表预训练的模型。 (B) 处理流程。与图像生成不同,图像检索可以在已对齐的潜在空间中进行,但这需要检索集中有一个真实的图像。

我们系统性的基准测试展示了两个主要的贡献:(1) 我们的 MEG 解码器能够高效地进行图像检索和生成;(2) 为解释大脑中视觉处理的发展提供了新的方法。这验证了我们方法确实具有泛化到新视觉概念的能力,为“自由形式”的视觉解码铺平了道路。总体而言,我们的研究结果为在实验室和临床环境中实时解码视觉信息提供了一个充满希望的新方向。

2 方法

2.1 问题定义

我们的研究目标是要通过解码 MEG(磁脑图)记录下来的大脑活动的多变量时间序列,来重建健康参与者在观看一连串自然图像时的视觉体验。简单来说,当一个图像 Ii{I}_{i} 展示给参与者时,我们会利用 MEG 技术记录下那一刻大脑活动的时间序列 XiRC×T{\bm{X}}_{i}\in\mathbb{R}^{C\times T},这里 C{C} 代表 MEG 设备上的通道数量,T{T} 代表在 MEG 时间窗口中记录的时间点数量,而 i[ ⁣[1,N] ⁣]{i}\in[\![1,N]\!] 是序列中的图像编号。然后,我们会将每个图像 Ii{I}_{i} 转换成一个潜在的特征表示 ziRF{\bm{z}}_{i}\in\mathbb{R}^{F},其中 F{F} 表示特征的数量。这个转换是通过一个预先训练好的图像模型完成的(具体细节见第 2.4 节)。我们的解码方法主要是依靠训练一个脑模块 fθ:RC×TRF{\textbf{f}_{\theta}:\mathbb{R}^{C\times T}\rightarrow\mathbb{R}^{F}},使其能够根据给定的大脑活动时间序列 Xi{\bm{X}}_{i},尽可能准确地预测或还原出原始图像 Ii{I}_{i} 对应的特征表示 zi{\bm{z}}_{i}

2.2 训练目标

在我们提出的处理流程中,针对不同部分,我们设定了不同的训练目标。首先,对于图片检索这一环节,我们的目标是在众多候选图片中找到正确的一张,即与 Xi{\bm{X}}_i 相对应的图片 IiI_i。为了达到这一目标,我们利用 CLIP 损失函数(根据 Radford 等人在 2021 年的研究 2021),训练我们的模型 fθ\textbf{f}_\theta。我们在每个大小为 B 的批次中进行训练,确保每个批次中只有一个正例图片:

LCLIP(θ)=1Bi=1B(logexp(s(zi^,zi)/τ)j=1Bexp(s(zi^,zj)/τ)+logexp(s(zi^,zi)/τ)k=1Bexp(s(zk^,zi)/τ))\mathcal{L}_{CLIP}(\theta)=-\frac{1}{B}\sum_{i=1}^{B}\left(\log\frac{\exp(s(\hat{{\bm{z}}_{i}},{\bm{z}}_{i})/\tau)}{\sum_{j=1}^{B}\exp(s(\hat{{\bm{z}}_{i}},{\bm{z}}_{j})/\tau)}+\log\frac{\exp(s(\hat{{\bm{z}}_{i}},{\bm{z}}_{i})/\tau)}{\sum_{k=1}^{B}\exp(s(\hat{{\bm{z}}_{k}},{\bm{z}}_{i})/\tau)}\right)

这里,ss 表示的是余弦相似度,zi{\bm{z}}_iz^i=fθ(Xi)\hat{{\bm{z}}}_i=\textbf{f}_\theta({\bm{X}}_i) 分别代表潜在表示和相应的 MEG 基础预测,而 τ\tau 是一个通过学习得到的温度参数。

接下来,为了从检索图片转向生成图片,我们训练模型 fθ\textbf{f}_\theta 直接预测潜在表示 z{\bm{z}},从而可以利用这些表示来指导图像生成模型。我们采用了标准的均方误差(MSE)损失函数来实现这一目标:

LMSE(θ)=1NFi=1Nziz^i22\mathcal{L}_{MSE}(\theta)=\frac{1}{NF}\sum_{i=1}^{N}\lVert{\bm{z}}_{i}-\hat{{\bm{z}}}_{i}\rVert^{2}_{2}

最后,为了综合利用 CLIP 损失和 MSE 损失的优势,我们通过调整权重的方式,将这两种损失函数结合起来,训练出既能从图片检索中受益,又能从图片生成中受益的模型:

LCombined=λLCLIP+(1λ)LMSE\mathcal{L}_{Combined}=\lambda\mathcal{L}_{CLIP}+(1-\lambda)\mathcal{L}_{MSE}

2.3 脑部模块

在这个部分,我们借鉴了 Défossez 等人在 2022 年提出的一种扩张残差 ConvNet 架构(我们把它表示为 fθ\textbf{f}*{\theta}),用它来学习如何将 MEG 的数据窗口(用数学符号表示为 XiRC×T\bm{X}_i \in \mathbb{R}^{C \times T})转化为潜在的图像表达形式(表示为 ziRF\bm{z}_i \in \mathbb{R}^F)。原本这个模型的输出(表示为 Y^backboneRF×T\hat{\bm{Y}}_{backbone} \in \mathbb{R}^{F' \times T})会保留时间维度的信息。但在我们的研究中,我们选择对每个输入只进行单个潜在变量的回归,而不是像 Défossez 等人那样对一系列的 TT 个潜在变量进行回归。因此,我们增加了一个时间聚合层,目的是为了减少 Y^backbone\hat{\bm{Y}}_{backbone} 在时间维度上的信息,从而得到 y^aggRF\hat{\bm{y}}_{agg} \in \mathbb{R}^{F'}。在这个过程中,我们尝试了三种不同的聚合方法:全局平均池化、学习到的仿射投影以及注意力层。最终,我们还添加了两个多层感知机(MLP)头部,每一个都对应着 LCombined\mathcal{L}_{Combined} 中的一个项,它们的作用是将维度从 FF' 投影到目标潜在变量的 FF 维度。

为了找到最适合检索任务的配置,我们进行了一系列的超参数搜索,这包括了对预处理方法、脑部模块的架构、优化器以及损失函数的超参数进行调整(具体详情请参见附录 A.2)。最终我们为检索任务确定了一套架构配置,具体可以在表 S2 中找到,比如说,当 F=768F=768 时,这个模型就有 6.4M 个可训练的参数。

在图像生成的实验中,我们会对 MSE 头的输出进行一系列的后处理,具体操作参照了 Ozcelik 和 VanRullen 在 2023 年的研究。这个过程包括对每个特征进行 z-分数的标准化处理,并应用训练集上的逆 z-分数变换,这个变换是根据目标嵌入的每个维度的平均值和标准差来定义的。在选择 LCombined\mathcal{L}_{Combined} 中的 λ\lambda 时,我们会测试 1 这几个值,并选出在大型测试集上 top-5 准确率最高的模型。需要注意的是,在训练生成 CLIP 和 AutoKL 潜在变量的模型时,我们简化了 CLIP 头的任务,降低了它的目标维度:对于 CLIP-Vision,我们使用了 CLS 令牌(维度为 768);对于 CLIP-Text,我们使用了“平均”令牌(维度同样为 768);而对于 AutoKL 的潜在变量,我们使用了通道平均值(维度为 4096)。

2.4 图像模块

我们研究了脑活动与从不同表示学习方法训练得到的深度神经网络输出嵌入之间的对应关系。这些方法包括:监督学习(如 VGG-19)、图像 - 文本对齐(CLIP)和变分自编码器,它们涵盖了从低到高的各种维度。在使用视觉变换器的情况下,我们还额外考察了两种维度更小的嵌入:所有输出嵌入的平均值和类令牌的输出嵌入。为了对比,我们还评估了未经深度学习处理的人工特征。所有这些嵌入的列表可以在附录 A.4 中找到。为了更直观,我们将实验重点放在了其中具有代表性的一部分上。

2.5 生成模块

为了能够公平地将我们的工作与使用 fMRI 数据获得的结果进行比较,我们采用了 Ozcelik 和 VanRullen 在 2023 年提出的方法,使用了一个训练好的模型从

预训练的嵌入中生成图像。具体而言,我们用一个潜在扩散模型,它依赖于三种嵌入:CLIP-Vision(257×768257\times 768)、CLIP-Text(77×76877\times 768)和变分自编码器的潜在变量(AutoKL;4×64×644\times 64\times 64)。按照 Ozcelik 和 VanRullen 的方法,我们通过 50 步的 DDIM 扩散过程,以 7.5 的引导值、0.75 的强度和 0.4 的混合率进行了扩散处理,以生成最终的图像。

2.6 训练与计算方面的思考

我们在一组大约 63,000 个样例上训练了跨参与者模型,使用了 Adam 优化器(由 Kingma 和 Ba 在 2014 年提出), 学习率设置为 0.0003,每批次处理 128 个样例。我们使用了一种叫做早停的技术,即在一个包含约 15,800 个样例的验证集上进行训练,这些样例是从原始训练集中随机抽选出来的。我们设置了一个“耐心”参数为 10,意味着如果模型在验证集上的表现在 10 轮迭代后没有提升,就会停止训练。我们在一个独立的测试集上评估了模型的性能。所有的模型都是在一块有 32 GB 内存的 Volta GPU 上训练的。为了确保结果的可靠性,我们使用了三个不同的随机种子来初始化大脑模块的权重,并分别训练了三次模型。

2.7 性能评估

检索性能指标

我们首先使用检索性能指标来评价解码的效果。在一个已知的测试集上,我们关注的是给定模型预测后,能否正确识别出图像的概率。使用检索性能指标的好处是,不论 MEG 数据的维度,图像嵌入的维度如何,它们都有一个统一的量度标准。我们使用两种方法来评估检索性能:一种是相对中位数排名(这个指标与检索集的大小无关),即预测结果的排名除以检索集的大小;另一种是 top-5 准确率(这在学术文献中更为常见)。

生成性能指标

解码性能通常不仅要从定量的角度,还要从定性的角度来进行评估,这需要一系列反映出重建图像在感知和语义上保真度的指标。为了能与 fMRI 生成的结果进行公平的比较,我们采用了 Ozcelik 和 VanRullen 在 2023 年提出的相同的评估指标,这些指标是在实际观察到的图像和生成的图像之间计算得出的,包括:PixCorr(像素级的相关性),SSIM(结构相似性指标),以及 SwAV(与 SwAV-ResNet50 输出的相关性)。此外,我们还评估了 AlexNet(第 2/5 层),Inception(最后一层池化层)和 CLIP(输出层)的两两比较分数。对于 NSD 数据集,这些指标仅为第一个参与者报告(具体见附录 A.5)。

为了避免挑选出过于理想的样例(樱桃挑选),我们根据 SwAV 和 SSIM 指标的和(取负值)对测试集上的所有生成结果进行了排序。然后我们将数据分为 15 个区块,并从表现最好、中等和最差的区块中各选取了 4 幅图像。

实时与平均性能指标

在 fMRI 领域,解码大脑活动通常是基于用通用线性模型估计出的预处理值,这些被称为“beta 值”的东西实际上是对单个图像的大脑反应的估计,是通过多次重复展示这些图像获得的。为了公平评估 MEG 解码的性能,我们利用了数据集中提供的重复图像展示的机会,在评估性能指标之前对预测结果进行了平均处理。

2.8 数据集介绍

我们选择了“THINGS-MEG”这个数据集来检验我们的方法是否行得通(参见 Hebart 等人在 2023 年的研究2023)。参与这个实验的有四位志愿者,其中包括两位女性和两位男性,他们的平均年龄是 23.25 岁。这些志愿者参加了 12 次 MEG(脑磁图)的测试,在测试中他们需要观察一组精心挑选出来的 22,448 张图片,这些图片来源于 THINGS 数据库(Hebart 等人在 2019 年的研究2019),涉及到 1,854 个不同的类别。在这些图片中,只有 200 张来自不同类别的图片会被多次展示给参与者。每张图片的展示时间是 500 毫秒,图片之间会有一个变动的间隔时间,大概在 1000±2001000\pm 200 毫秒左右。此外,THINGS 数据集还提供了额外的 3,659 张图片,尽管这些图片没有展示给实验参与者,但我们用它们来增加我们检索集的大小,从而更好地验证我们方法的可靠性。

对 MEG 数据的预处理

在处理 MEG 数据方面,我们采用了一种非常简化的预处理方法,这个方法与 Défossez 等人在 2022 年的研究中使用的方法相同2022)。首先,我们从 272 个 MEG 径向梯度通道中获取原始数据,然后将数据的采样率从 1200 赫兹降低到 120 赫兹。接下来,我们对数据进行了通道级别的居中和剪裁处理,剪裁的标准是+/- 5 个标准误差。之后,我们将连续的 MEG 数据划分成一系列的时间段,这些时间段从刺激开始前的 500 毫秒一直持续到刺激开始后的 1000 毫秒。最后,我们对每个通道进行了基线校正,方法是将每个通道在一个时间段内从开始到刺激出现期间的信号均值减去。

数据分割详解

在 Hebart 等人于 2023 年的研究中 (2023),他们首次分割了 22,248 张独特展示的图片,并为每位参与者提供了 200 张测试图片,每张图片重复 12 次(即,每位参与者共进行 2,400 轮测试)。但这种分割方法有一些挑战,因为测试集中的每个类别只有一张图片,并且这些类别在训练集中也有。这就意味着,通过这个测试集评估模型的检索性能,我们无法测量模型(1)推广到新未见类别图片的能力,以及(2)在同一类别的多张图片中找到特定图片的能力,而只能测量其“分类”的能力。因此,我们提出了对原始分割方法的两点修改。首先,我们从训练集中剔除了那些其类别出现在原测试集中的图片,形成了一个“调整后的训练集”,消除了训练集和测试集之间的类别泄漏,使得我们可以评估模型对未见类别图片的解码能力(即,‘‘零次射击’’设置)。其次,我们基于从训练集中剔除的图片,构建了一个新的“大测试集”,从而有效地评估了在同一类别的多张图片中检索图片的性能。注意,我们在这个新的大测试集中排除了原测试集的图片,以避免训练和测试图片在 MEG 重复次数上的不一致。我们在原始的“小”测试集和新的“大”测试集上都报告了结果,以方便与 Ozcelik 和 VanRullen 在 2023 年的研究 (2023) 的原设置进行对比。最后,我们还将我们的结果与一个在 fMRI 数据上,使用 NSD 数据集训练的类似流程所获得的性能进行了对比(Allen 等人,2022,见附录 A.5)。

3 研究成果

机器学习作为模拟大脑的有效工具

要找出哪些自然图片的表现形式最能提升解码性能,我们比较了多种模型。这些模型通过线性 Ridge 回归,根据 MEG 响应 XiX_i 预测出 16 种不同的潜在视觉表示中的一种,并与每张图片 IiI_i 进行匹配。根据表 S1 的数据,虽然所有的图片嵌入都超过了随机水平,但是那些受过监督学习和进行了文本/图像对齐的模型(例如 VGG,CLIP)取得了最好的检索效果。

利用机器学习有效探索大脑反应

我们将一些基础的线性模型与深度卷积神经网络(ConvNet)结构进行了对比,后者由 Défossez et al. 在 2022 年提出,并针对同一任务进行了训练。在这个任务中,我们的主要目标是从大脑的 MEG 数据中找到与之对应的图像。使用 λ=1\lambda=1{L}_{Combined}\mathcal\{L\}\_\{Combined\} 中,因为我们此时只关注流程中的检索部分。相比于基础的线性模型,深度学习模型在性能上有了 7 倍的提升(如图 2 所示)。多种不同类型的图像嵌入方法都展现出了很好的检索性能,其中 VGG-19、CLIP-Vision 和 DINOv2 分别达到了 70.33% ± 2.80%,68.66% ± 2.84% 和 68.00% ± 2.86% 的前 5 准确率。即使在我们更为复杂的“大”测试集中,虽然性能有所下降,但我们依然能得出类似的结论:模型不仅要区分不同类别的图像,还要区分同一类别中的不同图像。在附录 A.3 中,我们展示了一些具有代表性的检索结果示例。

通过训练深度卷积网络获得的图像检索性能。原始的“小”测试集包括 200 个不同类别的独特图像。而我们提出的“大”测试集则包括这 200 个类别中的每个类别各 12 幅图像,总共有 2,400 幅图像。
通过训练深度卷积网络获得的图像检索性能。原始的“小”测试集包括 200 个不同类别的独特图像。而我们提出的“大”测试集则包括这 200 个类别中的每个类别各 12 幅图像,总共有 2,400 幅图像。

图 2:通过训练深度卷积网络获得的图像检索性能展示。原始的“小”测试集包括 200 个不同类别的独特图像,而我们扩展的“大”测试集则包含这 200 个类别中的每个类别各 12 幅图像,总共有 2400 幅图像。在“小”测试集中,随机猜测的前 5 准确率是 2.5%,而在“大”测试集中这个数值是 0.21%。而最优的潜在表示方法能在“小”测试集和“大”测试集上分别达到约 70% 和 13% 的准确率。

时间解析的图像检索

我们在整个时间范围内(从刺激出现前的 500 毫秒到出现后的 1,000 毫秒)获得了上述研究结果。为了深入探索大脑如何逐渐形成视觉认知,我们采用了 250 毫秒为窗口的滑动分析方法进行了再次研究(见图 3)。为了便于理解,我们选取了一些具有代表性的图像嵌入进行了重点分析。正如我们预期的那样,在图像出现之前,所有模型的表现都处于随机水平。而对于所有模型来说,在 0 到 250 毫秒的窗口内,我们首次观察到了明显的性能峰值,紧接着是在图像消失后的第二个峰值,但之后性能迅速回落到随机水平。值得注意的是,最近开发的自监督模型 DINOv2 在图像消失后展现出了特别出色的检索性能。

在不同图像嵌入下,通过 250 毫秒滑动窗口训练的模型在图像检索任务上的表现。灰色阴影区域表示图像展示给实验参与者的 0.5 秒时间段。通常,准确率会在图像出现和消失的瞬间达到最高点。
在不同图像嵌入下,通过 250 毫秒滑动窗口训练的模型在图像检索任务上的表现。灰色阴影区域表示图像展示给实验参与者的 0.5 秒时间段。通常,准确率会在图像出现和消失的瞬间达到最高点。

图 3:在不同图像嵌入下,通过 250

毫秒滑动窗口训练的模型在图像检索任务上的表现。灰色阴影区域表示图像展示给实验参与者的 0.5 秒时间段。通常,准确率会在图像出现和消失的瞬间达到最高点。

为了更直观地理解这些解码指标所代表的含义,我们展示了从一个增强的检索集中检索到的 top-1 图像结果。这个增强的检索集是通过将“大型”测试集与另外 3,659 幅实验参与者未见过的图像合并而成(见图 4)。

总的来看,检索到的图像大多数情况下都能准确地归属到正确的类别,如“扬声器”或“西兰花”,特别是在前几个时间窗口(t1t \leq 1 秒)内更为明显。然而,这些检索到的图像似乎并没有与实验参与者所看到的图像在低级特征上有明显的共同之处。

使用 CLIP-Vision (CLS) 和在 250 毫秒滑动窗口上训练的模型进行的动态检索的代表性示例(图像开始于 t=0,检索集规模为 N=6,059,涵盖 1,196 个类别)。每三行表示一组,分别展示了最佳、平均和最差的检索结果,这些结果是基于 top-5 准确率从相应的百分位群体中抽取得到的。
使用 CLIP-Vision (CLS) 和在 250 毫秒滑动窗口上训练的模型进行的动态检索的代表性示例(图像开始于 t=0,检索集规模为 N=6,059,涵盖 1,196 个类别)。每三行表示一组,分别展示了最佳、平均和最差的检索结果,这些结果是基于 top-5 准确率从相应的百分位群体中抽取得到的。

图 4:使用 CLIP-Vision (CLS) 和在 250 毫秒滑动窗口上训练的模型进行的动态检索的代表性示例(图像开始于 t=0t=0,检索集规模为 N=6,059N=6,059,涵盖 1,1961,196 个类别)。每三行表示一组,分别展示了最佳、平均和最差的检索结果,这些结果是基于 top-5 准确率从相应的百分位群体中抽取得到的。

总的来说,虽然我们还需要对这些结果进行更深入的分析,但初步的观察表明,我们的解码方法不仅能捕捉到与图像出现和消失相关的大脑反应,而且从一开始 250 毫秒内,类别级别的信息就已经开始在视觉表征中占据主导地位。

如何通过大脑信号生成图像

虽然将解码过程视为一种检索任务已经取得了令人兴奋的成果,但这种方法的局限性也很明显:它要求我们事先就拥有了我们想要找到的真实图像。要解决这个问题,我们采用了另一种策略,即训练三个专门的大脑模型,通过它们来预测并生成图像(详见第 2.5 节和图 5)。通过各种评估指标(见表 1)我们可以看出,这些生成的图像质量相当不错,而且它们与真实图像在类别上是一致的。不过,这些图像在展现细节方面还是略显不足。

这里展示了基于大脑信号预测生成的图像样例,分为三个层级:生成效果最好的,一般的,以及最差的。这些评级是基于 SwAV 和 SSIM 指标之和(取负值)来确定的。
这里展示了基于大脑信号预测生成的图像样例,分为三个层级:生成效果最好的,一般的,以及最差的。这些评级是基于 SwAV 和 SSIM 指标之和(取负值)来确定的。

图 5:这是基于 MEG 预测生成的图像的示例,我们根据评分将生成效果分为三个等级:最好、一般和最差。

在下表中,我们对从 MEG 数据重建图像的质量进行了定量评估,并与 fMRI 数据的结果进行了对比。可以看出,尽管 MEG 数据在重建图像时表现不错,但与 fMRI 数据相比,其解码难度更大。不同评价指标的结果也从各个方面展示了这一点。

Low-levelHigh-level
DatasetPixCorr \uparrowSSIM \uparrowAlexNet(2) \uparrowAlexNet(5) \uparrowInception \uparrowCLIP \uparrowSwAV \downarrow
NSD (fMRI)0.3050.3660.9620.9770.9100.9170.410
THINGS-MEG(per-trial average)0.0790.3290.7180.8230.6740.7650.595
THINGS-MEG(per-subject average)0.0880.3330.7470.8550.7120.8040.576
THINGS-MEG(no average)0.0690.3080.6680.7330.6130.6680.636

表 1:这是我们用来评价从大脑信号(MEG)重建出的图像质量的一些具体指标,同时我们也对照了使用 fMRI 数据的结果。可以看出,虽然两种技术都有其独特的优点,但从解码难度上来看,fMRI 数据更易于处理。

在一个相似的 fMRI 数据集上运用了几乎一样的处理方法(参考 Allen 等人,2022;Ozcelik 和 VanRullen,2023 的研究),并采用了简单的 Ridge 回归分析,结果显示重建出来的图像不仅在高级特征上,而且在低级特征上都与真实图像(见图 S3)相似。综合来看,这些发现暗示了问题可能并不在于重建流程本身,而在于 MEG 信号在低级特征上的信息量较少。

4 讨论

相关研究

本研究与之前关于 MEG 和脑电波(EEG)的研究有不少相似之处,这些研究并不是旨在将解码性能提升到极致,而是想要通过它们更深入地了解大脑中的视觉处理过程。具体来说,先前的研究中,研究人员训练了线性模型来:1)基于大脑活动对一小部分图像进行分类(参见 Grootswagers 等人,2019;King 和 Wyart,2021 的研究);2)从图像的深层特征预测大脑活动(参见 Cichy 等人,2017 的研究);3)利用表示相似性分析(RSA)来量化视觉信息和大脑活动之间的相似度(参见 Cichy 等人,2017;Bankson 等人,2018;Grootswagers 等人,2019;Gifford 等人,2022 的研究)。尽管这些研究也运用了图像嵌入技术,但他们的线性解码器仅仅局限于分类少量的物体类别或者区分一对图像。

另外,科学家们引入了几种深度神经网络,目的是更好地对语音(Défossez 等人,2022)、心理负担(Jiao 等人,2018)以及图像(Palazzo 等人,2020; McCartney 等人,2022; Bagchi 和 Bathula,2022)进行分类。这些研究主要通过分析脑电图(EEG)记录来进行。特别值得一提的是,Palazzo 等人在 2020 年提出了一种利用深度卷积神经网络,从脑电信号中分类自然图像的方法。不过,他们的实验方法存在一些问题,即他们是将同一类别的所有图像一次性呈现给实验对象,这就有可能使得解码器更多地依赖于噪声,而不是大脑活动中蕴含的信息(Li 等人,2020)。不过,总的来说,这些研究主要集中在对有限种类的图像进行分类。

总体来看,据我们了解,目前还没有一项能够从头到尾可靠生成一系列开放式图像的磁共振脑电图(MEG)解码研究。

影响

这项工作不仅在理论上有重要意义,而且在实际应用上也具有深远的影响。首先,能够随时间解码复杂的感知信息,将极大地帮助我们理解视觉处理过程中大脑是如何工作的。目前已经有很多研究在探讨视觉系统中信息是如何被处理和呈现的,但这些研究的结果往往难以理解,尤其是在处理高级特征时。而生成式解码方法提供了一种直观、易于理解的预测方式。其次,脑解码技术最直接的应用场景是帮助那些因为大脑损伤而难以进行正常沟通的患者。不过,这种应用需要实时解码,这就排除了使用时序分辨率较低的神经影像学方法,如功能性磁共振成像(fMRI)。因此,这项工作为实现这一目标迈出了关键的一步。

受限之处

通过我们的分析,我们发现了从 MEG 信号解析图像过程中的三个主要局限性。首先,在解析高级语义和低级特征时,我们更倾向于高级语义特征:比如说,生成的图像在保持物体种类等语义信息上表现更为出色,而在保持轮廓、阴影等低级特征上则稍逊一筹。这并不是我们操作流程的问题:实际上,当我们对 7T fMRI 的记录执行类似的操作时,我们能够很好地重建这些低级特征(参见图 S3)。这更多地反映了 MEG 的空间分辨率(大约是厘米级)远不如 7T fMRI(大约是毫米级)。其次,我们当前的方法严重依赖于多个模型的预先训练,并仅通过端到端学习来将 MEG 信号与这些已经训练好的模型进行对齐。从我们的实验结果来看,这样的处理方式比传统的计算机视觉特征处理方式(如颜色直方图、快速傅立叶变换和定向梯度直方图(HOG))效果要好。这也得到了 Défossez 等人在 2022 年的一项 MEG 研究的支持,他们在研究中发现,在解码语音信号时,预训练的模型表现优于完全端到端的学习方式。然而,是否可以通过(1)对图像和生成模块进行微调,以及(2)结合使用不同类型的视觉特征来进一步提升解码性能,这还需要进一步的研究和验证。

伦理考虑

虽然解码大脑活动的技术有望帮助许多大脑受损的患者(参见 Metzger 等人 2023 年的研究、Moses 等人 2021 年的研究、Défossez 等人 2022 年的研究、Liu 等人 2023 年的研究以及 Willett 等人 2023 年的研究),但这项技术飞速发展的同时也带来了诸多伦理问题,其中最为关键的是如何保护个人的思维隐私。关于这一点,我们有几个实证发现值得关注。首先,对于“感知”任务,非侵入性记录的解码性能表现较好。但相反,当试验对象进行想象任务时,解码的准确性就会大大降低(参见 Horikawa 和 Kamitani 2017 年的研究以及 Tang 等人 2023 年的研究)。其次,当试验对象进行一些干扰性任务,比如倒着数数时,解码性能也会受到严重影响(参见 Tang 等人 2023 年的研究)。这就意味着,获取试验对象的同意不仅是一项法律义务,更是进行大脑解码所必需的技术前提。为了更深入地探讨这些问题,我们强烈推荐采用开放且经过同行评审的研究标准。

结语

总的来说,这些研究结果为我们揭示人脑中连续发生的视觉过程迈出了重要的一步。

附录 A 附录

A.1 在预训练的图像数据上应用线性岭回归的成绩

我们为大家提供了一个线性岭回归的基准测试(见 表 S1),并将其与第 3 节中我们介绍的大脑模块的结果进行了对比,结果显示我们的方法有了显著的提升。

前 5 名准确率 (%) \uparrow中位相对排名  \downarrow
隐变量类型隐变量名称小数据集大数据集小数据集大数据集
文本/图像对齐CLIP-Vision (CLS)10.50.500.230.34
CLIP-Text (均值)6.00.250.420.43
CLIP-Vision (均值)5.50.460.320.37
特征工程颜色直方图7.00.330.310.40
局部二进制模式 (LBP)3.50.370.340.44
二维傅里叶变换(实数形式)4.50.460.400.45
方向梯度直方图 (HOG)3.00.420.450.46
二维傅里叶变换(对数功率谱密度和角度)2.00.370.470.46
变分自编码器AutoKL7.50.540.240.38
VDVAE8.00.500.330.43
自我监督学习
DINOv2 (CLS)7.50.460.250.35
有监督学习VGG-1912.51.040.180.33
ResNet-1014.00.370.360.42
DenseNet-2015.00.290.390.45
宽度调整的 ResNet-101-23.50.420.400.46
MobileNet v33.50.420.400.42

表 S1: 线性岭回归基准测试在预训练图像数据上的图像检索性能

在这个表格中,我们可以看到在不同类型的隐变量和不同大小的数据集上,线性岭回归模型的表现。其中,“前 5 名准确率”展示了模型在预测图像类别时,其正确答案出现在前 5 个最可能的答案中的概率;而“中位相对排名”则展示了正确答案在所有可能答案中的相对位置。从结果来看,使用大脑模块的方法在大多数情况下都优于传统的线性岭回归方法。

A.2 超参数寻优

为了找出最合适的设置(包括 MEG 数据的预处理方法、优化算法、大脑模块的结构和损失函数的定义),我们对 MEG 到图像的检索任务进行了一系列的超参数寻优实验(参数 λ\lambdaλ 设置为 0)。我们从调整后的训练数据集中随机抽取 79,392 组 MEG 和图像的配对数据,按照 60%、20% 和 20% 的比例分为训练集、验证集和测试集,同时确保同一幅图像的所有展示都被分在了同一组数据中(详见第 2.8 节)。验证集用于决定何时停止训练(提前停止),而测试集用来评估不同配置下的性能表现。

在寻优过程中,我们选择了在初步实验中表现不错的 CLIP-Vision(CLS)潜在变量作为代表。我们用两种不同的随机种子来初始化大脑模块,并使用三种不同的随机划分方法对数据进行训练/验证/测试划分,共进行了六轮搜索实验。图 S1 展示了这次超参数寻优的详细结果。

图 S1:超参数搜索结果,展示了各种参数对 MEG 到图像检索任务性能的影响。
图 S1:超参数搜索结果,展示了各种参数对 MEG 到图像检索任务性能的影响。

图 S1:超参数搜索结果,展示了各种参数对 MEG 到图像检索任务性能的影响。MEG 到图像检索任务的超参数搜索结果,其中展示了不同参数如(A)优化器的学习率和批次大小,(B)卷积块的数量和是否在大脑模块中使用空间注意力或者特定于个体的层,(C)MEG 窗口参数,(D)在大脑模块的 CLIP 投影头中使用的时域聚合层的类型和块的数量,以及(E)CLIP 损失配置(包括标准化的轴、是否使用学习的温度参数和是否使用对称项)等对模型性能的影响。图中还标注了随机猜测情况下模型性能的上限,即前 5 名准确率为 0.05%。

基于这次搜索,我们使用了以下配置:MEG 窗口 (tmin,tmax)(t_{min},t_{max}) 的值为 [0.5,1.0]\left[-0.5,1.0\right] 秒,学习率为 3×1043\times 10^{-4},批处理大小为 128,大脑模块包括两个卷积块和 Défossez 等人(2022)提出的空间注意力层和特定于个体的层,CLIP 投影头中有一个块的仿射投影时序聚合层,以及完整的 CLIP 损失(包括学习到的温度参数,沿着两个轴的归一化和对称项)。最终的架构配置展示在表 S2(链接)中。

层级输入尺寸输出尺寸参数个数
空间关注模块(272, 181)(270, 181)552,960
线性变换(270, 181)(270, 181)73,170
针对特定被试的线性层(270, 181)(270, 181)291,600
第一个残差膨胀卷积块(270, 181)(320, 181)1,183,360
第二个残差膨胀卷积块(320, 181)(320, 181)1,231,360
线性变换(320, 181)(2048, 181)1,518,208
时间聚合(2048, 181)(2048, 1)182
MLP 投影层(2048, 1)(768, 1)1,573,632
总和6,424,472

表 S2: 根据 Défossez 等人在 2022 年的研究 (链接),调整的大脑模块配置,用于在以图像检索为目标的场景中应用,目标潜变量尺寸设置为 768(如 CLIP-Vision (CLS),参见第 2.4 节)。

A.3 全窗口 MEG 基础图像检索

图 S2(链接)展示了基于性能最优的潜变量的图像检索示例,这些潜变量是在第 3 节中确定的。

这些图片展示了使用在完整时间窗口(从图像出现的前 0.5 秒到后 1 秒)上训练的模型进行的检索示例(前 4 名)。检索集包含:
这些图片展示了使用在完整时间窗口(从图像出现的前 0.5 秒到后 1 秒)上训练的模型进行的检索示例(前 4 名)。检索集包含:

图 S2: 这些图片展示了使用在完整时间窗口(从图像出现的前 0.5 秒到后 1 秒)上训练的模型进行的检索示例(前 4 名)。检索集包含:N=6,059N=6,059 张图片,分布在 1,1961,196 个类别中。

A.4 图像嵌入研究

我们使用了一系列经典的视觉嵌入方法,对 MEG 到图像的检索任务进行了性能评估,这其中包括线性基准方法和深层卷积神经网络。这些嵌入方法根据它们所依赖的学习范式被分成了几个组:

有监督学习方法:

DenseNet-121, DenseNet-169, DenseNet-201, MobileNet v2, MobileNet v3, ResNet-101, ResNet-18, ResNet-50, ResNext101-32-8d, ResNext50-32-4d, VGG-16, VGG-19, Wide ResNet-101-2, Wide ResNet-50-2.

文字与图片的完美搭配

我们使用 CLIP-Vision 和 CLIP-Text 进行图文匹配,并运用了 CLS 和 MEAN 池化技术来提升处理效果。

自我学习的威力

介绍了 DINOv1 和 DINOv2 两种自监督学习方法,它们同样采用了 CLS 和 MEAN 池化技术来增强学习效果。

变异的自编码器

我们探讨了一种非常深入的变分自编码器(VDVAE),它能通过前 31 层的激活来变换数据,还有一种 Kullback-Leibler 变分自编码器(AutoKL),它在生成模块中发挥作用(详见第 2.5 节)。

精心打造的特征

我们研究了图像颜色的分布情况,并将颜色信息分布在 8 个 bins 中的每个通道上;采用了 OpenCV 2 的实现技术,并使用‘uniform’方法提取了局部二进制模式(LBP),参数设置为 P=8P=8P=8 和 R=1R=1R=1;同时,我们还利用了 sk-image 的方向梯度直方图(HOG)技术,参数设定为 8 个方向,每个 cell 8 个像素,每个 block 2 个 cell,从而提取了图像的纹理信息。

A.57T 核磁共振成像数据集

《自然场景数据集》(NSD)是由 Allen 等人在 2022 年提出的,里面包含了 8 个实验参与者在观看 73,000 张彩色图像时的脑部 fMRI 扫描数据。这个数据集已经在几个研究中展示了其重要价值,尤其是在通过 fMRI 数据来重建人们所看到的图像方面(参见 Takagi 和 Nishimoto 的 2023 年研究,Ozcelik 和 VanRullen 的 2023 年研究,以及 Scotti 等人在 2023 年的工作)。这些研究通常使用了经过高度预处理,且数据量更小的 fMRI 数据版本(称为“betas”),这是通过对同一图像进行多次重复实验,并利用通用线性模型进行拟合得到的。

在这个数据集中,每个参与者共观看了 10,000 张独一无二的图像,每张图像重复展示了 3 次,分布在 37 个实验会话中。每个会话包括 12 轮,每轮 5 分钟,每张图像展示 3 秒,随后是 1 秒的空白间隙。在所有 8 名参与者中,只有 4 名(分别是 1、2、5 和 7 号)完成了全部实验会话。

为了从 fMRI 数据中重建出被观看的图像,我们根据第 2.5 节的描述,遵循 Ozcelik 和 VanRullen 在 2023 年的研究,通过训练和评估三个不同的 Ridge 回归模型来计算用于重建的三个潜在变量。具体来说,对于剩下的四名参与者,每人 9,000 张独特观看的图像(及其三次重复)被用于训练,而 1000 张所有参与者共同观看的图像(及其三次重复)则被用于评估。我们以第 1 名参与者为例,报告了其图像重建的结果和相关度量。

在每个实验参与者的训练数据集上,我们通过 5 折交叉

验证来确定回归模型 L2L2-正则化项的 α\alpha 系数。在输入数据和预测结果的标准化处理上,我们也遵循了 Ozcelik 和 VanRullen 在 2023 年研究中采用的方案。

图 1 展示了使用 NSD 数据集生成的图像,你可以在 Allen 等人 2022 年的论文中找到更多详细信息。

这里展示了根据 fMRI 数据的潜在预测生成的一些图像示例。图中分为三组,每组包含三行,分别展示了在利用(负)SwAV 和 SSIM 总和作为评估标准时,表现最优、中等和最差的检索结果。
这里展示了根据 fMRI 数据的潜在预测生成的一些图像示例。图中分为三组,每组包含三行,分别展示了在利用(负)SwAV 和 SSIM 总和作为评估标准时,表现最优、中等和最差的检索结果。

图 S3:这里展示了根据 fMRI 数据的潜在预测生成的一些图像示例。图中分为三组,每组包含三行,分别展示了在利用(负)SwAV 和 SSIM 总和作为评估标准时,表现最优、中等和最差的检索结果。