Translated on February 22, 2024Published on February 15, 2024

V-JEPA：迈向 Yann LeCun 先进机器智能（AMI）愿景的新里程碑 [译]

原文：V-JEPA: The next step toward Yann LeCun’s vision of advanced machine intelligence (AMI)

精选推荐：

I-JEPA：追随 Yann LeCun 对更具人性化 AI 愿景的首个 AI 模型探索
FAIR 十周年庆典：十年来通过开放研究不断推动技术前沿
Yann LeCun、Geoffrey Hinton 和 Yoshua Bengio 荣获图灵奖
今日，我们骄傲地推出 Video Joint Embedding Predictive Architecture（V-JEPA）模型，这是实现机器智能进步、让机器更深入理解世界的关键一步。
这款初步的物理世界模型在检测和理解物体间复杂互动方面表现卓越。
我们以负责任的开放科学态度，将此模型以 Creative Commons 非商业许可发布，以便研究人员能够深入探究。

我们人类对周遭世界的认知大多来源于观察——尤其是在生命的早期阶段。就拿牛顿的第三定律来说：甚至婴儿或是猫，在将物品从桌上推下观察其落下后，都能直观感受到“物体上抛必将下落”的道理。这种认知不需长时间的教导或阅读海量书籍就能获得。你的内部世界模型——基于对世界的心理构建的理解——帮你预测了这一切，并且极其高效。

“V-JEPA 是让机器更实际理解世界、实现更广泛推理与规划能力的一大步。”Meta 的副总裁兼首席 AI 科学家 Yann LeCun 表示，他在 2022 年首次提出了 Joint Embedding Predictive Architectures（JEPA）概念。“我们旨在打造能够像人类一样学习、通过构建内部世界模型来适应和有效规划，以完成复杂任务的先进机器智能。”

深入解析 Video JEPA

V-JEPA 是一种非生成式模型，它通过在一个抽象的表示空间内预测视频的缺失或遮蔽部分来进行学习。这个过程与我们的图像联合嵌入预测架构 (I-JEPA) 相似，后者通过比较图像的抽象表示来分析图像，而非直接比较像素。不同于那些试图精确填补每个缺失像素的生成式方法，V-JEPA 能够忽略那些不可预测的信息，从而在训练和样本效率上实现了 1.5 至 6 倍的显著提升。

由于采用了自监督学习的方法，V-JEPA 完全依靠未标记的数据进行预训练。只有在预训练完成后，才使用标签来让模型适应特定的任务。这种架构比先前的模型更为高效，无论是在所需的标记样本数量还是在处理未标记数据的学习努力上。通过 V-JEPA，我们在这两个方面都实现了效率的大幅提升。

在 V-JEPA 的应用中，我们会屏蔽视频的大部分内容，只向模型展示极少的上下文信息。然后，我们让预测器去填补缺失的内容 —— 不是以实际像素的形式，而是以更为抽象的描述来完成这一任务。

通过预测在一个学习到的潜在空间中的时空区域被遮蔽情况，V-JEPA 训练了一个视觉编码器。

关于掩蔽的策略

V-JEPA 的训练并不旨在理解某一特定类型的动作，而是通过对各种视频进行自监督训练，从而学习到关于世界运作方式的多方面知识。团队也深思熟虑地选择了掩蔽策略：如果不遮盖视频的大片区域，仅仅是随机选取一些小片段进行遮蔽，这将使学习任务过于简单，导致模型无法学习到有关世界的复杂知识。

也很重要的一点是，在大多数视频中，随时间推移，画面变化通常较为缓慢。如果我们仅在视频的某一瞬间遮盖某部分，而让模型能看到这一瞬间之前和/或之后的内容，这样的任务对模型来说太简单了，几乎不会学到什么有趣的知识。因此，研究团队采取了一种同时在空间和时间上遮盖视频某部分的方法，这迫使模型学习并深入理解场景。

高效的预测方法

通过在抽象表示空间内进行预测，模型可以集中精力理解视频中包含的高层次概念信息，而不必担心通常对完成任务无关紧要的细节。毕竟，当一个视频显示一棵树时，我们不太可能关心每一片叶子的细微动作。

我们对这个新方向感到兴奋的一个原因是，V-JEPA 是首个在“冻结评估”方面表现良好的视频模型。所谓“冻结评估”，意味着我们完成了所有自我监督的预训练工作，主要针对编码器和预测器，之后就不再对这些部分进行调整了。当我们需要适配模型去学习新技能时，我们仅需在其上添加一个轻量级的专用层或小网络进行训练，这种方式既高效又快速。

在少量样本的冻结评估中，我们将 V-JEPA 与其他视频模型在 Kinetics-400 和 Something-Something-v2 数据集上进行了对比。这是在不同比例的标记样本可用于训练注意力探针的情况下进行的：我们尝试了使用训练集的 5%，10%，或 50% 的不同设置，并在每种设置下选取三个随机分组，以确保评估结果的稳定性，为每个模型进行了九次不同的评估实验。我们在官方的 K400 和 SSv2 验证集上汇报了平均成绩和标准偏差。与其他模型相比，V-JEPA 在标签效率上更胜一筹——具体来说，减少每个类别可用的标记样本数量使得 V-JEPA 与其他基线模型之间的性能差距更加明显。

在过去，要让模型精通某个具体任务，如精确识别细小的动作，我们需要对模型进行全面的调整，更新它的每一个参数。这样做会让模型变得只擅长这一个任务，而无法应对其他类型的任务。如果我们想让模型学习新的任务，就必须重新调整模型，并为新任务定制数据。但是，通过我们的新方法 V-JEPA，正如本研究所展示的，我们能够仅通过一次预训练，不需要任何标注的数据，就能使模型适应多种不同的任务，比如动作分类、识别复杂的对象互动以及活动的具体位置。

V-JEPA 是一种新颖的自我学习方法，能够通过观察视频自行学习信息，无需改变模型的结构，就可以应用于多种图像和视频分析任务。在进行图像分类、动作识别和时间空间动作检测等任务时，V-JEPA 的表现超越了之前的方法。

未来的研究方向...

虽然 V-JEPA 主要处理视频的视觉内容，但将声音纳入分析框架显然是下一步的方向。我们正在探索如何将声音和图像结合起来，以实现更全面的视频理解。

作为一个示例，V-JEPA 特别擅长于识别物体间的细节互动，如区分某人是在放下笔、拿起笔还是假装放下笔。尽管目前 V-JEPA 主要适用于短时间内的动作识别，我们正致力于扩展其在更长时间范围内进行预测和规划的能力。

...以及走向通用人工智能（AMI）的路程

迄今为止，我们利用 V-JEPA 主要研究的是感知问题，即通过解析各种视频流的内容，来理解我们所处周遭世界的一些基本情况。这个联合嵌入预测架构中的预测器，实际上是一种初步的物理世界模型：它能够在你无需完全观察画面的情况下，概念性地预告发生的事情。接下来，我们计划展示如何利用这种预测器或世界模型，来进行规划或连续的决策过程。

我们已经了解到，无需强化的监督，就可以训练 JEPA 模型来观察视频，就像婴儿一样被动地学习世界，从中吸取大量有关如何理解视频上下文的知识。这种方式意味着，仅凭少量的标注数据，就能迅速掌握新的任务和识别不同动作的能力。

V-JEPA 作为一个研究型模型，我们正探索其在未来可能的多种应用。比如，我们希望 V-JEPA 提供的上下文信息，能够助力我们的具身 AI 研究以及未来为 AR 眼镜打造的上下文感知 AI 助手项目。我们坚信开放科学的重要性，并且负责任地将 V-JEPA 模型以 CC BY-NC 许可证形式发布，以便让其他研究者能够在此基础上进一步开展研究。

点击此处阅读相关论文

点击此处获取代码

See all posts