在开放世界中的通用智能体 [译]

欢迎来到 GTC。本次会议将很快开始。我叫 Nathan Horrocks,我在 NVIDIA 工作。有时,我会参与到 Jim 的项目中。我很高兴能来到这里。我们现在就开始吧。

Jim Fan 是 NVIDIA 的研究经理,也是 Embodied AI 的主导人之一。他主要致力于开发具有泛化能力的自主智能体。为了应对这个重大挑战,他的研究涵盖了基础模型、政策学习、机器人、多模态学习和大规模系统。他在斯坦福大学获得了计算机科学博士学位。

开场:见证 AlphaGo 战胜李世石的历史时刻

谢谢大家这么早就来参加会议。我想给大家讲述一个关于 2016 年春天的故事。那时候,我在哥伦比亚大学上课,但其实我并没有在听讲座。我正在笔记本电脑上观看的是一个棋类比赛,这可不是一场普通的比赛,而是非常特别的一场。这场比赛的对手是 DeepMind 的 AlphaGo 和李世石。AI 赢得了五局中的三局,成为了首个在围棋比赛中击败人类冠军的 AI。我仍然记得那种见证历史的激动,当 AI 智能体终于成为主流的那一刻,是何等的辉煌。

但是当兴奋退去后,我意识到虽然 AlphaGo 很强大,但它只能做一件事。它不能玩其他的游戏,比如《超级马里奥》或《我的世界》,更别提做洗衣或洗碗这样的家务活了。而我们真正想要的是像《瓦力》那样多才多艺的 AI 智能体,像《星球大战》中各种不同形态和实体的机器人一样丰富多样,能够在无限的虚拟或现实世界中工作,就像在《头号玩家》里一样。那么,我们该如何在不远的未来实现这个目标呢?这就是你通往通用 AI 智能体的指南。

研究地图:通往通用 AI 智能体之路

大多数正在进行的研究可以从下面三个方面来看:一个 AI 智能体可以掌握的技能数量,它可以控制的实体数量,以及它能够理解的现实世界的数量。AlphaGo 的位置就在这里,但我们想要到达的是右上角。因此,我在我的职业生涯中的大部分时间都在思考如何跨过这些挑战,走向这个右上角。

今年初,我有幸在老黄的支持和祝福下建立了 GearLab,我对这个名字感到非常自豪。GearGAR 是通用化身智能体研究的简称。我与 Yuko Zhu 共同领导这项工作,这是我们七年前在斯坦福大学拍摄的照片,那时,Yuko 和我都还是李飞飞团队的博士生。我们经常举办机器人编程马拉松,尤其是在截止日期前,我们的生产力最高。这里的 Jay 来自 Dita 的团队,他也在英伟达研究中与 GEAR 紧密合作。我们三人都从斯坦福大学搬到了英伟达。哎,那时我们真年轻。看看博士学位让我们变成了什么样。寻求通用人工智能的过程充满了痛苦和挑战。

通用智能体的三大特征

那么,让我们回到基本原则。一个通用智能体需要具备哪些基本特征呢?我认为有三点。

首先,它应该能够在一个开放的世界中生存、导航和探索。一个具体的目标只有一个,而这个目标并不是开放的。

其次,世界知识。智能体应该拥有大量的预训练知识,而不是仅仅知道环境中的几个概念。

第三,作为一个通用智能体,它必须能够执行多项任务,理想情况下,应该能够执行无数任务。你只需使用任意语言给出提示词,智能体就应该能够为你完成任务。

那么,我们需要做什么呢?因此,我们需要的环境要有足够的开放性,因为智能体的复杂性受到环境复杂性的限制。以我们生活的地球为例,正是因为地球的开放性,才催生了名为自然进化的算法,创造出了地球上所有多样化的生命行为。那么,我们能否创造一个基本上是低保真度的地球模拟器,但我们仍可以在实验室的电脑上运行呢?

接下来,我们需要为智能体提供海量的预训练数据,因为在如此开放的世界中从零开始探索几乎是不可能的。这些数据将成为如何操作的参考手册,更重要的是,它会告诉我们什么是值得尝试的有趣事物。

最后,我们需要一个可扩展性强的基础模型,能将这大规模的数据转化为可操作的洞察信息。基于此,我们想到了"我的世界",这是史上最畅销的视频游戏。对于不熟悉的人来说,"我的世界"游戏是一个由 3D 立体像素程序生成的世界。在这个游戏中,你可以尽情发挥你的想象力。所以,该游戏的独特之处在于,"我的世界"并没有设定具体的最高得分或要遵循的目标。这使它非常适合作为一个真正开放的环境。

"我的世界"作为通用智能体发展的沙盒

因此,我们看到了一些令人印象深刻的创作,如有人在"我的世界"中一块一块地建造了霍格沃茨城堡。还有一些人,显然是寻求挑战,构建了一个功能性的神经网络,因为"我的世界"具有逻辑门,而且被证明是图灵完备的。

我想强调一个数字,"我的世界"有 1.4 亿活跃玩家。为了让你更好地理解这个数字,这比英国的人口多了一倍多。而且,游戏玩家们通常比博士们更愉快。他们热爱游戏,并乐于在网上分享自己的游戏经历。这个庞大的玩家群体每天都会产生大量的数据。问题在于,我们如何利用这些数据宝库?

因此,我们推出了 MineDojo,这是一个新的开放式框架,旨在帮助社区利用"我的世界"作为一种"原始汤",开发通用 AI 智能体。MineDojo 主要由模拟器、数据库和模型三部分组成。我们开发的模拟器 API 解锁了游戏对 AI 研究的全面潜力。我们支持像 RGB、体素和 GPS 等观察空间,以及两个不同层级的行动空间。MineDojo 可以根据地形、天气、怪物生成等各种细节进行定制。此外,它还支持自由形式和开创性的任务。

例如,我们可能希望 AI 智能体建造一栋房子。但是,什么才算是房子呢?在简单的 Python 代码中实现这种成功标准非常困难。唯一的方法就是使用在互联网技能知识上进行训练的基础模型,以捕捉"房子"这个抽象概念。

接下来,我们整理了一个关于"我的世界"的互联网技能知识库,目的是帮助 AI 智能体从基础开始学习,因为从零开始探索是非常困难的。这个数据库包含三部分内容。首先是视频。我们发现"我的世界"是网上直播最多的游戏之一,游戏玩家喜欢分享他们的游戏经验,因此,我们收集了超过 300,000 小时的游戏视频,视频的文字转录包含超过 20 亿个单词。第二部分是"我的世界" Wiki,它包含了 7000 页的多媒体内容,包括图片、表格和图表等。第三部分是"我的世界"的 Reddit 版块,我们发现人们在遇到"我的世界"的问题时会像在 Stack Overflow 上寻求帮助一样在这里寻求解答。

下面是我们的 MineDojo Wiki 数据集的一部分展示。你能相信吗,有人列出了所有的制作配方,有数千个,并且详细解释了所有的怪物,基本上包含了你在任何版本的"我的世界"中可能遇到的各种游戏机制。我从中领悟到,游戏玩家们真是有很多时间去投入游戏。不过,我对此并无怨言,毕竟,感谢他们提供了这么多的数据。感谢这些数据。

那么,我们应该如何利用这些数据呢?是时候训练一个基础模型了。这里的想法十分直接。对于我们的 YouTube 数据库而言,我们拥有时间同步的视频剪辑和剧本。这些实际上是真实的教程视频,就像在 TextPrompt 3 中看到的那样。当我在这只猪面前举起斧子,你知道接下来会发生的唯一的事情。这其实是来自 YouTube 的一个教程。接下来,我们可以训练一对编码器,将视频和剧本映射到一个向量嵌入中。然后,通过一个被称为对比学习的过程,可以对这些嵌入进行训练,这个过程实际上是将匹配的视频和文本联系在一起,将不匹配的视频和文本分开。这对编码器就被称为 MineCLIP 模型。从直观上来看,MineCLIP 学习了视频和描述视频中动作的剧本之间的关联。它会输出一个在 0 到 1 之间的分数,1 代表完美的描述,而 0 代表剧本与视频完全无关。

所以这实际上就变成了一种语言条件化的基础奖励模型,能理解森林、动物行为、建筑,以及你在"我的世界"中可以想到的所有抽象概念细微差别。那么我们如何将 MineCLIP 付诸实践呢?

在这里,一个智能体在和我们的 MineDojo 模拟器交互,任务是用英语去剪羊毛。智能体在探索过程中会生成一个视频片段,这个片段可以编码并输入到 MineCLIP 中,然后,它会计算关联度分数,越高智能体的行为就越符合文本提示词,这就成为了你可以选择的强化学习算法的奖励函数,这看起来很熟悉,对吧?

因为这就是来自人类反馈的强化学习,或者说 RLHF。RLHF 是支撑 ChatGPT 的基石,我相信它在驱动实体化智能体方面也将发挥关键作用。这里有一些我们训练出的智能体在各种任务中的表现。现在,我们把 MineCLIP 应用到这个《银河系漫游指南》的任务中,它能完成的任务比 AlphaGo 更多,但是你需要手动设定任务提示词并为每个技能进行训练,这是它的局限性。智能体本身并不能自我发现新的任务。

Voyager:GPT-4 驱动的自主探索者

但是,这一切在 2023 年 GPT-4 模型问世后发生了改变。GPT-4 是一个在编程和规划方面非常强大的语言模型。因此,我们开发了 Voyager,这是一个在技能数量上扩大了很大规模的智能体。当我们把 Voyager 放入"我的世界"游戏中,它能够在无人干预的情况下连续玩游戏好几个小时。我展示的这些视频片段都是从一次连续的游戏过程中提取出来的。Voyager 一直在进行任务,它探索地形、开采各种资源、与怪物战斗、制作数百种配方,并且不断解锁新的技能树。那么,是什么让它如此神奇呢?

关键的理念就是把编码当作行动。我们通过一个叫做 MinePlayer 的开源"我的世界"模组,将 3D 世界转换成了文本形式。Voyager 调用 GPT-4 生成 JavaScript 代码片段,这些代码片段在游戏中变成了可执行的技能。就像人类工程师一样,Voyager 写的程序并不总是一次就能做对。所以,我们提供了一种自我反思机制来帮助它改进。这种自我反思机制依赖于三个方面:JavaScript 执行错误,智能体的当前状态(比如饥饿和健康度),以及世界状态(比如地形或者附近的怪物)。智能体采取行动,观察其行动对世界和自己的影响,反思如何做得更好,然后不断尝试新的行动并持续改进。

当技能达到一定程度时,Voyager 会把这些程序存入一个技能库,你可以把它看作是一个代码库,这个库完全是 GPT-4 通过试错的方式建立起来的。然后,当智能体在未来遇到类似的情况时,就可以从库中取出技能来使用。通过这种方式,Voyager 在"我的世界"中探索和实验的同时,递归地提升自己的能力。

我们一起来快速看一个例子。此时,智能体的饥饿条已经非常低,所以它需要寻找食物。它感知到周围有四个生物:一只猫,一个村民,一只猪,还有一些小麦种子。于是,它开始内心独白,我是杀猫还是村民来获取食物?这感觉上似乎不太对。那小麦种子呢?我可以种植出农场,但那需要花费太多时间。所以,真的很抱歉小猪,你被选中了。接着它查看背包,从库中调取一项旧技能来制作一把铁剑,然后开始学习一项新的技能,叫做猎猪。现在我们也知道,不幸的是 Voyager 并不是素食者。

那么仍然有一个问题。Voyager 是如何持续不断地探索的?我们给予 Voyager 一个高阶指令,那就是要尽可能多地获取新的物品。Voyager 便实施了一项计划,以寻找新的挑战,并解决过程中日渐增加的困难。把所有这些结合起来,Voyager 就能够在旅途中不断掌握和发现新的技能。我们并没有预设任何编程。你所看到的这个就是所谓的终身学习,这是一个智能体永远抱有好奇心、总是勇于冒险的过程。

这是"我的世界"地图的两个鸟瞰图。最大的橙色圈表示 Voyager 行走的距离。智能体之所以能探索这么大的范围,是因为它需要通过移动来获取尽可能多的新奇物品。因为它热爱旅行,所以我们叫它 Voyager。相比于 MineCLIP,Voyager 能够自我掌握更多的技能,但是它仍然只能控制"我的世界"中的一个身体。我们是否能有一个在不同的身体形式中都能工作的模型呢?

MetaMorph:适应多种形态的机器人控制器

进入 MetaMorph。这是我与斯坦福研究人员共同开发的一个项目。我们创建了一个基础模型,它不仅适用于一个,还适用于成千上万个具有不同手臂和腿部配置的机器人。MetaMorph 能够轻松适应不同身体的极其多样的运动特性。

这是我们的直觉。我们开发了一个词汇表来描述机器人的部件,然后每个身体基本上就是用这个词汇表语言写出的一句话。更具体地说,每一个机器人可以被表达成一张关节图或者运动学树。你可以把身躯转换成一串 token,通过深度优先搜索遍历这棵运动树。这里的每一个 token 代表的是关节的一些物理性质,这个序列则描述了机器人的形态。不同的机器人可能有不同数量和配置的关节,但是分词器并不在乎,对吧?它会将它们转换成不同长度的序列,就像文本字符串一样。

那么我们要怎么处理这些序列呢?作为 AI 研究人员,我们的本能反应就是应用 transformer,这正是我们做的。所以,MetaMorph 输出的不是文本,而是每个关节的电机控制。由于我们想学习一种适用于各种形态的通用策略,我们将所有的机器人描述批量处理,并训练一个大型的多任务神经网络,就像 ChatGPT 一样。

不论一个机器人看起来怎样,对 MetaMorph 来说都是一样的。在 MetaMorph 看来它们都只是句子而已。我们可以通过并行训练所有的形态并进行强化学习来扩大其规模。在我们的实验中,我们展示了 MetaMorph 能够控制数千个机器人,这些机器人具有极其不同的运动性质,使其能够在不规则的地形上行走,避开障碍物。

我们还发现了一个有趣的现象。我们发现 MetaMorph 甚至可以零样本地推广,到从未见过的形态,这意味着只要使用正确的语言,Transformer 就能够在不同实体之间进行转换。

让我们稍微推测一下未来。如果我们进一步扩大机器人身体词汇,我设想有一天,MetaMorph 2.0 可以推广到机器人手臂、机器狗、不同类型的类人机器人,甚至更远。所以与 Voyager 相比,MetaMorph 在多体控制方面迈出了一大步。现在是时候将技能和身体跨越现实进行转移了。

Isaac Sim:GPU 加速的虚拟世界

进入 Isaac Sim,这是 NVIDIA 的仿真模拟项目。Isaac Sim 的最大优点是它能够运行物理模拟,以比真实时间快 1000 倍的速度。比如,这个角色学到了令人印象深刻的武术技能,通过在 GPU 上仅用三天的模拟时间进行了 10 年的虚拟训练,这就如同电影《黑客帝国》中的虚拟格斗道场。

在这个赛车场景中,模拟已经越过了不可思议的山谷,感谢硬件加速器光追。我们可以渲染出惊人的复杂世界,并具有令人叹为观止的细节。这里的逼真画面有助于我们训练计算机视觉模型,这将成为具身智能体的视觉。

更重要的是,在 Isaac Sim 中,我们可以利用程序生成无限的世界,而且没有两个世界会看起来完全一样。这儿有一个有趣的设想。如果一个智能体在 1 万个不同的模拟中接受训练,他们可能很好地适应我们的物理世界,这是第 10001 个现实。

让我们深入思考一下这个设想。那么,Isaac Sim 能够实现哪些新能力呢?这是 Eureka,一个达到超人水平机器人灵巧性的智能体。好吧,可能并非所有的人,至少比我要好,因为我在小时候就放弃了学习转笔,现在我终于可以让我的 AI 来弥补我的技能不足了。

Eureka:用语言引导强化学习

这就是我们的设想。Isaac Sim 有一个 Python API,用于构建训练环境,比如在模拟中创建一个五指的模拟手,以与笔进行互动。我们也假设人类编写的代码确定了成功的标准。例如,如果笔能够一致地达到特定的 3D 方向。这个成功标准只告诉你要做什么,却并没有告诉你如何用手指关节来做。

Eureka 的第一步是将环境代码和任务描述作为上下文输入到 GPT-4 中。这里的任务是让模拟的手将笔转到目标方向。然后,Eureka 会采样一个奖励函数。这是一个非常细致的信号,有助于将神经网络控制器引导向良好的解决方案。通常来说,专业的人类工程师需要手动调整奖励函数,这通常是一个繁琐且困难的过程,需要大量的迭代和专业知识。如果你对物理模拟不够熟悉,这项任务就可能无法完成。所以我们选择将其自动化。

一旦我们设定了奖励函数,我们就可以运行强化学习,通过大量的尝试和错误来使这个函数最大化。对 Eureka 来说,对其中一个奖励函数进行完整的训练只需要大约 20 分钟,而不是几天,这多亏了 Isaac Sim 中的大规模并行模拟。

当训练循环结束时,它会提供一个自动反馈报告,告诉 Eureka 它的表现。报告还会详细分析奖励函数中的不同部分,比如速度奖励和姿势奖励。综合这些信息,GPT-4 会生成一系列奖励函数的候选项,并对每个候选项进行完整的强化学习训练。Eureka 将自动反馈传递给大语言模型,要求它对结果进行自我反思。然后,大语言模型会思考如何改进,并提出下一代奖励函数候选人,然后再次进行这个过程。这就像是一种基于上下文的进化式搜索。

相比专业的人类工程师,Eureka 能够为每个任务,比如沿着不同轴旋转笔,找到更好的奖励函数。实际上,为了保证每种配置的正常运行,都需要对应的奖励函数。这对于机器人学者来说,一个一个手动调整无疑是个噩梦。相信我,我以前试过,简直快要抓狂了。GPT-4 比我们所有人都有更多的耐心。

所以值得注意的是,Eureka 是一种能弥补高层推理和底层马达控制之间鸿沟的通用方法。Eureka 采用了一种我称其为"混合梯度架构"的全新方法,大语言模型作为黑箱推理器指导一个可学习的神经网络。所以外层循环是无梯度的,运行 GPT-4 在编码空间中优化奖励函数。而内层循环基于梯度,训练一个强化学习控制器去实现你想要的技能。你必须同时进行这两个过程才能取得成功。

但是问题是,为什么只停在奖励函数呢?如果你足够细心,你会发现机器人体系里的每一样东西都像是代码,比如任务规格、机器人硬件规格,甚至是模拟环境本身,都可以通过代码来实现。对吗?

所以举个例子,我们可以使用像 URDF 这样的现成工具,而不是使用一种特别的语言来描述机器人的身体,人们通常在模拟堆栈中使用 URDF。URDF 只不过是一个 XML,可以用来描述机器人的身体形态。所以在未来,我设想 Eureka++ 将成为一个完全自动化的机器人开发者,利用这个基础设施去培训更优秀的智能体,并持续迭代。

我梦想的是有一天我可以去长假,而 Eureka 会一直向我更新进度,即使我正在海滩上度假。我们来看看离这个梦想还有多远,不过不要告诉老黄。在这个意义上,Eureka 并不仅仅是我们地图上的一个点,而是一种力量向量,它可以推动任何方向的前沿发展。

Groot:人形机器人的基础模型

随着我们在地图上的探索,我们最终会找到一个能够在所有三个维度上泛化的模型,这就是右上角的"基础智能体"。我相信,训练这种基础智能体的过程将和 ChatGPT 非常相似。所有的语言任务都可以被归类为文本输入和输出,无论是写诗、翻译,还是做数学。训练 ChatGPT 就是在大量的文本数据上进行扩大。同样的,基础智能体会接受一个实体化提示词和指令提示词作为输入,然后输出行动指令。我们只需在大量环境中大规模扩大它。

基础智能体是 GearLab 的下一章。昨天,老黄在他的主题演讲中宣布了我们路线图上的一项重要倡议,即 Groot 项目。我们的目标是为人形机器人构建一个基础模型。为什么要选择人形呢?因为这是最通用的形式。我们所生活的世界是为了适应人类和人类的习惯而形成的。理论上,我们在日常生活中可以做到的所有事情,都可以在足够先进的人形机器人硬件上实现。因此,我非常兴奋能与全球多家领先的人形机器人公司合作,使得 Groot 能够在不同的实体之间进行迁移。这是我在我们准备 GTC 的过程中最喜欢的一张照片,拍摄于 NVIDIA 总部前。

实际上,背后那栋大楼的名字叫做 Voyager。在这里,我们可以看到电子傅立叶的敏捷性和统一性,看看他们在 NVIDIA 总部是多么的快乐。

在一个更高的层面上,Groot 可以接受包括语言、视频和示范等多模态指令,并在模拟以及真实世界中开发技能。这有一个视频指令的例子。这是傅立叶智能的 GR1 机器人,它通过观看视频学习模仿人类的舞蹈动作。Groot 也可以通过人类的遥控示范来学习,比如 Apollo 的榨汁技能。为了这个演示,我们在 GearLab 买了很多水果,然后全部报销了。谢谢老黄。接下来是 GR1 通过模仿人类老师的动作来演奏鼓。

Groot 是在 OSPO 上诞生的,这是一个新的计算调度系统,用于在 DGX 上提升模型的规模,以及在 OVX 上进行模拟。我们在 Isaac 实验室为人形机器人运行了许多不同的环境,期望模型能适应各种技能和环境,并能在模拟与真实的场景间无缝迁移,以便我们可以大规模扩展训练,利用 GPU 加速的模拟环境。

放眼看去,我相信未来所有的物体都将实现自主运动。Groot 项目和人形机器人只是我们追求的第一步。有一天,我们将意识到,无论是在《瓦力》、《星球大战》还是《头号玩家》中,无论是虚拟世界还是物理世界,所有的智能体都只是对同一基础模型的不同输入。这,朋友们,就是我们追求通用人工智能的目标。请和我们一起踏上这个旅程。

谢谢。

问答环节

好的,感谢 Jim 的分享。会议现在进入问答环节。如果有人有问题,请到这个麦克风后面排队,我们会给他们提问的机会。

问题 1:关于 MineCLIP 和 Dreamery 3 的任务训练

好的,我非常欣赏 Jim 这次的演讲。我对即将到来的一切感到兴奋。现在,当我看到像"我的世界"这样的东西,你们有 Voyager,它正在使用 GPT-4 来获取所有这些信息。然后又有与之相反的方式,比如使用 Dreamery 3,它是完全从零开始,通过强化学习来学习。对于这个基础智能体,你认为哪两种任务更可能成为主要任务,还是说,可能是这两种任务的结合?

我觉得这是个很好的问题。我认为必然会是这两种任务的结合,因为我们必然会有系统一和系统二推理的区别,这是人类自己也存在的情况。所谓的系统二推理,其实就是缓慢、深思熟虑、高层次的推理。而系统一则更偏向于快速、直接、和动作控制。尤里卡就是其中的一个例子。你的大脑有一个缓慢的部分,它负责编写奖励函数,或者有朝一日,编写完整的模拟和各种环境。然后,你的大脑还有一部分迅速反应,利用强化学习来控制一只灵巧的手,这是像 GPT-4 这样的系统几乎无法直接控制的。你要如何用纯文本输出来控制那只手?而且这个过程还很慢。你必须以数百赫兹的速度进行。所以,我觉得肯定会有这种区分。它们也会以不同的频率进行推理,系统二的推理频率较低,系统一的推理频率较高。我觉得这也是人类思考问题的方式。我们会深思熟虑某些事情,形成全局的规划,然后这个规划就会影响我们的四肢动作。举个例子,当你拿起一个瓶子的时候,你并不会真正去考虑每个手指的具体位置,也不会去感知你手指接触瓶子的触感反馈。你不需要去深思它。这就像另一种低级神经网络在执行任务。

问题 2:关于 MetaMorph 与 GAN 框架的关系

嗨,Jim。非常感谢你。这真让人惊讶。我是表达公司数据科学副总裁 Lei Yu。我有一个关于你在初步阶段使用心灵链接作为反馈的问题。在那个框架中,你称这个为强化学习。我在想,这是否与 GAN 框架有关系,你使用心灵链接作为直接反馈,评估结果的好坏,作为判别器。然后你的生成器产生动作。你能解释一下吗?

是的。我认为这里确实存在联系。我认为更接近的类比可能是 RLHF,你正在从人类反馈中获取强化学习。而人类反馈部分是根据人类的偏好来学习的。在这里的情况实际上也是一样,只不过人类的偏好不是由我们雇佣的承包商来提供标签,而是通过学习大量的视频来获取,因为在线游戏的玩家们已经在描述他们正在做的事情。所以你有这种文本和视频之间的匹配。你可以把这个作为一个信号,确保无论智能体在做什么,它生成的视频都与文本提示相匹配,通过优化这个奖励函数。因此,我觉得这个模型确实有点像一个判别器,但现在它是基于语言的。因此,它是一个更强大的奖励模型,一个更强大的判别器。所以,你能说你的判别器是一个基于语言的判别器吗?我认为可以。它是一种基于语言的,像是分级的,对吧?评价视频或你的行动的好坏。所以它是一种判别器。

问题 3:关于 NVIDIA 对 GEAR 实验室的长期看法

我是来自加州大学伯克利分校的研究员,我认为这是一项优秀的研究。我们需要 GPU 加速器,从模拟到集成到这个过程的所有部分。所以我的问题是,NVIDIA 对这个 GEAR 实验室的长期看法是什么?你们是想要进行研究并为研究人员提供加速器基础设施以加速这个实体化的过程,还是你们希望提供像是服务于通用人形机器人的高层次解决方案?

所以,你的问题是关于研究的转移吗?

问题 4:关于 NVIDIA 对 GEAR 实验室的定位和合作伙伴

是的,你认为最大的挑战是什么,你接下来关注的步骤是什么呢?

这是一个很好的问题,因为我在创建 GEAR 时也深思过这个问题。我对 GEAR 的定位是,主要以研究为导向。我认为 GEAR 在根本上仍然是一个研究实验室,因为与 LLMs 不同,虽然现在已经有了一套成熟的方法,但是机器人学领域并没有。目前还没有人真正知道如何扩大机器人技术的规模,以及如何让它在各个系统之间进行通用。还没有人找到这个问题的答案。由此可见,这本质上仍然是一个研究项目。

同时,老黄这次不仅宣布了 Groot,还有一些与 Groot 相配套的东西。其中之一就是 OSMO,我在我的幻灯片里也提到过。这是一个计算编排系统,就像一个异构计算框架,来调度 DGX 和 OVX,一个用于训练大型模型,一个用于模拟。因此,OSMO 与 Groot 一起推出,因为 Groot 需要这种非常特殊的基础设施。对于 LLMs,你不会有这个问题。你没有模拟器。但一旦你有了模拟器,计算图就变得非常复杂,你需要像 OSMO 这样的东西,它可以作为云服务提供。

接下来是 Jensen Thor,未来有一天它会在边缘计算设备上驱动 Groot。或者所有已经部署的类人机器人上。所以我们在这里正在构建的其实是一个生态系统。我看 Groot 是这个生态系统中的一个基石,你需要一个真正可以工作的基础模型,来使类人机器人变得有用。现在的类人机器人更像是个新奇玩意,他们并不实用。就像没人真的在家里有个可以为他们做所有杂活的类人机器人,这顺便说一下,是我的梦想。不过,我现在还是很懒,我正在努力保持我的懒散。所以我一直在研究这个。但还没有类人机器人能达到那个水平。

所以我们首先需要确保这些机器人能工作,然后我们可以开始部署,甚至进行大规模部署,我们可以将模型的计算一起打包发送。我们可以将这些模型与计算基础设施一起提供。我们甚至可以开放 API,让人们可以部署在他们自己的机器人上定制 Groot。但现在这个设想还未实现。所以,它更像是目标驱动的研究。

好的,谢谢。

再问一个快速的问题。我听到老黄提到你们有合作与一些大型机器人公司,对吗?那些制造人形机器人的公司。那像是初创公司或研究团队呢?你们预计会和他们有合作吗?

是的,很多制造人形机器人的公司本身就是初创公司。当然,我们欢迎像你这样的研究人员和学生加入我们。你可以通过这个链接申请。我们正在招聘。请随时申请,我希望全球最优秀的人才都能加入我们,与我们一起在这个宏大项目上共同努力。

对不起,我想进一步明确我的问题。对于像研究实验室这样的机构来说,接受这种基础设施,你们认为这是你们在寻找的合作伙伴吗?

你是说像与研究实验室这样的合作伙伴吗?是的,我认为这更多是因情况而定的,因为对于类人机器人来说,硬件目前还没有得到广泛应用。但我愿意进行讨论。

我明白了,谢谢。

问题 5:关于技术产业和学校合作培养学生

你好,Jim。首先,我也在期待一种可以来打扫房子的机器人。所以我非常期待它,我要问你一个完全不同的问题。我和学区做了很多工作,和高中生们一起,这是我热衷的项目之一,我不断看到学生们所学的知识和劳动力市场真正需要的知识之间的鸿沟,随着 AI 和机器人技术的发展,这个鸿沟正在急剧扩大。那么,你对技术产业与学校之间的合作有什么建议,学校应该如何为学生做好准备?我说的不仅仅是大学阶段。我更关注的是高中四年级的学生,我看到很多很多的困惑,我也给他们做了很多讲座和会议,也很乐意邀请你参加。

对,我认为对于像高中生这样的学生或者说是教育总的来说,我觉得现在 AI 的一个优点就是它的入门门槛已经显著降低了。比如说,任何一个学生,无论是初中生还是别的,都可以注册一个大语言模型帐户,然后开始使用这个 API,构建智能体。他们实际上可以在不需要太多资金的情况下复制 Voyager 项目。我们已经把代码开源了。你可以把它连接到 NVIDIA 的大语言模型 API。你可以将其连接到 OpenAI 的 API。这非常便利且成本不高。因此,我认为现在的入门门槛已经降到了前所未有的程度。当我还是高中生的时候,我甚至没有机会接触计算机科学课程。我在大学时才编写了我的第一行代码,我感觉现在的情况已经变了,我很愿意回到年轻时,从初中就开始使用大语言模型 API 编程。那将是最酷的经历。

是的,谢谢。非常感谢你,我很高兴邀请你与学生们一起,向你学习。

问题 6:关于智能体如何学习到物理知识

你好,Jim,谢谢你的演讲。我想问一个关于物理的问题。在你演讲的开头,你提到了智能智能体的一个特性就是对世界的理解。能否详细解释一下?你是如何从这种训练中学习物理的?因为你向我们解释了任务计划可以嵌入到类似于 GPT 的模型中,但物理知识的学习却大不相同。如果你能详细解释一下,我将非常感谢。

是的,我认为这是一个非常深入的问题。我不认为我们有一个非常明确的答案,但我可以分享一下我的理解。我认为如果在大量的视频上进行训练,并且做得足够好,模型将能够学习到一种我们称之为'直观物理'的物理知识,这也是人们在实际生活中的做法。我们在日常生活中并不会在大脑中计算微分方程或精确的物理现象。比如说,如果我现在打翻这杯水,我并不知道每个水分子将如何移动,我并不会去计算这个。但是我知道我会把这弄得一团糟,然后 Nathan 就会对我很生气。这就是我们所说的"直观物理",我能大致预测出我的行为会带来什么后果。

因此,我认为在大量视频上训练的模型,比如预测性模型如 Sora,如果你在预测未来方面做得很好,那就意味着你必须实现一种隐式的直观物理引擎,以实现泛化。你需要理解,当你打翻一杯水,它会破碎,这样一些抽象的概念。我个人认为,如果你用这些模型去做精确的物理计算,可能效果并不理想,但如果你在机器人技术中使用这些模型,那这可能就是我们需要的数据。因为对于机器人来说,他们并不需要去精确计算每个水分子的运动,他们需要的只是像人类一样的操作方式,对世界的直观理解,以及从中学习因果关系。物理其实也是一种因果推理。这就是我认为视频和这类模型将如何帮助机器人智能的发展。

问题 7:关于 Eureka 发现不同技能的能力

嗨,Jim,感谢你的演讲。我对你的工作有几个问题,这些问题对我们很激励。问题主要和你的混合梯度框架有关,对我来说,这个框架更像是无缝对接到文献中的无奖励框架。我们如何确保 Eureka 能发现与众不同的技能呢?Eureka 如何帮忙找到新的、不同的技能,以便更好地探索,找到新的可能性呢?

我认为 Eureka 的能力在一定程度上会受到基础模型本身的影响。Eureka 是基于 GPT-4 构建的,这已经是很久以前的事了。我认为 GPT-4 本身已经得到了改进,现在还有 Gemini 模型和云模型。因此,哪个模型更富有创造性、更具多样性,Eureka 就会从这个模型那里继承。所以,如果模型本身缺乏多样性,那么可能只会陷入某种局部最低点,无法提出新的解决方案。但至少在我们论文中的实验里,我们针对一些需要灵巧操控的任务,我认为 Eureka 在这个功能空间内的搜索做得非常好。实际上,我们在论文中有一张图表显示 Eureka 设计的奖励函数实际上比人类工程师能提出的要优秀。就像我说的,人类工程师不得不进行反复试验,这样做简直就像是一场噩梦。因此,Eureka 就是为了自动化这个过程并做得更好。但这并不意味着它可以在所有领域都发挥出色的作用。这真的取决于 LLM。

问题 8:关于将研究从实验室应用到现实世界的挑战

你好,Jim,感谢你分享关于你的使命驱动的研究。我是哥伦比亚商学院的 Davé。我想知道,你认为你的研究从实验室应用到现实世界的最大挑战是什么?

所以,你的问题是关于研究的转移吗?是的,你认为最大的挑战是什么,你接下来关注的步骤是什么呢?

谢谢。最大的挑战。我认为,将模拟应用到现实中非常困难。因此,我相信,如果你在 10,000 个模拟中接受训练并且在它们中都表现优秀,你就有很大的机会成功地将其应用到现实世界。但实际情况并非总是那么简单,对吧?这取决于很多因素。其中之一是模拟的逼真度。你肯定希望模拟能尽可能地精确或者至少不在关键的领域出现系统性的错误。机器人的硬件本身也可能出现故障,对吧?软件实现现实应用时也可能存在错误。出错的可能性是多方面的。

但是到目前为止,我们以及过去 NVIDIA 研究的工作,在实现模拟转移到现实应用方面已经取得了相当大的成功。我们采用了一种被称为"领域随机化"的方法,就像创建了 10,000 种不同的模拟环境,每一种都有稍微不同的物理参数,比如不同的重力,不同的摩擦力。如果你的模型能对所有这些变化保持稳健,那么它就能有效地应对现实世界中的各种情况。因为你可能并不完全知道现实世界的重力和摩擦系数,它们可能会有些许的偏差。但如果你的模型对这些参数的分布具有鲁棒性,那么现实世界中的参数实际上也就落在你模型能处理的范围之内,你的模型就能泛化到现实世界。但这只是理想情况,实际情况中并不总是这样。我认为将模拟应用到现实中是这里的一个关键挑战。这是一方面。

另一方面,目前还没有人能完全解决机器人技术的问题。如果有人告诉你他们已经解决了机器人技术的问题,那你要有所怀疑。我并不相信现在已经有人能完全解决这个问题。机器人技术面临的一个关键问题,也是它所面临的难点,就是数据。对于像我之前说的 ChatGPT 这样的模型,你可以获取大量的互联网文本数据,然后扩大模型的训练规模。但在互联网上获取机器人控制的数据几乎是不可能的。这就是为什么机器人技术比如像 GPT-4 这样的技术要难得多的一个原因。那么,你又该如何收集这类数据呢?在我们的 GEAR 实验室的规划中,我们正在考虑多种数据的结合。你需要互联网数据,你需要模拟数据,你也确实需要真实的机器人数据。这些不同来源的数据各有优缺点,互为补充。所以比起只需要互联网数据的语言模型训练,这一过程要复杂得多。因为在这里你需要考虑其他两种来源的数据。对于机器人技术来说,你需要考虑整个系统。

因此,除了将模拟应用到现实中,数据问题是我看到的第二个关键挑战。

第三个挑战是如何将规模做大。尽管这与数据问题有关,但是如果你有互联网上的所有视频,你又能从中学到什么呢?你会预测下一帧吗?即使你有一个 SORA 模型,你又该如何将这个模型应用到机器人技术上呢?这个问题并不容易回答,为什么呢?因为 SORA 模型并没有包含动作这个要素。这是从文本转化为视频的过程,但你想要的是其中的动作。动作的捕捉是非常困难的,尤其是在你有灵巧手部的人形机器人中。动作的获取真的非常困难。所以,即使你拥有全世界的计算能力,拥有全世界的数据,如何从中抽取出具象化智能体的信号,这仍是一个未解决的难题。这就是为什么我说 GEAR 实验室是一项以使命为驱动的研究,尽管面临许多困难,但这是一个我们无法推迟的关键任务。

谢谢。感谢你的分享。

结束语

对不起,这是我们的最后一个问题。让我们为 Jim 的演讲鼓掌好吗?

谢谢大家。

我想提醒大家,这个会议将在 GTC 结束后提供回看,如果你想复习的话。下一个会议将是 Bill Daley 和李飞飞的炉边谈话。

谢谢。感谢你参加这个会议。请记得在 GTC 应用程序中填写会议调查,有机会赢取 50 美元的礼品卡。如果你打算在下一场会议中留在房间里,请保持你的座位,有你的入场证准备好由我们的团队扫描。

谢谢各位。