No Priors 第 61 集 | 采访 OpenAI 的 Sora 团队负责人 Aditya Ramesh、Tim Brooks 和 Bill Peebles [译]

Sora 团队介绍

Sarah: 嗨,亲爱的听众们。欢迎收听"No Priors"的另一期节目。今天,我们有幸与 OpenAI 的 Sora 团队进行交谈,Sora 是一种新的生成式视频模型,能够接受一段文本提示词,然后返回一段视频剪辑高清、视觉连贯的,长达一分钟。Sora 也引起了人们的思考,即这些大规模的视频模型是否是世界模拟器,同时它把可扩展的 Transformer 架构应用到了视频领域。我们今天的嘉宾就是 Sora 的团队成员们。Aditya Ramesh、Tim Brooks 和 Bill Peebles。欢迎来到"No Priors",各位。

Aditya, Tim, Bill: 感谢你们的热情款待。

Sarah: 首先,希望每个人都能进行一下自我介绍,好让我们的听众知道我们正在与谁交谈。Aditya,你愿意先来吗?

Aditya: 当然。我是 Aditya。我与 Tim 和 Bill 一起领导 Sora 团队。

Tim: 嗨,我是 Tim。我也是 Sora 团队的负责人。

Bill: 同样,我是 Bill,也是 Sora 团队的负责人。

Sarah: 很简单明了。

利用 Sora 模拟世界

Sarah: 也许我们可以从 OpenAI 的使命开始,你知道,那就是 AGI,对吗?更强大的智能。把文本转化为视频,这是否是实现那个使命的途径?你是怎么开始做这个的?

Bill: 是的,我们坚信像 Sora 这样的模型在通往通用人工智能的关键道路上。我们认为一个很好的例子是一个场景,一群人在冬季的东京漫步。在那个场景中,有着许多复杂的元素。例如,你有一个摄像机在场景中飞越。有许多人在互动,他们在交谈,牵手。附近的摊位上有人在售卖物品。我们确实认为这个样本展示了 Sora 是如何走在能够模拟极其复杂的环境和世界的道路上,而这一切都蕴含在神经网络的权重中。展望未来,你知道,为了生成真正逼真的视频,你必须要理解人们是如何工作的,他们是如何与他人互动的,他们最终是如何思考的。并且不仅仅是人,也包括动物,实际上是你想要模拟的任何类型的对象。因此,展望未来,随着我们继续扩大像 Sora 这样的模型,我们认为我们将能够构建这样的世界模拟器,基本上,任何人都可以与这些模拟器进行互动。我,作为一名人类,可以运行自己的模拟器,然后,像是让模拟器中的人类去完成一些任务,他们完成后会带着成果回来。我们认为,这将成为实现通用人工智能的途径,随着我们在未来不断扩大 Sora 的规模。

构建最具价值的消费者产品

Sarah: 尽管人们普遍认为我们距离目标还很遥远,但消费品的需求量巨大,那么,这是否在我们的规划之中?在你可以更广泛地利用 Sora 之前,你还需要做些什么工作?Tim,你能谈谈这个吗?

Tim: 当然。我们非常希望与 OpenAI 之外的人一起探讨 Sora 将如何影响世界,如何对人们产生积极作用。虽然我们目前还没有制定出具体的产品计划或时间表,但我们正在向一小部分艺术家和红队成员开放 Sora,以便更好地了解 Sora 可能带来的影响。我们正在收集艺术家的反馈,了解如何使 Sora 成为他们的有效工具,以及红队成员的反馈,了解如何确保产品的安全性,以及如何将其推向公众。这将决定我们未来研究的方向并决定我们是否会在未来推出产品,以及可能的时间表是什么。

Sarah: Aditya,你能告诉我们一些你收到的反馈吗?

Aditya: 是的,我们已经向数量有限的艺术家和创作者开放了 Sora,以获取早期反馈。总的来说,我认为一个重大问题就是模型的可控性。目前,模型只接受文本输入。尽管这有用,但在明确指定你想要的描述方面,还是有一些限制。因此,我们正在思考如何扩展模型的能力,可能在未来,你可以提供非文本的输入。

Elad: 你们有没有最喜欢的作品或视频,或者你们看到艺术家或其他人使用它时,有没有特别触动你们的事情?我记得当它刚发布的时候,很多人都被一些图像的美丽所吸引,你可以在图像中看到一只猫在水潭中的影子,这些细节所震撼。但我很好奇,随着越来越多的人开始使用它,你们观察到了什么新的趋势?

Tim: 是的,看到艺术家如何运用这个模型,真的让人感到惊奇。我们自己也有一些想要尝试的东西,但那些创作内容的专业人士,他们的创造力如此惊人,能做出许多出色的作品。比如,Shy Kids 就制作了一部非常酷的视频,他们讲述了一个名为"气球人"的短篇故事,用一个有气球脑袋的角色他们用心地塑造了这个故事。这真的很酷,能看到他们能借助 Sora 解锁了新的途径,使他们能更容易的讲述好这个故事。我认为这里更多的不是关于 Sora 制作的某一段视频或剪辑,而是这些艺术家们想要讲述的故事,他们能够分享,Sora 能够帮助实现这个目标。这真的让人感到惊奇。

Sarah: 你提到了东京的场景。还有其他的吗?

Bill: 我个人最喜欢的视频样本就是"bling zoo"。在我们推出 Sora 的那天,我在 Twitter 上发布了这个。这其实是纽约一家动物园的多角度场景,同时也是一家珠宝店。你会看到,剑齿虎等动物,被华丽的珠宝装扮得熠熠生辉。

Sarah: 这真是太神奇了。

Bill: 是啊,的确如此。我特别喜欢这样的案例,因为像我这样的虽然热爱创作,但技术水平还不咋地,但现在借助这个 AI 模型就可以很容易的去尝试各种创意,做出有吸引力的内容。举个例子,实际生成这些内容的时间,就是我在不断迭代提示词,甚至不到一个小时。所以,我得到了一些我很喜欢的作品。我享受了很多乐趣,从模型中创作出这样的作品过程中。看到艺术家们也喜欢使用这些 AI 模型,并从中创作出精彩的内容,我感到非常高兴。

Elad: 你认为需要多久的时间这种 AI 模型能在短篇电影或其他领域的更广泛应用?例如,如果你看看皮克斯的发展,他们最初制作这些皮克斯短片,然后其中一部分演变成了这些长格式的电影。在很大程度上,这取决于他们能够多好地模拟世界,甚至是头发的运动这样的微小细节。因此,观察这种早期的技术如何发展是非常有趣的,我认为这种技术现在已经有 30 年历史了,或者说差不多这样的时间。你是否预测了一下,我们会在何时开始看到实际的内容出现,这些内容或许出自 Sora,或许出自其他专业生产的模型,并逐渐成为更广泛的媒体类型的一部分?

Tim: 这是一个好问题。我无法预测确切的时间线,但我真心关注的一件事是,除了传统的电影,人们可能会用 AI 模型创作出什么其他的东西。我想,也许在未来几年中,我们会看到人们开始制作越来越多的电影,但我认为人们也会找到全新的方式使用这些 AI 模型,这些方式将与我们现在习惯的媒体形式大相径庭。这是因为这是一个全新的范畴,当你可以告诉这些 AI 模型你希望看到什么,它们可以做出相应的反应,可能会有如此的情况,即出现全新的与内容互动的方式,这些方式会被那些富有创造力的艺术家所发掘出来。因此,我其实最期待的是人们能做出什么全新的创作,这些创作与我们现有的内容截然不同。

替代用途和模拟功能

Elad: 你之前提到的一点非常有趣,这个模型也能够进行世界建模。而且 Aditya,你大约在 OpenAI 工作了五年,因此你见证了该公司的许多模型的演变,以及你的工作成果。我记得刚开始的时候,我们在办公室里主要是做一些关于机器手臂的研究以及自我游戏的研究等等。当你思考这个世界模拟模型的能力时,你是否认为它能成为一个物理仿真引擎,比如人们可以在其中模拟风洞效应等?它是不是可以为机器人学及其应用提供基础?或者它还有其他的可能性?我很好奇,未来可能有哪些新的应用会出现。

Aditya: 是的,我完全认同,未来我们将能在视频模型中进行模拟。Bill 对此也有很多独到的见解,也许你可以...

Bill: 是的,我想你对机器人技术等应用的看法十分准确。你知道,从视频中能学到很多东西,这是你不一定能从其他模态得到的,比如 OpenAI 等公司过去大量投入的语言。比如,手臂和关节在空间中是如何运动的等等细节。再次回到东京的那个场景,那些腿是如何移动的,它们是如何以物理精确的方式接触地面的。因此,通过对原始视频的训练,我们对物理世界有了更多的了解,我们真的相信这对于未来的物理实体移动至关重要。

扩散 Transformer (Diffusion Transformers) 详解

Sarah: 再来谈谈模型本身,这里面有很多真正有趣的创新,对吧?Tim,我不是想让你为难,但你能为广大听众描述一下什么是扩散 Transformer?

Tim: 当然可以。Sora 是建立在 OpenAI 的 DALL-E 模型和 GPT 模型研究的基础上的。扩散是一种产生数据的过程,在我们这里,特指的是生成视频。它的原理是从噪声开始,逐步去除噪声,直到最后去除了大量的噪声,形成了一个样本。这就是我们生成视频的过程:从一个充满噪声的视频开始,然后逐步去除噪声。然后在架构上,我们的模型必须可以扩展,能够处理大量的数据,和学习视频中那些非常复杂且具有挑战性的关系。因此,我们使用了类似于 GPT 模型的架构,也就是我们常说的 Transformer。所以,"扩散 Transformer"就是这两个概念的结合,而 Transformer 架构使我们能够扩展这些模型。随着我们投入更多的计算资源和数据训练它们,它们的表现将越来越好。实际上,我们已经发布了一份关于 Sora 的技术报告,其中展示了相同提示词的生成结果,当你使用少量的计算资源,中等数量的计算资源和大量的计算资源。通过这种方法你会发现,随着你投入越来越多的计算资源,得到的结果也会越来越好。我们深信这个趋势将会继续,所以通过采用这种简单的方法,我们将能够不断改进这些模型,通过投入更多的计算资源和数据,并且他们将能够做到我们一直在谈论的所有这些神奇的事情,在长期生成中有更好的模拟。

视频的模型规模效应

Sarah: Bill,我们可以用这种模型的规模效应来描述它的全部特性吗?

Bill: 好问题。就像 Tim 提及的,使用 Transformer 的一个好处是你可以继承它们在其他领域(例如语言)中所显示出的所有优良特性。所以,你确实可以开始让视频生成(不是语言生成)适用规模效应。这正是我们团队正在积极研究的问题,我们不仅在构建这些规则,还在寻找如何优化它们的方法。如果我使用相同的训练计算资源,我能否在不大幅增加计算需求的情况下获得更好的"损失(Loss)"?这些都是我们在研究团队中每日面临的问题,我们希望使 Sora 和未来的模型尽可能优秀。

Sarah: 在这个领域应用 Transformer 的一个问题就是分词器,对吗?顺便说一句,我不知道是谁起的这个名字,但"潜在时空补丁"真是个非常科幻的名字。你能解释一下这是什么,并说明为什么它在这里是相关的吗?因为它能实现分钟级的生成,并实现视觉和时间的连贯性,这真的很了不起。

Tim: 我认为我们并没有把它当作一个名字来提,更像是用来详细描述这个东西,就像我们通常所说的那样。

Sara: 是的,这甚至更好。

Tim: 对。

对视频实施端到端深度学习

Bill: 对于 LLM 范式来说,Token 的概念是一项关键的成功因素。如果你查看互联网,你会看到各种类型的文本数据,比如书籍、代码和数学等。而语言模型的美妙之处在于,它们有一个统一的 Token 概念,让它们能够处理各种类型的数据。而在此之前的视觉生成模型并没有类似的概念。你知道,在 Sora 出现之前,标准的做法是在 256x256 分辨率的图片或者同等分辨率、时长为四秒的视频上训练图像或视频生成模型。这种方式非常有限,因为它限制了你可以使用的数据类型。你必须舍弃互联网上的大量视觉数据,这就限制了模型的通用能力。而 Sora,我们引入了一种新的概念,叫做空间 - 时间片段,你可以用这种方式来表示任何形式的数据,无论它是在一张图片中,还是在一个很长的视频,甚至是在一个竖直的长视频中,只需要取出立方体。你可以把一个视频想象成一个个图片垂直堆叠起来,然后你可以从中取出 3D 的立方体。这就是我们的 Token 概念,我们将其输入到 Transformer 中。因此,Sora 的功能远不止生成固定时长的 720p 视频。它能够生成垂直视频,宽屏视频。它可以生成任何从一比二到二比一的纵横比的内容。它还能生成图像,也就是一个图像生成模型。这是第一个视觉内容生成模型,其通用性与语言模型相当。这就是我们选择这个方向的原因。

Sarah: 在输入和训练方面,它也同样重要,就像能够处理不同类型的视频一样。

Bill: 毫无疑问,这个项目的一大部分是开发必要的基础设施和系统,以处理以前的图像或视频生成系统所不需要的大量数据。

Tim: 在 Sora 之前,很多处理视频的模型其实都是在扩展图像生成模型。因此,在图像生成方面有很多优秀的研究。许多人做的就是取一个图像生成器并稍作扩展,从单一图像扩展到几秒钟的内容。但对于 Sora 来说,真正重要的是,我们并没有从图像生成器出发,然后试图添加视频,而是从零开始。我们最初提出的问题是如何制作出一分钟的高清视频?这就是我们的目标。有了这个目标,我们明白不能仅仅依靠扩展图像生成器。为了制作出一分钟的高清视频,我们知道我们需要一种可扩展的方法,能将数据简单地分解,这样我们才能应用可扩展的模型。因此,这实际上是我们从图像生成器转变到 Sora 的架构演变的过程。

Elad: 这是一个非常有趣的框架,因为它看起来可应用到许多其他人们尚未运用端到端深度学习的领域。

Tim: 是的,我认为你说得对。这是很有道理的,因为在最初阶段,我们并非第一个研发出视频生成器的团队。很多人已经在视频生成方面取得了令人瞩目的成果。但是我们的想法是,我们宁愿选择一个更远的未来目标,并为此努力工作一年。因为 AI 的发展速度极快,所以存在着快速行动的压力。最快的做法就是,好,我们采纳现有的有效方法,并尝试在其基础上增加一些新的东西。如你所说,这不只适用于从图像到视频的转化,也适用于其他领域。但有时候,我们需要退后一步,去思考 "三年后的解决方案会是什么样的?让我们现在就开始构建吧。"

Elad: 是的,最近在自动驾驶领域,也出现了类似的过渡,从特定的边缘案例预测和启发式规则,甚至所有的深度学习,转向了一些新模型的端到端深度学习。看到它能应用于视频真的很激动人心。

调整 Sora 的视觉风格

Elad: Sora 的一大亮点就是它独特的视觉审美。我有些好奇,你是如何调整或塑造这种审美的?我知道在一些更传统的图像生成模型中,你们有一些反馈可以帮助审美的演变。但有时候,人们甚至会去调整模型本身。所以我想知道,在设计 Sora 的过程中,你是如何考虑这个问题的。

Aditya: 嗯,说实话,我们在 Sora 上并没有花很多精力做这方面的工作。

Sarah: 这个世界本来就美丽吗?

Aditya, Bill, Tim: 是的。

Sarah: 哦,这个答案太棒了。

Aditya: 我想这可能是对大部分情况最诚实的回答。我认为 Sora 的语言理解能力确实让用户能够以一种对其他模型来说更困难的方式去引导它。你可以给出很多提示词和视觉线索,这将引导模型产生你想要的结果。

Sarah: 但是,这并不意味着 Aditya 的审美就深深地嵌入其中。

Aditya: 是的,还没到那一步。但我觉得未来的发展方向,我觉得模型能够理解和适应你的个人审美,会是很多人所期待的。我们接触到的许多艺术家和创作者,他们希望能够把他们的全部作品上传到模型中,然后在编写剧本时,可以借鉴到大量的作品,让模型理解他们的设计公司积累了几十年的专业术语等等。我认为个性化以及如何和美学协同作用,是未来值得探索的一个有趣领域。

向每个人提供“桌面版皮克斯”的道路

Sarah: 我同意 Tim 对于新的应用超越传统娱乐的观点我需要工作,旅行,还有照顾年幼的孩子我不清楚这是否应被评判但我现在的一项工作是创造一种类似短篇有声书的东西,通过人声克隆、DALL-E 图像和像魔法树屋这样的故事风格,它可能围绕着我感兴趣的话题,比如跟罗马皇帝 X 一起度过的时光或者是我的孩子们感兴趣的话题。然而,这在计算上昂贵且困难,目前还无法实现。但我可以想象存在一种像桌面版皮克斯那样的东西。我认为孩子们会首先发现它。我会讲述一个故事,然后实时生成魔幻般的视觉效果。我认为这将是一种与我们现在所拥有的完全不同的娱乐模式

Tim: 完全同意

Sarah: 我的意思是,我们会达到这个目标吗?

Tim: 是的我认为我们正在朝这个方向前进这不仅是一个不同的娱乐模式也是一个不同的教育模式和交流模式娱乐只是其中的一部分但实际上,一旦理解了我们的世界,我认为会有许多潜在的应用场景我们的世界体验大部分都是依赖视觉的。这些模型最酷炫的一点是它们开始能更好地理解我们生活的世界 和我们的行为。我们可能会利用它们来娱乐,也可以用来教育我们。比如,如果我想学习某样东西,最好的方式就是有一个定制的教育视频为我解释。或者,如果我想向别人传达某件事,我能做的最好的沟通方式就是制作一个视频来阐述我的观点。所以我认为,不仅可以用于娱乐,这些影像模型还有广泛的应用前景。

Sarah: 这是有道理的。我想,如果你问一些较年轻的人,他们可能会说今天教育领域的最大驱动力是 YouTube。

Bill: 没错,

Sarah: 无论好坏。

视觉模型的安全措施

Aditya: 对的。

Elad: 你们有尝试将这个技术应用在数字化虚拟形象方面吗?比如,像 Synthesia,HeyGen 这样的公司在这个领域做了一些有趣的工作。但是,有一种真实的东西能够深入且丰富地体现一个人的特性,作为一种可能的适应方法,这听起来很吸引人。我只是好奇你们是否尝试过类似的事情,或者其实这个技术并不太适用,因为它更像是文本到视频的提示词。

Tim: 至今为止,我们的关注点主要还是这项技术的核心部分。特定的应用,我们并没有过多关注,包括虚拟形象的概念,尽管这个概念有很大的意义。我认为试一试会很有趣。我觉得我们现在在 Sora 的发展轨迹上,就像这是视觉模型新范式的 GPT-1 阶段,我们正在深入研究,让这些模型更好,让它成为一个更好的引擎,能够驱动所有这些不同的事物。因此,我们目前的重点是这项基础技术的发展,可能比特定的下游应用更为重要。

Elad: 是的,有道理。我问到虚拟形象的问题,是因为它引发了关于安全性的问题。所以我有点好奇,你们是如何考虑安全性的,在视频模型的背景下,以及由于可能存在的深度伪造或欺诈等因素,带来的潜在风险。

Aditya: 是的,我可以稍微谈谈这个问题。这确实是一个相当复杂的问题。我认为许多安全防护措施可能可以从 DALL-E 3 中借鉴过来。例如,我们处理恶心或血腥图像的方式等等。肯定会有新的安全问题需要关注,虚假信息,或者我们是否允许用户生成带有冒犯性词语的图像等。我认为,我们首先需要明确的是,使用这种技术的公司应该承担多大的责任?例如,社交媒体公司应该承担多少责任来保证用户知道他们看到的内容可能不来自可信的来源?那么,用户在首次使用这项技术创造内容时,应该承担多少责任呢?这确实是个棘手的问题,我们需要认真考虑这些问题,尽量找到一个我们认为最适合人们的立场。

Elad: 这个想法是有道理的。事实上,我们有很多先例可以参考,比如人们过去常常使用 Photoshop 来处理图片,然后发布并作出声明。然而并没有人说,因此制作 Photoshop 的公司就要对滥用此技术的人负责。所以,在思考这些问题时,我们可以借鉴很多已有的先例。

Aditya: 是的,我完全同意。我们希望发布一款产品,能让人们有足够的自由去表达自己,做他们想做的事情。但是,有时这可能与负责任的行为产生冲突,比如以人们能适应的方式逐步发布技术。

Sora 的局限

Elad: 我有一个问题想问大家,或许可以从 Tim 开始,如果你可以分享,那就太好了,如果不能,我也能理解。你最期待的是什么关于未来的产品路线图,或者你正在走的方向,又或者你正在研究的一些新功能中?

Tim: 好问题。我真的很期待这个技术能够帮助人们创造出什么。我觉得有那么多聪明有创造力的人有着他们想实现的想法。但是有时候,实现那些想法真的很难,需要一些技能、工具或者其他你无法触及的东西。这项技术有可能让那些有着独特想法的人都能创造出东西。我非常期待他们会创造出什么精彩的东西,是这项技术帮助他们实现的。

Sarah: 比尔,我想问你一个问题,就像你刚才提到的,我们现在还在 GPT-1 的阶段,还有很长的路要走。这还不是一种公众可以自由尝试的技术。你能否对你希望解决的一些问题或者差距给出一些描述,除了像长度这样的明显问题?

Bill: 确实。在让这种技术更广泛地使用的过程中,我们需要考虑许多服务方面的问题。其中一个主要问题是如何让这项技术足够便宜以便人们使用。我们以前说过,生成视频的成本取决于很多具体参数,例如视频的分辨率和长度等。但是,这个过程并非瞬间完成的,你至少需要等待几分钟,对于我们正在生成的这些长视频。因此,我们正在积极寻找方法降低成本,以便更广泛地推广这项技术。我认为,我们还需要考虑很多与安全相关的问题。因此,为了使这项技术能够更广泛地被接受,我们必须确保,在选举年之际,我们对可能出现的误导信息和其他相关风险保持高度警惕。我们正在积极地解决这些问题,这是我们研究路线图的重要组成部分。

Sarah: 那么,对于一些基本的,没有更好的词来形容,就像质量问题这样的问题,会有哪些特殊的考虑吗?你在思考的是一些特定的事情,比如对象持久性,或者某种类型的交互吗?

Bill: 是的。当我们期待未来的 GPT-2 或 GPT-3 模型时,我们对能够处理更复杂的长期物理交互的模型感到非常兴奋。举个具体的例子来说明 Sora 今天的不足,如果我有一个人在踢足球的视频,他们在踢球,但是那个球可能会突然消失,然后可能又会回来。所以它可以处理一些简单的交互,比如人们走路,这种情况下它表现得相当可靠。但这种详细的物体间交互功能确实还在开发之中我们认为随着技术规模的扩大,它会变得更好。这是我们期待在未来看到的进步。

Sarah: 我看到的一个例子,像是预示了未来的发展,虽然有很多例子,但那个我印象深刻,有一个男人咬了一口汉堡,模型能够保持住 "咬痕在汉堡上"的状态,这非常酷。

Bill: 是的。对此我们感到非常兴奋。另一个例子是,一个女人在画布上用水彩画画,模型能够留下画过的痕迹。所以,当前的模型已经出现了这种功能的雏形,正如你所说,我们认为未来它会变得更好。

从 Sora 的学习过程中得到的洞见

Sarah: 你能透露一些关于你们与 Sora 一起完成的工作如何影响整体的研究发展方向吗?

Tim: 好的,我觉得这里有一个点是,Sora 学到了很多关于世界的知识,通过观看大量的视觉数据。它能理解 3D 空间,这很酷,因为我们并没有专门训练它去理解 3D。我们并没有明确地将 3D 信息编入模型,只是让它处理视频数据,因为视频中自然包含了 3D 信息,所以它也就学到了 3D。它学习到了当你吃掉一口汉堡后会留下咬痕的现象。这让它对我们的世界有了更多的理解。而我们与世界互动的很大一部分都是通过视觉。我们在生活中看到和学习到的很多东西都是视觉信息。因此,我们认为,从智能的角度来看,要想让 AI 模型更智能,更好地理解世界,有必要让它们了解我们所生活的世界的各种复杂性。这其中包括人与人之间的互动,事物的发生过程,以及过去的事件如何影响未来的事件等等。这将有助于我们开发出更智能的 AI 模型,其应用范围将远远超过视频生成。

Elad: 可以说,你仿佛同时发明了未来的视觉皮层和一部分推理部分的大脑或类似的东西。

Tim: 是的。这是一个很酷的比较,因为人类的很多智能实际上都源于对世界的建模,对吗?当我们思考我们将如何做事情时,我们总是在脑海中模拟各种场景。我们在梦中也会模拟场景,在做事前会预先考虑,如果我这样做,会发生什么,如果我另外这样做,又会怎样呢?所以我们有一个世界模型,而建造 Sora 作为一个世界模型,这正是人类智能的一个重要组成部分。

Sarah: 你们怎么看待这种类比把人类视为拥有一个大概的世界模型而不是像比如说,传统物理引擎那样精确的东西,对吧?比如,如果我手里拿着一个苹果,放手后我预期它会以一定的速度下落。但大多数人并不把这个过程看作是通过计算一条带速度的路径来描述的。你们认为这种学习方式在大型模型中是并行存在的吗?

Bill: 我认为这是一个非常有趣的观点。我们认为这种思考方式就像是人类的一种缺点,它并不够精确。所以,我们实际上不能准确地预测长期的结果,特别是在涉及到狭窄的物理范围时,这是我们可以借助这些系统来改进的。因此,我们对 Sora 能够超越这种能力,并在未来使其智能超过人类的世界模型持乐观态度。但这确实证明了,对于其他类型的智能来说,这并不是必需的。然而,这仍然是 Sora 和未来的模型可以努力提高的地方。

Sarah: 好的,很明显地,对于像扔橄榄球这样的轨迹预测,下一代模型会做得更好。

Tim: 如果我可以补充一点,这与规模化的范式有关,和《苦涩的教训》有关,即我们期望的方法是随着计算资源的增加,效果会越来越好。有些事在这个范式中效果非常好,一项简单但挑战性的任务 —— 预测数据。你还可以尝试设计更复杂的任务,例如比如不直接处理视频数据,而是在一种能够近似模拟实际情况的虚拟环境中进行。

但实际上,所有这些复杂性并没有带来好处在面对随着规模扩大而改善的规模化定律(scaling laws)时。随着规模的扩大,确实有效的方式就是预测数据。这就是我们处理文本的方式:我们仅仅预测文本。这也正是我们使用 Sora 处理视觉数据所做的,我们不是在尝试优化一些复杂的新事物,而是坚持一个简单的原则:通过预测数据来学习智能,这是一种可扩展的最佳方式。

Sarah: 这是对的。Bill,你刚才说的,预测会变得越来越准确,而且没有必要的限制使其接近人类的水平。

关于视频模型的普遍误解

Sarah: 有没有关于视频模型或 Sora 的一些你认为大众有误解,或者你希望他们知道的部分?

Aditya: 我觉得对于人们来说,Sora 发布的最大更新可能是我们内部一直在做类比,就像 Bill 和 Tim 说的那样将 Sora 和 GPT 模型做类比。也就是说,当 GPT1 和 GPT2 发布时,一些人开始越来越清楚地意识到,仅仅扩大这些模型就能赋予它们惊人的能力。一开始并不清楚的是,我们是否正在放大下一个 Token 预测,这是否会有助于语言模型编写代码。但对我们来说,将同样的方法应用到视频模型也将带来非常惊人的能力,这一点似乎非常明确。我觉得 Sora 1 就是一个存在的证明,现在规模曲线上就有一个点,我们对此非常兴奋。

Sarah: 是的,非常神奇。不过,我不知道为什么这对每个人来说都是如此惊喜,但他们的经验再次得到了验证。

Bill: 是的,正如 Tim 和 Aditya 所暗示的,我们确实认为这是 GPT1 的关键时刻,这些模型将会迅速得到改进。对于这将给创新世界带来的巨大好处,我们感到非常兴奋。以及对通用人工智能的长期影响,同时,我们正在全力考虑安全性问题,并正在建立一个健全的技术栈,以确保社会能够实际享受到这些好处,同时也能减少潜在的问题。这是一个令人兴奋的时期,我们期待看到未来模型的能力。

Sarah: 恭喜你们推出了如此出色的版本。在 Twitter 上搜索我们的账号@NoPryorsPod,如果你想看到我们的面孔,可以在 YouTube 上订阅我们的频道,同时也可以在 Apple Podcasts,Spotify 或你经常使用的平台上关注我们的节目,这样你每周都能收听到新的一期。注册我们的邮件服务,或者去 no-priors.com 查看每一期的文字记录。