通过模拟一切视频生成将带我们走向通用人工智能,终有一天你可以在视频模型上运行 ChatGPT [译]

主持人:关于通用人工智能之家,有一点要说的是我们非常欣赏像你们这样的人,这也是你们受邀在此的原因。所以,让我们有请 Tim。

Tim Brooks: 太棒了,这是一个充满趣味的大团队。我是 Tim,而这位是 Bill。我们在 OpenAI 和一支出色的团队一起完成了一个项目。我们很高兴今天能向你们简要介绍一下这个项目。我们将概述这个项目的功能、它在内容创作上的一些潜力,以及其背后的技术,以及为什么这对通用人工智能的发展具有重要意义。那么,下面这个视频故事就是我们的作品。

这个视频对我们来说非常特别,因为它是一分钟的高清视频。这一直是我们的目标。当我们试图寻找能推动视频生成前进的因素时,我们希望生成长度为一分钟的 1080p 视频。这个视频达到了这个目标。我们还可以看到,这个视频包含了许多复杂的元素,比如反射和阴影。一个非常有趣的地方是,那个蓝色的标志,她即将走过它,她走过后,那个标志仍然在那里。这对于视频生成来说是一个巨大的挑战,需要保持物体的持久性和长时间的一致性。而 SOAR 能够生成多种不同风格的视频。这是一个它能够想象出来的纸艺世界,真的很神奇。它也能理解整个三维空间,在这里,摄像机在三维空间中移动,就像人们在移动一样。但它深刻理解了世界的几何和物理复杂性。所以 SOAR 已经学习到了很多,除了能够生成内容外,它实际上学习到了很多知识,关于物理世界的,从我所训练的视频中。

现在我们将稍微谈谈一些与视频生成相关的机会,为创新函数编写带来革命。正如 Tim 所暗示的,我们对 SOAR 的功能非常期待,不仅因为我们认为它是通向通用人工智能的关键路径,而且还很期待它即将带来的影响。

Bill Peebles: 这是我们非常喜欢的一个样例。左下角的提示是一部电影预告片,讲述了一个三岁宇航员的冒险。顺便说一句,视频制作中最困难的部分总是让素材与其协调工作。这个样例特别之处在于,这个宇航员在 SOAR 生成的多个镜头中都保持存在。也就是说,我们并没有将这些镜头拼接在一起,我们并不需要做一堆 NG 然后最后创建一个合成镜头。SOAR 决定了它想要将镜头转向何处,同时,它会把同一个宇航员放在许多不同的环境中。我们认为这对特效有很多有趣的启示。

比如,我们非常喜欢的一个例子,一个外星人自然地融入到纽约城市,产生出一种偏执狂般的,35 毫米胶片风格的效果。你已经可以看到,这个模型能够创造出这些极具想象力的效果,而在传统的 CGI 制作中,这样的效果通常会非常昂贵。因此,这种技术在短期内将会带来许多影响。

当然,我们也可以制作其他类型的效果。比如,这是一个科幻场景,潜水员接触到一个隐藏的、充满未来感的沉船,那里有生物电子的海洋生物和先进的外星科技。作为一个在互联网上看到了很多不一定能接触到像 SOAR 这样的工具来创造他们的想象的人,他们能产生出很棒的剧情并在 Reddit 等地方发布。想象一下人们将能用这项技术做什么,真的令人兴奋。

当然,它不仅可以制作出逼真的样式,还可以制作动画内容,比如这只可爱的水獭。我最喜欢的部分是这只被误写的水獭。这给这个场景增添了一点魅力。我想,这项技术的另一个酷炫之处在于,我们开始思考那些用传统好莱坞设施难以实现拍摄的场景。比如,这个挑战就是在纽约有一家同时充当珠宝店和动物园的店铺,带有钻石和黄金装饰的剑齿虎,带有闪烁的绿宝石壳的乌龟等等。我喜欢这个镜头的地方是它的逼真,但这是用现在好莱坞的传统工具非常难以实现的。这种镜头显然需要利用 CGI。现实生活中的动物很难出现在这样的场景中。但是,借助 SOAR,这就变得非常简单,你只需要一小时就可以完成这样的场景。

现在我把话题交给 Tim,让他来谈谈我们是如何与艺术家们合作使用 SOAR,看看他们能创作出什么。

Tim Brooks: 是的,我们新近推出了这个平台,已经向一小部分艺术家开放了使用权限。你可以说,这还处于早期阶段,并不是一个对大量人群开放的产品。这并不是 ChatGPT 或者类似的东西,而是我们的一项研究。我们坚信,要理解这项技术的价值以及如何确保其安全,最好的方法就是与人们,与这个外部世界进行深度的交流。正因为如此,我们才会发布这个声明。在发布声明时,我们首先与一些小规模的红队合作,他们负责处理安全问题,同时也与艺术家和将会使用这项技术的人们合作。

Shy Kids 就是我们合作的艺术家之一,我特别喜欢他们的这段话:"尽管 Sora 在生成看似真实的事物方面表现出色,但真正让我们兴奋的是,它能创造出完全超现实的东西。" 我认为这真的很酷,因为当你马上就能想到生成视频,我们的生活中已经有了各种各样的视频应用,我们很快就能想到其中包含了什么内容。哦,也许是一些素材库的视频,或者是已经存在的电影。但是,真正让我感到兴奋的是人们对什么全新的事物感兴趣。什么全新的媒体和娱乐形式,以及我们从未见过的新体验,将由 Sora 和未来版本的视频生成技术所实现。

现在我想展示一下 Shy Kids 使用 Sora 制作的一个有趣的视频,当我们给予他们使用权限时他们创作了这个。好的,这段视频是有音频的。但遗憾的是我们好像没有设置好播放。这是一个关于一个有着气球头的人的有趣故事,你真应该去看看。

我们发布了一篇名为 "Sora 的首次体验"的博客文章,我们给许多艺术家提供了 Sora 的访问权限,并分享了他们的视频。还有一个非常有趣的独白,这些人在分享生活感悟,他们从一个气球头人的视角去看待世界,这个想法既新颖又有趣。我们授权的其他艺术家们也做出了很多有创意的作品,他们的创意和想法都独一无二。每个艺术家使用 Sora 的方式都与其他人截然不同,这种多样性非常令人振奋。这也体现了 Sora 技术的广泛应用性。

同时,有许多有创新思维的人,如 Bill 所提到的,他们可能觉得实现这些创意,或者制作他们的电影,或者创造一种全新的、与电影完全不同的东西都面临着很大的挑战。我们希望 Sora 这项技术能真正推动内容创作的民主化,让更多有创意的人将他们的想法付诸实践,并和大家分享。

好的,接下来我会简要介绍一下 Sora 背后的技术原理。我们从语言模型的角度出发,它们之所以表现出色,让它们如此成功的原因是能够扩展的能力,以及《苦涩的教训》中所提到的一个观点:"长远来看,那些随着规模增长而性能提升的方法,随着计算能力的增加将最终胜出。" 因为随着时间的推移,我们拥有的算力也在不断增加。如果一种方法能够充分利用这一点,那么它就会变得越来越好。

语言模型能够做到这一点的部分原因是,它们采取了所有形式的文本,无论是数学、代码还是其他形式的文本,并将其全部转化为这个通用的 Token 范围。然后你使用这些复杂的 Transformer 模型对所有这些不同类型的 Token 进行训练。这就是一种文本数据的通用模型。通过在这个庞大的不同类型的文本数组上进行训练,你得到了这些深度的语言模型。你可以做各种各样的事情,对吧?你可以使用 ChatGPT 或者你最喜欢的任何语言模型来完成各种各样的任务。并且它接受到了如此广泛的知识,这是它从这种各种数据的组合中学习到的。

我们想要对视觉数据做同样的事情,这正是我们使用 Sora 做的事情。我们针对纵向视频、图像、正方形图像、低分辨率、高分辨率和宽的纵横比进行处理,并将它们转化为小块。小块就像是空间时间中的小立方体。你可以把视频想象成一堆图片,对吧?这些都是帧,每一帧都有许多像素,我们就是从中抽取出这些小立方体。无论是高分辨率图像,还是低分辨率图像,无论纵横比如何,长视频、短视频,你都可以将它们切割成这些空间与时间相结合的小块。这些小块就像我们的玩具积木一样。然后我们就在这些小块上训练 Transformer 模型,而 Transformer 模型具有很好的可扩展性。

这种做法让我们可以用处理语言问题的方式来考虑这个问题:我们如何能够更好地在增加计算能力和数据的同时,不断提升模型的性能。在多个纵横比上训练,也让我们能够生成多种纵横比的内容。就像这样。这就是同样的提示词。你可以生成纵向的、方形的、横向的视频。这个特性的好处在于,首先,它能让你使用更多的数据,这非常重要,我们希望能够使用所有已有的、原始格式的数据。其次,它也为你提供了更多元化的创作方式。其实我觉得纵向视频很好,因为我们经常在手机上浏览内容,对吧?所以能够生成纵向和横向的各种类型的视频是非常好的。

我们的模型也可以实现零样本学习,将一段视频转换为另一段视频。这个过程中,我们使用了一种名为 SD 编辑的技术,它通常与扩散模型一起使用。我们的模型使用扩散模型,这意味着它会从噪声开始,逐步去除噪声,以此生成视频。使用 SD 编辑技术,我们可以改变输入的视频。比如说,左上角的视频(虽然是生成的,但也可以是真实的图像),我们可以将其转变为像素艺术风格,或者将其放置在带有彩虹之路的太空中,也可以将其改为中世纪的主题。你可以看到,虽然视频被编辑了,但其结构仍被保留了下来。举个例子,视频中有一个我们即将穿越的隧道,模型以各种不同的方式解释了这个隧道,尤其是中世纪的主题,非常有趣。因为模型也具有一定的"智能",它不只是改变视频的表面内容,比如对于中世纪主题,模型"意识到"中世纪并没有汽车,于是它创造了一个马车。

另外,模型还具有在视频之间进行过渡的能力。例如,我们有两个不同的生物,中间的视频从左边的生物开始,然后平滑过渡到右边的生物。这个过程完成得非常自然、流畅。这些例子充分展示了,使用这种模型可以实现许多独特而富有创意的效果。正如我们最初接触语言模型时,不仅可以用于写作,还有许多其他创新的使用方式。如今,人们每天都能找出独特而有趣的方式来应用语言模型。对于视觉模型也将如此。我们可以用它们创造出许多令人惊叹的效果,而我们才刚刚开始探索这些可能性。

这里有一个我非常喜欢的例子:左边是一段无人机的视频,右边是一只水下的蝴蝶。我们将两者进行插值处理。其中一些细节处理得非常好,例如,视频中逐渐开始衰落并最终沉入水中的罗马斗兽场。还有一个例子同样令人惊叹:如何可能让地中海景观平滑过渡到姜饼屋,而且这种过渡方式还符合 3D 世界的物理规律?模型找到了一个独特的解决方案,即通过建筑物的遮挡,让你逐渐看到这个姜饼屋。

如果你还未了解过,我们除了发布了主要的博客文章,还有一份详细的技术报告,我鼓励大家去看一下。技术报告中有这些例子还有一些其他精彩案例,这些在这些幻灯片中没有展示的。再次强调,我认为我们现在只是稍微探索了一下这些模型的可能性,如果你还未了解过,建议去看看。

你还可以做一些其他有趣的事情,比如向前或向后延长视频。这里有一个我们提供的例子,这是一张图像。我们用 DALL-E 3 生成了这张图像,然后我们会用 Sora 让这个图像动起来。

好的,现在我将把话筒交给 Bill,让他谈谈为什么这在通向通用人工智能的道路上如此重要。

Bill Peebles: 好的,当然,每个人都对大语言模型在通向通用人工智能的道路上的作用持有乐观态度。但我们认为视频模型是通向通用人工智能的关键。具体来说,我们相信,当我们看到 Sora 可以生成的如同我们一开始就看到的那个东京的雪景般复杂的场景时,Sora 已经开始展示出对人类互动、进行身体接触的详细理解。随着我们继续扩大这种范式,我们认为,最终它要建模人类的思维方式。想要生成真实逼真的视频,具有真实逼真的序列和动作,只有当你拥有一个内部模型理解所有物体、人类等环境如何运作时才有可能。因此,我们认为 Sora 将为通用人工智能做出贡献。

当然,这里的关键,就像对大语言模型一样,是扩展性。我们为了实现这个目标,付出了大量的努力,比如 Tim 之前提到的,我们创建了一个基于 Transformer 的框架,它可以很有效地进行扩展。接下来,我们比较了不同的 Sora 模型,这些模型的唯一区别就是我们投入到模型训练中的计算量。最左边的是使用基础计算量的 Sora,它甚至不清楚狗是什么样子。它大致了解摄像机在场景中的运动,但仅此而已。如果我们将投入训练的计算量增加 4 倍,那么你可以看到 Sora 开始对柴犬的样子有了大概的认知,能给它戴上帽子,并在背景中加入人的形象。如果你将计算量增加到基础的 32 倍,那么你会开始看到环境中非常详细的纹理。你可以看到狗在场景中移动时,脚和腿的动作非常细腻。你可以看到那个女人的手开始与她头上的编织帽进行交互。随着我们不断扩大 Sora 的规模,正如我们在大语言模型中找到涌现能力一样,我们相信在视频模型中也会发现类似的涌现能力。

尽管我们今天投入的计算量不到 32 倍,但我们认为已经产生了一些非常酷的效果。我将花一些时间来讲述这个。首先,我们来看一下动物和复杂的场景。这是一张展示美丽的东京城市雪景房屋的样本。摄像头飞越场景,保持了 3D 的几何形状。有一对正在牵手的夫妻,你可以看到摊位上的人们。这个模型能够模拟具有众多智能体的复杂环境。现在,我们只能执行一些基本操作,比如这些相对较低级的互动。但是随着模型规模的扩大,我们相信这是我们可以预期的未来,人与人之间的对话会更详细,实质性和有意义,物理互动也会更复杂。

另一个与大语言模型相关的视频模型的亮点是我们可以模拟动物。比如,我这里有一个很棒的动物模型。在这个世界上,除了人类之外,还有其他很多智能生物。我们可以从这些生物中学习。我们并非只局限于人类的智能。所以,我们可以模拟动物。我们能够模拟狗。这一点我们特别喜欢。这是一只在意大利布拉诺的狗。你可以看到它想要跳到对面的窗台上。它有些摇晃,但最终还是恢复了平衡。因此,它开始构建一个模型,不仅可以模拟人类在场景中的行动,同时也能模拟其他动物。

我们非常兴奋的另一个特性是 3D 的一致性。在学术界曾经有过很多争论:那就是我们需要多大程度的归纳偏好和生成模型来真正使他们成功。然而,对于 Sora,我们从一开始就希望能够提出一个非常简单且可扩展的框架,完全避免对于物理规律的直接编入。我们发现这个方法是行得通的。只要你把模型规模扩大到足够的程度,模型就能自我理解 3D 几何,而无需我们直接将一致性规则编入模型中。这是一个蓝色时刻的 Sansuridae 航拍视角,展示了白色的 Cycladic 建筑风格和蓝色的圆顶的惊艳建筑。我们发现这些航拍镜头在 Sora 中呈现得都非常成功,你无需过于挑选即可达到这个效果。这个模型在持续产生优秀结果方面表现得相当出色。通过优胜美地的航拍镜头,我们不仅可以看到徒步者,还有一个壮观的瀑布。他们在此进行了极限徒步。[笑声]

另一个曾经让视频生成系统难以处理的特性,Sora 基本上已经解决了,虽然并不完美。也就是物体的持久性。因此,我们可以回到我们最喜欢的场景,布拉纳的斑点狗,你会发现即使有许多人经过,狗依然在那里。所以,Sora 不仅能处理我们之前看到的那种短期内的互动,比如我们之前看到的那个在东京路过蓝色标志的女人,即使在有多层遮挡的情况下,你仍然可以看出来。要想拥有一个出色的视频生成系统,你需要的是能让一些非常有趣的事情随着时间的推移而发生。所以,以前我们生成的四秒钟的视频,通常我们看到的只是一些轻微的动画效果。这就是大多数视频生成系统能做到的。而 Sora 无疑是向前迈出的一大步。现在我们开始看到,你实际上可以进行一些能永久改变世界状态的操作。

这是 Sora 现在还相对较弱的一部分。它并不能每次都做到,但我们在这里看到了许多的成功例子。接下来我会分享一些。这是一幅水彩画。可以看到,画家的笔触会停留在画布上,他们真正地为这个世界带来了有意义的改变,而不只是得到一种模糊的感觉。这是一把小提琴。这个灰发的老人正在大口吃着一个芝士汉堡,稍等一下,就会看到他在汉堡上留下的咬痕。这些都是些很简单的互动,但对于视频生成系统来说,这是必不可少的,不仅对于内容创作,也对于 AGI 模拟一系列依赖关系。如果某人在过去做了些事情,而我们想生成一整部电影,我们需要确保模型能够记住那个状态,并且这个状态能够随着时间的推移保持影响。这正是 Sora 所做的。

当我们将 Sora 看作是一个世界模拟器,我们对模拟现实世界的物理学感到非常兴奋,这一直是我们项目的关键部分。但同时,我们并没有理由止步于此。实际上,还有许多其他种类的世界,例如我们使用的每一台笔记本电脑,每一个操作系统都有其自己的物理规则,实体,对象和规则。Sora 可以从所有这些中学习,它不仅仅是一个现实世界的物理模拟器。我们对模拟所有事物的前景感到非常兴奋。

作为第一步,我们尝试了 Minecraft。这就是 Sora,提示词是 Minecraft,配有有史以来最华丽的高分辨率 AP 纹理包。你可以看到,Sora 对 Minecraft 的运作方式了如指掌。它不仅渲染这个环境,还以一种相对清晰的策略控制着玩家。虽然它的表现并不特别吸引人,但它确实在做一些事情。它也可以模拟场景中的所有物体。我们有另一个带有相同提示词的样本,这次展示了不同的纹理包。我们对于这个想法感到非常兴奋,有一天我们只需一个模型,就可以涵盖所有这些世界的所有知识。我们常说的一句玩笑是,"终有一天你可以在视频模型上运行 ChatGPT。"

好的,现在我们来谈谈一些失败的案例。显然,Sora 还有很长的路要走。这确实是一个很好的开始。Sora 在处理我们认为非常相似的物理互动方面仍然有很大的困难。例如,这把被附身的椅子在 Sora 的思维中并不是一个物体。它可以被握住。甚至比这更简单的物理行为,比如打碎一个玻璃杯,如果你试图做这样的实验,Sora 这次就会出错。在理解我们认为理所当然的基础事物方面,它还有很长的路要走。我们对这个过程的终点还遥不可及。今天,我要展示的是一些案例,后面我们会有提问环节。

总而言之,我们对这个范式的未来发展充满期待。[笑声] 我们把这看作是视频版的 GPT-1。我们坚信这项技术将在短期内取得巨大的进步。我们已经看到了一些积极的迹象和一些吸引人的特性,就像我刚才介绍的。我们对此感到非常兴奋。我们相信,人们在这个基础上所创造出来的东西将会让人大跌眼镜,非常震撼。我们迫不及待地想看到世界对此的反应。所以,感谢大家。[掌声]

我们现在有十分钟的时间。谁先来提问?

观众 1: 好,关于理解 AI 智能体或让 AI 智能体在场景中相互作用的问题,这部分信息是否已经被明确定义了呢?还是说,它仅仅关于像素的处理,然后你必须进行进一步的操作,现在可以将其复制进来了吗?

Tim Brooks: 很好的问题。所有这一切都是在 Sora 内部隐式地进行的。比如,当我们看到这些 Minecraft 的样本时,我们并没有明确的概念去描述它在哪里模拟了玩家,或者在哪里明确地在环境中表现出动作。所以,你说得对,如果你想能够精确地描述正在发生的事情,或者以某种方式读取它,你需要在 Sora 当前的基础上建立一些其他系统来提取那些信息。现在,一切都是隐含的。我们有一些基本原则,然后有一些未明确的空白。实际上,所有的事情都是隐含的。比如说,3D 是隐含的,你看到的所有东西都是隐含的。没有任何明确的东西参与其中。

观众 1: 没错。那么,基本上,你刚刚描述的所有酷炫的特性,都是我们从游戏模型中推导出来的。

Tim Brooks: 没错。就像,之后的情况。

观众 1: 很酷。还不够好。你能否谈谈微调的可能性?如果你有一个非常特定的角色或知识产权,我知道对于初期阶段,你可以使用输入图像。你怎么看待将这些插件,或者说,将这样的功能整合进过程中呢?

Tim Brooks: 是的,这是个好问题。这是我们非常感兴趣的一个方面。总体来说,我们从与艺术家的讨论中得到的一个反馈就是,他们希望在创作过程中能有尽可能多的控制权,正如你所提到的。所以,如果他们有一个他们非常喜欢并且自己设计的角色,他们肯定希望能够在创作新故事时继续使用这个角色。这正是我们正在积极考虑的问题。你当然可以对模型进行某种微调,如果你有一个特定的数据集,也就是你的内容,你希望将模型适应的内容。我们目前还没有处于一个阶段,我们正在寻找人们真正想要的东西。这种反馈对我们非常有帮助。我们还没有一个明确的路线图,不知道何时可能实现这个目标,但理论上,这可能是有益的。

Bill Peebles: 好的,后面的。

观众 2: 是的。好的,所以关于语言 Transformer,你是在顺序的方式中进行预测,或者可以说是打补丁。在视觉 Transformer 中,我们按照扫描线的顺序进行,也许我们像蛇一样进行,也就是空间建筑。你是否认为这是视觉 Transformer 的基本限制?如果你这样做,预测的顺序是否影响你对空间建筑的关注?

Tim Brooks: 好问题。在这种情况下,我们实际上在使用扩散模型。因此,它不是像语言模型那样的自我回归 Transformer,我们正在对我们生成的视频进行降噪。我们从一个完全充斥噪声的视频开始,不断迭代运行模型,逐步去除这些噪声。做的次数多了,所有的噪声都被去除,我们就得到了一个样本。事实上,我们没有按照所谓的"扫描线顺序"来操作,因为可以同时在许多空间 - 时间段进行去噪。大多数情况下,我们是对整个视频同时进行去噪处理。在我们的技术报告中,我们也提到了另一种方法,如果需要,可以先生成一个较短的视频,然后再对其进行延长。这也是一种选择,但两种方式都可以使用。可以选择一次性生成整个视频,也可以选择先生成一个较短的视频,再根据需要进行延长。

观众 2: 谢谢。

Bill Peebles: 好的,谢谢你。

观众 3: 互联网的创新主要是被形式推动的。你觉得有必要回馈成人行业吗?

Bill Peebles: 我并不觉得有这个必要。另外……

观众 4: 你们生成视频的帧率是每秒 30 帧吗?还是说,你们更倾向于在场景中对帧持续时间进行插值处理?我明白,所有核心处理的速度都远不及动画渲染的速度。

Tim Brooks: 我们是以 30 帧每秒的速度生成的。

观众 4: 哇!你们尝试过进行汽车碰撞或旋转等动作,来测试图像生成是否能够符合物理模型或基础动作类型吗?

Bill Peebles: 我们尝试了几个这样的例子,我认为旋转效果基本还算合理。当然,这并不是完美的。我曾见过 Sora 提供的一些关于汽车照明的样本,我认为它还没能完全掌握牛顿的三个运动定律。

观众 5: 所以,你们现在正试图与 Sora 一起解决的问题,有哪些用户反馈吗?

Tim Brooks: 现在我们的主要工作是与外部艺术家进行互动,了解他们如何使用它,以及他们在使用过程中的反馈。另外,我们也在关注一些红队成员对安全问题的反馈。这些就是我们现在主要关注的两种反馈。就像 Bill 提到的,我们从艺术家那里得到的一条非常有价值的反馈是,他们希望具有更多的控制权,例如,艺术家通常需要控制相机,以及相机的路径。在安全问题上,我们要确保,如果我们能够给更多人使用这个工具,那么它一定要是负责任的,安全的。潜在的滥用,假信息等等,都是我们需要考虑的。这些就是红队工作的关注重点。

观众 6: 所以,有没有可能制作出用户可以真正与之互动的视频,比如通过 VR 设备或者其他方式?假设一个视频正在播放,我在中途停止它,改变几件事情,视频会不会……我能否对视频进行部分编辑,加入这些更改?

Bill Peebles: 这是个好主意。目前,Sora 的运行速度仍然较慢,主要是从延迟的角度看。我们通常的设置是,这取决于生成的具体参数,例如,持续时间,分辨率。但如果你要制作这样一个视频,至少需要几分钟。因此,我们离你描述的那种体验还有一段距离,但我认为这会很酷。

观众 6: 谢谢。

观众 7: 你在构建这个第一版时有什么明确的目标,你在过程中遇到了哪些问题,从中学到了什么经验?

Tim Brooks: 我认为,最主要的目标始终是要在至少 30 秒内达到 1080p,这是从项目的早期开始。我们觉得视频生成一直被局限在四秒的 GIF 生成中。因此,这真的是整个项目期间团队的重点关注。在这个过程中,我们发现处理视频数据是多么的痛苦。我想这些视频里有很多。因此,会有很多非常详细且枯燥的工程工作需要完成,才能真正使这些系统运作。我想我们在项目开始时就知道,这会需要付出大量的努力。不过,这的确花费了些时间。

观众 7: 还有其他的发现吗?

Tim Brooks: 对,我们一直努力保持整个方法足够简单,有时候这确实比说出来要难。但我认为,我们的主要关注点就是尽可能做出最简单的事情,然后在此基础上进行大规模的扩展。

观众 8: 当你发布这些视频时,你有优化提示词并检查输出吗?如果效果不佳,你会再次用新的提示词,然后生成新的视频。这就是第一个视频。然后,你会更新提示词,生成新的视频。这些视频中应该使用哪种方法?

Tim Brooks: 这是个好问题。视频的评估确实具有挑战性。我们采用了多种方式。一个是模型的损失值,低损失值与模型的优良性能相关,所以这是有所帮助的。另一个是你可以通过图像指标来评估单帧的质量。我们确实使用了标准的图像指标来评估帧的质量。还有,我们也花了大量的时间生成样本并自己去检查。虽然在这种情况下,你需要对大量样本进行处理,而不是只对单一的提示词进行处理。因为这个过程可能会有噪声。因此,你可能偶然得到一个好样本,然后认为自己可以改进它。这就好比你要把大量不同的提示词和输出进行对比。

观众 9: 我们是如何构建这个框架的?你觉得这样理解可以吗?

Tim Brooks: 对此我们无法发表评论。

Bill Peebles: 最后一个问题。

观众 10: 感谢你精彩的演讲。我的问题是关于训练数据。你估计我们需要多少训练数据才能实现通用人工智能?你认为我们在互联网上有足够的数据吗?

Bill Peebles: 是的,这是个很好的问题。我认为我们有足够的数据来实现通用人工智能。我也相信人们总能找到新的方法来改进事物。当我们遇到限制时,我们总会找到新的方法来提高结果。所以我觉得,不论我们手头有什么数据,都足以实现通用人工智能。

观众 10: 很好。

主持人:好的,让我们迈向通用人工智能。谢谢你。