探索 Sora:视频制作的魔法 [译]
brett goldstein
Sora 的视频效果之惊艳让人难以置信,我因此深入探究了其背后的技术原理。它采用了两种技术:一是扩散技术(从随机噪声出发,逐步精细化至目标视频),二是 Transformer 架构(负责处理视频帧的连续序列)。让我们一探究竟吧!
以这样一个例子开始:提示词为“一朵花在郊区房屋的窗台上生长的定格动画”。Sora 并不是直接将文本转换成视频帧,而是通过处理时空补丁来实现。
这些时空补丁能够同时捕捉到发生的事件(空间)以及事件发生的时间(时间),就像是微小的视频碎片组成的拼图。
想象一下,如果把视频比作一个巨大的长方体(包含空间和时间的维度),Sora 就是通过将这个长方体切割成许多小块,每一小块都代表了一段特定的空间和时间。
以我们的例子为例:首先,Sora 分析描述,识别出关键元素:
- 物体(即将绽放的花朵和沐浴在阳光下的窗台)
- 行为(花朵随着时间的推移而展开)
- 地点(位于郊区的场景)
- 甚至是艺术风格(定格动画的特点)。
然后是时空补丁的处理。对于渴望绽放的花朵,阳光照耀的窗台,以及花朵随时间缓慢生长的过程,每一个场景都被转化成一个个补丁,这些补丁随着视频场景的展开而逐渐演变。
这些补丁并非随意的片段。为了能够将它们有条不紊地组合起来,Sora 内置了知识图谱。这些数据库内含了物理世界的信息、物体间如何相互作用,乃至于艺术风格的各种数据。
Sora 能够洞察到:
- 花朵是如何一瓣一瓣地自然生长的,
- 它如何随着时间的推移与阳光发生互动,
- 以及如何保持定格动画特有的逐帧变换效果。
这些独立的画面片段共同构成了一幅充满噪点的画布。
随后,扩散模型技术将这些噪点密集、抽象的画面片段逐步精细化,直到展现出它们最终的样貌。花瓣逐渐形成,阳光变得更加清晰,而定格动画的风格也像是在逐帧绘制中一步步浮现。
在处理这些独立片段的同时,变换器技术分析着不同画面之间随时间变化的相互关系。这样,花朵能够平滑地成长,阳光自然地转换,整个视频中定格动画的风格也得以始终如一地保持。这一切,都是通过逐个像素的精细调整实现的。
它能够处理多种视频相关的任务:
然而,尽管如此,我们还有很长的路要走。目前它还不能精确地模拟许多基本互动的物理特性,比如这里女人挥手时的不自然手势,有人形象地将其描述为“试图在三维空间里表现得像人类的超维度外星人”。