探索 Sora：视频制作的魔法 [译]

Sora 的视频效果之惊艳让人难以置信，我因此深入探究了其背后的技术原理。它采用了两种技术：一是扩散技术（从随机噪声出发，逐步精细化至目标视频），二是 Transformer 架构（负责处理视频帧的连续序列）。让我们一探究竟吧！

以这样一个例子开始：提示词为“一朵花在郊区房屋的窗台上生长的定格动画”。Sora 并不是直接将文本转换成视频帧，而是通过处理时空补丁来实现。

这些时空补丁能够同时捕捉到发生的事件（空间）以及事件发生的时间（时间），就像是微小的视频碎片组成的拼图。

想象一下，如果把视频比作一个巨大的长方体（包含空间和时间的维度），Sora 就是通过将这个长方体切割成许多小块，每一小块都代表了一段特定的空间和时间。

以我们的例子为例：首先，Sora 分析描述，识别出关键元素：

然后是时空补丁的处理。对于渴望绽放的花朵，阳光照耀的窗台，以及花朵随时间缓慢生长的过程，每一个场景都被转化成一个个补丁，这些补丁随着视频场景的展开而逐渐演变。

这些补丁并非随意的片段。为了能够将它们有条不紊地组合起来，Sora 内置了知识图谱。这些数据库内含了物理世界的信息、物体间如何相互作用，乃至于艺术风格的各种数据。

Sora 能够洞察到：

这些独立的画面片段共同构成了一幅充满噪点的画布。

随后，扩散模型技术将这些噪点密集、抽象的画面片段逐步精细化，直到展现出它们最终的样貌。花瓣逐渐形成，阳光变得更加清晰，而定格动画的风格也像是在逐帧绘制中一步步浮现。

在处理这些独立片段的同时，变换器技术分析着不同画面之间随时间变化的相互关系。这样，花朵能够平滑地成长，阳光自然地转换，整个视频中定格动画的风格也得以始终如一地保持。这一切，都是通过逐个像素的精细调整实现的。

它能够处理多种视频相关的任务：

然而，尽管如此，我们还有很长的路要走。目前它还不能精确地模拟许多基本互动的物理特性，比如这里女人挥手时的不自然手势，有人形象地将其描述为“试图在三维空间里表现得像人类的超维度外星人”。