实际使用 SORA [译]

2024 年 2 月，我们首次报道了 OpenAI 发布的 SORA，当时我们将其形容为视频领域的 DALL·E。SORA 是一个生成时间更长、内容更连贯的视频的扩散模型。OpenAI 通过使模型能预见多帧内容，成功解决了视频主体即便短暂消失也能保持连贯性的技术难题。目前，SORA 能够一次性生成长达一分钟的完整视频。OpenAI 还表示，未来可能进一步扩展视频的长度，甚至实现两段视频的无缝连接。

在过去几周，少数精选制作团队获得了使用 SORA 的特别机会。其中最引人注目的是加拿大的 Shy Kids 团队，他们制作了名为《Air Head》的 SORA 短片。影片由 Sidney Leeder 制作，Walter Woodman 担任编剧和导演，Patrick Cederberg 负责后期制作。这个被誉为“朋克摇滚版皮克斯”的多伦多团队，其作品不仅获得了艾美奖提名，还入围了奥斯卡长名单。我们最近与 Patrick 进行了深入交谈，探讨了 SORA 目前的发展情况。

Shy Kids 是一家知名的加拿大制作公司，以其多元而创新的媒体制作方法闻名。公司汇集了来自电影、音乐和电视等领域的创意人才，以其独特的叙事风格和引人入胜的内容赢得了广泛认可。Shy Kids 经常探讨青少年成长、社会焦虑及现代生活的复杂性，其作品不仅风格独特，还融合了原创音乐，使其作品深受观众喜爱。凭借对新兴 AI 技术的积极拥抱，Shy Kids 成功创造了自己的独特市场，不断推动创新的边界。

SORA：2024 年 4 月中旬。

SORA 目前仍在开发阶段，正在根据诸如 Shy Kids 等团队的反馈进行积极优化。值得注意的是，SORA 虽然尚未正式发布，也未进入 beta 测试，但其表现已接近 alpha 版本前的水平。

“能够尝试使用 SORA 确实非常吸引人，”Patrick 说。“它是一个非常强大的工具，我们已经在想象它能以各种方式融入我们现有的流程中。不过，我认为无论是哪种生成式 AI 工具，控制始终是最受期待也最难以实现的部分。”

用户界面

用户界面让艺术家可以输入文本提示，随后 OpenAI 的 ChatGPT 将这些提示转化为更详细的描述，用以激活剪辑生成过程。当前界面仅支持文本输入，尚未支持多模态输入。这一点尤其关键，因为虽然 SORA 在连续镜头中维持对象一致性方面表现出色，但它还无法保证连续镜头之间的内容匹配。即便是重复相同的提示，得到的结果也可能会有所不同。Patrick 说：“我们尽力通过详细描述来弥补这一点，例如详细说明角色的服装和气球的类型，这是我们为了维持连续镜头间一致性而采取的方法，因为目前还没有完备的功能集可以完全控制这一点。”

这些单独的剪辑因其背后的技术而显得非常引人注目和令人赞叹，但如何使用这些剪辑则取决于你对镜头生成的隐含或显式理解。例如，如果你请求 SORA 在一个摆放着香蕉的厨房进行一次长时间的跟踪镜头，它将依赖于对‘香蕉特性’的隐性理解来生成视频。SORA 通过训练数据学到了香蕉的各种特征，如颜色黄、形状弯曲、末端发黑等，而这些都是从一个较小的、压缩的‘潜在空间’中提取的，这个空间存储了对香蕉的所有理解。每次运行时，它都会展示对这个潜在空间的新解释。你的提示基于对香蕉特性的隐含理解。

如何正确的用提示词生成 Sonny

在 Air Head 项目中，团队根据一个大致的剧本生成多个视频片段，但如何保持黄色气球头在各个镜头中的一致性并没有一个明确的办法。有时候，即使团队指定需要黄色气球，得到的气球也可能不是黄色。有时，气球上会出现一个面孔，或者似乎在气球前面画了一个脸。由于气球通常带有绳索，因此被昵称为 Sonny 的 Air Head 角色，也就是气球先生，往往会在他的衬衫前方挂着一根绳索。由于绳子与气球有着隐含的联系，这些细节需要在后期制作中去除。

解决方案

Air Head 项目只使用由 SORA 生成的视频，这些视频大都经过了色彩校正、处理和稳定化，并且全部进行了分辨率提升。团队处理的视频原本是低分辨率生成的，随后利用非 SORA 和 OpenAI 的其他 AI 工具进行了分辨率提升。Patrick 解释道：“最高可达 720P 分辨率，我知道有 1080P 功能已经上线，但渲染需要时间。为了加快速度，我们整个 Air Head 都是以 480P 制作的，然后使用 Topaz 进行了垂直处理。”

提示词控制时间线就像玩老虎机

原始的提示词虽然会自动扩展，但它们也会沿着时间线呈现。Parick 详细说明：“你可以深入到更大的关键帧中，根据你想要的变化去调整信息。”他补充说，“在生成过程中，你可以对动作发生的具体时间点进行一定的控制，但这种控制并不精确，有点像赌博，就像是在玩老虎机，你无法确切知道它是否能在那个时刻达到预期的效果。”显然，Shy Kids 使用的是 SORA 的最初原型，而 SORA 系统至今仍在不断的开发和完善中。

除了能够选择分辨率之外，SORA 还允许用户选择画面的宽高比，例如竖屏、横屏或正方形。这一功能在拍摄从 Sonny 的牛仔裤逐渐上移至他的气球头的场景时显得尤为重要。遗憾的是，SORA 系统原生不支持此类镜头移动，总是希望镜头的主要焦点——气球头——始终处于画面中。因此，团队选择了竖屏模式进行拍摄，并通过后期裁剪手动制作了向上移动的效果。

提示词控制摄像机方向

对于很多生成式 AI 工具而言，训练数据中包含的元数据是一种非常重要的信息源，比如摄像机元数据。例如，当你使用静态照片进行训练时，摄像机的元数据会提供镜头大小、光圈等多个对模型训练至关重要的信息。而在拍摄电影镜头时，‘追随’、‘水平移动’、‘倾角’或‘推拉镜头’等操作概念是不会通过元数据来表达的。像物体持久性在镜头制作中极其关键一样，准确描述一个镜头也同样重要。Patrick 指出这一点最初并没有包含在 SORA 中。“在电影现场，不同的人对同一镜头的描述各不相同。在邀请艺术家试用这一工具前，OpenAI 的研究人员并没有从电影制作的角度出发。”Shy Kids 早期便接触到这一工具，但他们认为关于摄像机角度的初始版本显得有些随意。“无论 SORA 是否真的能理解或响应拍摄指令都是未知的，因为研究人员当时仅专注于图像生成。”Shy Kids 对 OpenAI 对此类请求感到惊讶是可想而知的。“但你可以想象，当研究人员仅限于研究环境，并没有考虑到故事讲述者的使用方式时，SORA 还在进步，尽管如此，其控制精度仍有待提高。输入‘水平移动’的指令，你可能只有六成机会得到正确的响应。”这是一个行业普遍的问题，几乎所有主要的视频生成 AI 公司都面临这一挑战。在提供用于描述摄像头动作的用户界面方面，Runway AI 可能是最先进的，但其视频片段的质量和长度都不及 SORA。

渲染时间

不同的视频片段可以在不同时间内渲染完成，如 3 秒、5 秒、10 秒、20 秒，最长不超过一分钟。渲染所需的时间因一天中的时间点及云服务的需求量而异。帕特里克回忆：“一般每次渲染需要 10 到 20 分钟。”他补充：“从我的经验来看，我选择的渲染时间对总耗时影响不大。无论是 3 秒到 20 秒的视频，渲染时间大多在 10 到 20 分钟之间。这样做的好处是，获得足够长的视频后，可以有更多的机会进行剪辑，增加作品质量的可能性。”

轮廓摹制

尽管所有的影像都在 SORA 中生成，但对气球的后期处理仍然很关键。除了将气球独立出来重新着色外，气球上有时会有像是用马克笔画的索尼的脸，需要在 After Effects 中处理掉这些细节。类似的其他图像瑕疵也通常会被修正。

300:1 的素材剪辑比

Shy Kids 团队采用了类似纪录片的后期制作和编辑方法，他们不是严格按剧本拍摄，而是从大量拍摄的素材中挑选和编排，讲述故事。虽然有剧本，但团队更注重灵活应变。“实际上就是获取尽可能多的镜头，尽力通过剪辑创造出符合旁白的有趣画面，”帕特里克说。

对于最终入选短片的一分半钟视频，帕特里克估计他们产出了“数百个片段，每个片段长达 10 至 20 秒”。他认为，最终影片中使用的素材大约是原始素材的 300 倍。

合成多段拍摄与调整时间轴

在 Air Head 项目中，团队并未将多个拍摄片段合成为一个。比如，关于气球在赛车场上空飘过的镜头，实际上都是在一次拍摄中直接生成的，基本上就是现场所见。然而，他们正在制作一部新电影，会将多个拍摄片段合成为一个视频剪辑。

有趣的是，许多 Air Head 的视频剪辑看起来像是以慢动作方式拍摄的，尽管在指令中并未有此要求。这种情况的原因不明，因此，很多视频片段需要调整时间轴，以使其看似实时拍摄。“我也不清楚原因，但许多剪辑似乎都被调整到了 50% 至 75% 的速度，”他补充道，“因此，我们必须大幅调整时间，以避免整个项目显得像一场大型慢动作。”

色彩分级与灯光设置

Shy Kids 在他们的指令中使用了“35 mm film”这一关键词，并发现这一指令确实帮助他们达到了期望的一致性。“如果我们需要高对比度，我们会明确指出 high contrast，而提到 key lighting 通常能够得到比较接近的效果，”Patrick 说道。“我们还需要对色彩进行完整的分级处理，并独立完成了一种数字电影效果，通过添加颗粒效果和闪烁效果，来使不同部分更好地融合在一起。”目前没有提供额外处理如遮罩或深度通道的选项。

版权

OpenAI 努力保护版权，防止创造侵权的内容或误导性的图像。例如，如果有人请求创建像是 在未来太空船中，一个男人持着光剑走来 这样的场景，SORA 将不会生成此内容，因为它与 星球大战 过于相似。不过，Shy Kids 在早期测试中无意中触发了这一限制。Patrick 回忆起他们最初尝试使用 SORA 时的情形：“我们当时设置了一种从角色背后拍摄的 Aronofsky 式镜头。可能是因为我当时太累了，不小心用了‘Aronofsky 式镜头’这一描述，结果收到了 不能这样做 的提示。”他说。另一个例子是 Hitchcock Zoom，这一术语虽已被广泛接受，但 SORA 依旧因版权问题而不予接受。

声音

Shy Kids 不仅在视觉上有过人之处，他们在音频制作上也同样出色。短片中的音乐是他们自己创作的。“这首歌叫做 The Wind，在我们的曲库中已久，我们几乎一听就决定用它。”Patrick 解释道。“这首歌得到了我们所有人的喜爱。”

Patrick 亲自为 Sonny 配音。“有时候，我们觉得电影的节奏需要稍作调整。那时，我就会额外编写一些台词，进行录音，然后用 SORA 创造更多内容。这是后期制作中的一个强大工具，尤其当你需要快速填补内容空白，以解决节奏问题时。”

总结

SORA 是一个非凡的创造；Shy Kids 团队在短短 1.5 到 2 周内，仅由三人完成了 Air Head 的制作。团队正在创作一个既自我觉醒又带有讽刺色彩的续集。“续集将采用新闻报道的形式，聚焦气球艺人 Sonny 对名声的反应及其与世界渐行渐远的故事，”Patrick 表示。“我们还在尝试新的技术手段！”团队计划在实验中加强技术层面，将 SORA 元素与实际动作画面进行 Adobe After Effects 合成，并将 SORA 作为补充的视觉效果工具使用。

SORA 还很新，即便是 OpenAI 展示的基本框架也尚未面向初步测试开放。目前 SORA 的版本似乎短期内不会发布，但它在隐式图像生成的特定领域已取得了巨大进步。对于高端项目，达到导演所需的具体性水平可能还需要一段时间。然而，对于许多其他项目而言，它已能提供超出预期的惊艳图像。尽管 Air Head 仍需大量编辑和人工指导才能完成这部充满趣味的故事片，但“我认为人们应将 SORA 真实地纳入他们的创作流程中；当然，如果他们选择不这样做，也完全可以。”