VideoPoet: 能零样本生成视频的大语言模型 [译]

作者:

Dan Kondratyuk,

David Ross

近期,一系列新兴的视频生成模型引起了广泛关注,它们在很多情况下展示了令人惊叹的画质。然而,在视频生成领域,如何有效制作有连贯的大幅度动作的动画仍是一大难题。目前即便是最先进的模型,要么只能生成较小幅度动作的动画,要么在制作较大幅度动作的动画时会出现明显的不自然和瑕疵。

为探索语言模型在视频生成领域的应用,我们推出了 VideoPoet,这是一种能够执行多种视频生成任务的大语言模型(LLM),包括文本到视频、图像到视频、视频风格化、视频内部填充(内修复)和外部扩展(外延画)以及视频转音频等。值得一提的是,当前领先的视频生成模型几乎全都基于扩散技术(例如,参见 Imagen Video)。而与之形成鲜明对比的是,LLM 凭借其在多模态(如语言、编程代码、音频等)的卓越学习能力,已经成为了业界公认的标准(例如 AudioPaLM)。我们的方法不同于其他模型,它将多种视频生成功能融合于一个大语言模型中,避免了依赖于针对各个任务分别训练的不同组件。

概览

以下图表展示了 VideoPoet 的多项功能。它能够将输入的静态图像动画化,产生动态效果,同时也支持编辑(如裁剪或遮罩)视频进行补画(inpainting)或延伸画(outpainting)处理。在视频风格化方面,模型能够分析视频中的深度信息和光流(代表动态运动),并在此基础上添加由文本指导的风格化元素。

功能概述:能够处理多种视频中心任务,如文本到视频、图像到视频、视频到音频的转换,以及视频风格化和延伸画处理。这个大语言模型可以根据需要选用文本输入,以引导这些任务的生成。所用资源包括 Wikimedia Commons 和 DAVIS
功能概述:能够处理多种视频中心任务,如文本到视频、图像到视频、视频到音频的转换,以及视频风格化和延伸画处理。这个大语言模型可以根据需要选用文本输入,以引导这些任务的生成。所用资源包括 Wikimedia Commons 和 DAVIS

大语言模型在视频生成中的应用

大语言模型在训练时的一个显著优势在于,它们可以利用现有训练系统中的高效扩展性改进。但大语言模型处理的是离散的 Token,这使得视频制作颇具挑战。好在,有专门的 视频音频 Tokenizer,能够将视频和音频片段编码成一系列离散的 Token(即整数索引),并可将其还原成原始格式。

VideoPoet 采用了一种 自回归语言模型,通过多个 Tokenizer(用于视频和图像的 MAGVIT V2 和用于音频的 SoundStream)实现对视频、图像、音频和文本多种模式的学习。一旦该模型在给定的上下文中生成了 Token,这些 Token 就可以通过相应的 Tokenizer 解码器转换回可观看的格式。

这张图片详细展示了 VideoPoet 任务的设计,包括各种任务的训练和推理的输入输出。这里的模态数据会通过 Tokenizer 的编解码器转换为 Token 或从 Token 转换回原格式。每个模态都由特定的边界 Token 包裹,而一个特别的任务 Token 用于标示要执行的任务类型。
这张图片详细展示了 VideoPoet 任务的设计,包括各种任务的训练和推理的输入输出。这里的模态数据会通过 Tokenizer 的编解码器转换为 Token 或从 Token 转换回原格式。每个模态都由特定的边界 Token 包裹,而一个特别的任务 Token 用于标示要执行的任务类型。

VideoPoet 生成的示例

以下是我们模型生成的一些示例展示。

VideoPoet 根据不同的文字提示创作出的视频。想了解具体的文字提示,请访问 该网站
VideoPoet 根据不同的文字提示创作出的视频。想了解具体的文字提示,请访问 该网站

在将文本转换为视频的过程中,视频的长度会根据文本内容的不同而有所变化,并且会采用多种动作和风格。为了保证我们的工作负责任,我们参考了公共领域内的艺术作品和风格,比如梵高的《星夜》。

文本输入内容“一只机灵的浣熊在熙熙攘攘的时代广场欢快跳舞”“一匹雄健的马在梵高笔下那迷人的‘星夜’背景中奔腾”“两只顽皮熊猫在嬉戏中玩着扑克牌”“一团炫目的彩虹色油漆爆炸般溅射开来,其中意外地冒出一个苹果,清晰逼真,分辨率达 8k”
视频输出

在图像到视频的转换中,VideoPoet 能够将输入的图像结合文本提示进行动画化。

这是一个图像到视频的转换示例,其中运用了文本提示来指导动画的动作。每个视频的左侧都配有一张图像。左边:描述的是“一艘船在雷暴和闪电中航行的动态油画”。中间:展现的是“穿越星云,四周闪烁着无数星星的场景”。右边:描绘的是“一个行者站在悬崖上,手持手杖,俯瞰着下方蔓延的海雾,周围风景壮观”。参考资料:维基共享资源,属于公共领域。
这是一个图像到视频的转换示例,其中运用了文本提示来指导动画的动作。每个视频的左侧都配有一张图像。左边:描述的是“一艘船在雷暴和闪电中航行的动态油画”。中间:展现的是“穿越星云,四周闪烁着无数星星的场景”。右边:描绘的是“一个行者站在悬崖上,手持手杖,俯瞰着下方蔓延的海雾,周围风景壮观”。参考资料:维基共享资源,属于公共领域。

在视频风格化方面,我们先预测视频的光流和深度信息,然后结合一些额外的输入文本,再输入给 VideoPoet 进行处理。

VideoPoet 利用文本提示、深度和光流信息,展现了在文本到视频生成的基础上进行视频风格化的创新例子。每组视频中,左侧为原始视频,右侧为经过风格化处理的效果。左边是一个戴着墨镜、在阳光照耀的沙滩上玩沙滩球的袋熊;中间是在晶莹剔透的冰面上滑冰的泰迪熊;右边是一个在熔炉光芒下咆哮的金属狮子。
VideoPoet 利用文本提示、深度和光流信息,展现了在文本到视频生成的基础上进行视频风格化的创新例子。每组视频中,左侧为原始视频,右侧为经过风格化处理的效果。左边是一个戴着墨镜、在阳光照耀的沙滩上玩沙滩球的袋熊;中间是在晶莹剔透的冰面上滑冰的泰迪熊;右边是一个在熔炉光芒下咆哮的金属狮子。

VideoPoet 不仅能生成视频,还能创造音频。我们首先从该模型生成 2 秒长的视频剪辑,接着尝试在没有文字提示的情况下预测配套音频,实现了用单一模型同时生成视频和音频的新突破。

      

在这个实例中,我们从一个视频示例出发,不需要任何文字输入,就能生成对应的音频。

为了迎合短视频内容的趋势,VideoPoet 模型被设计为默认输出竖屏视频。我们制作了一个短片,展示了由多个由 VideoPoet 生成的短视频片段拼接而成的成果。在编写剧本时,我们邀请了 Bard 来创作一个关于旅行的浣熊的短故事,并提供了按场景划分的故事梗概和相应的视频提示。接着,我们根据这些提示制作了视频片段,并将它们拼接成为最终展示的视频。

在开发 VideoPoet 的过程中,我们发现了一些模型的独特优点,下面将对这些特点进行重点介绍。

长视频

我们可以通过对视频最后一秒进行分析,预测接下来的一秒内容,从而生成更长的视频。这种方法可以连续应用,显示出模型不仅能够有效延长视频长度,还能在多次重复过程中保持视频中所有对象的连贯性和真实性。

这里有两个例子,展示了 VideoPoet 如何根据文字输入制作长视频:

文本输入“一名宇航员在火星上起舞。随后,背景中绚烂的烟花纷纷绽放。”“从第一人称视角看去,一个精细的精灵石制城市坐落于丛林中,那里有蔚蓝的河流、瀑布和险峻的垂直悬崖。”
视频输出

VideoPoet 不仅支持创作全新视频,还能交互式地编辑现有视频剪辑。比如,如果我们上传一个视频,就能改变视频中物体的运动轨迹,让它们做出不同的动作。这种对物体动作的编辑,可以针对视频的起始帧或中段帧进行,从而提供了广泛的编辑自由度。

例如,我们可以从上传的视频中随机提取几段片段,然后挑选出接下来想要展示的片段。

视频左侧展示了一个输入视频,它被用来生成四种不同的场景选择。这些选择是基于这样一个初始提示产生的:“一只覆盖着苔藓和发芽植物的可爱、生锈且破旧的蒸汽朋克风格的机器人特写,周围环绕着高高的草丛”。对于前三个场景,我们展现了在没有特定提示的情况下,会发生的自然动作。而在列表的最后一个视频中,我们增加了一个提示:“在背景中冒着烟雾启动”,以此来指导机器人的动作。
视频左侧展示了一个输入视频,它被用来生成四种不同的场景选择。这些选择是基于这样一个初始提示产生的:“一只覆盖着苔藓和发芽植物的可爱、生锈且破旧的蒸汽朋克风格的机器人特写,周围环绕着高高的草丛”。对于前三个场景,我们展现了在没有特定提示的情况下,会发生的自然动作。而在列表的最后一个视频中,我们增加了一个提示:“在背景中冒着烟雾启动”,以此来指导机器人的动作。

图像到视频的转换控制

我们也能通过将动作添加到图像中,结合文本提示来编辑图像内容,以实现预期的效果。

为一幅画添加动态效果,以展现不同的场景。左图展示的是:“一位女士转头朝着相机看去。” 右图则展示:“一位女士正在打哈欠。” **
为一幅画添加动态效果,以展现不同的场景。左图展示的是:“一位女士转头朝着相机看去。” 右图则展示:“一位女士正在打哈欠。” **

摄像机运动控制

我们能够通过在文本提示中加入特定的摄像机运动类型,精确地控制摄像机的动作。作为示例,我们用“冒险游戏概念艺术:阳光初升,雪山之巅旁边的清澈河流”这一提示词,利用我们的模型创造出了一幅图像。以下示例展示了如何通过在原有文本后加入特定后缀来实现预期的摄像机运动效果。

从左至右的提示词分别为:“拉远镜头”, “推拉式变焦”, “向左平移”, “弧形轨道拍摄”, “俯视镜头”, “第一人称视角无人机拍摄”。
从左至右的提示词分别为:“拉远镜头”, “推拉式变焦”, “向左平移”, “弧形轨道拍摄”, “俯视镜头”, “第一人称视角无人机拍摄”。

VideoPoet 评估结果

我们对 VideoPoet 在将文本转化为视频的能力进行了全面评测,目的是将其与其他技术进行比较。为了公正地评估其性能,我们在各种不同的提示下测试了所有模型,避免了精心挑选特定示例。我们还邀请了用户对他们更喜欢的视频进行评分。下图显示了在特定问题中,VideoPoet 被选为首选的比例,绿色部分表示这一数据。

文本忠实度评估

用户对视频是否忠实于原始文本的评价。即,视频在准确反映提示内容方面受到用户多大程度的青睐。
用户对视频是否忠实于原始文本的评价。即,视频在准确反映提示内容方面受到用户多大程度的青睐。

运动吸引力分析

用户对视频运动吸引力的评分,即,用户更偏爱哪些视频在创造吸引人的运动方面表现更佳。
用户对视频运动吸引力的评分,即,用户更偏爱哪些视频在创造吸引人的运动方面表现更佳。

根据以上数据,平均来看,用户认为 VideoPoet 生成的视频在更好地符合指令方面的表现优于竞争对手的比例在 24-35%,而竞争对手的比例仅为 8-11%。此外,评估者对于 VideoPoet 在创造更有吸引力运动方面的视频的偏好比例在 41-54%,明显高于其他模型的 11-21%。

结论

通过 VideoPoet,我们展现了大语言模型(LLMs)在各种任务上极具竞争力的视频生成能力,特别是在创造视频中动人且高品质的动态效果方面。我们的成果揭示了大语言模型在视频生成领域的巨大潜力。展望未来,我们期望我们的框架能够实现“全方位”的生成,比如将文本转换成音频、音频转换成视频,甚至实现视频字幕,等等。

想要查看更多高质量的示例,请访问网站演示

致谢

本研究得到了众多贡献者的大力支持,包括 Dan Kondratyuk、Lijun Yu、Xiuye Gu、José Lezama、Jonathan Huang、Rachel Hornung、Hartwig Adam、Hassan Akbari、Yair Alon、Vighnesh Birodkar、Yong Cheng、Ming-Chang Chiu、Josh Dillon、Irfan Essa、Agrim Gupta、Meera Hahn、Anja Hauth、David Hendon、Alonso Martinez、David Minnen、David Ross、Grant Schindler、Mikhail Sirotenko、Kihyuk Sohn、Krishna Somandepalli、Huisheng Wang、Jimmy Yan、Ming-Hsuan Yang、Xuan Yang、Bryan Seybold 和 Lu Jiang 等人。

对 Alex Siegman 和 Victor Gomes 在管理计算资源方面的卓越贡献表示特别感谢。同时,也要向 Aren Jansen、Marco Tagliasacchi、Neil Zeghidour、John Hershey 在音频标记(tokenization)和处理方面的工作表示感谢;感谢 Angad Singh 在“Rookie the Raccoon”项目中的分镜工作;感谢 Cordelia Schmid 在研究讨论中的贡献;感谢 Alonso Martinez 的平面设计工作;还有 David Salesin、Tomas Izo 和 Rahul Sukthankar 的支持;以及 Jay Yagnik 在最初概念构建方面的贡献。

**
(a) 加利利海上的风暴,Rembrandt 于 1633 年创作,属公有领域。
(b) 创世之柱,由 NASA 于 2014 年创作,属公有领域。
(c) 雾海中的行者,由 Caspar David Friedrich 于 1818 年创作,属公有领域。
(d) 蒙娜丽莎,由 Leonardo Da Vinci 于 1503 年创作,属公有领域。