HeyGen CEO 徐卓（Joshua Xu）访谈 [译]

介绍

Sarah Guo: 欢迎你，Joshua。我们非常期待你今天的到来。你怎么样？

Joshua: 嗨，Sarah，我也很期待来这里。谢谢你今天的邀请。

Sarah Guo: 很荣幸能邀请到你。让我们开始吧。欢迎收听 Huberman Lab 播客，在这里我们会讨论科学及其在日常生活中的应用工具。我是 Sarah Guo，神经生物学和眼科的教授，在医学院任教。

Joshua: 等等，Sarah，我有点迷糊了。这个在录音吗？

Sarah Guo: 今天，我们要讨论 AI 如何能改善你的健康，以及这项技术的医疗价值。

Joshua: Sarah，我现在有点懵了。这不是 No Priors 播客吗？你是不是应该在这里采访科技界的大咖，像 Gary Tan 和 Alexander Wang 这样的人？

Sarah Guo: 那个只是针对人类的。我们非常高兴你来了。欢迎你，Joshua。

Joshua: 对，很高兴能来这里。谢谢你邀请我。

个人背景和创立公司的故事

Sarah Guo: 那我们先聊聊背景吧。你创建了这个公司，HeyGen。它发展迅猛，现在已经有数百万人在使用了。你们创立公司的故事是什么呢？

Joshua: 好的，没问题。嗨，各位。我叫 Joshua。我是 HeyGen 的联合创始人和首席执行官。我们大约在三年半前创立了这家公司。在那之前，我在 Snapchat 工作了大约六年半的时间。我在卡内基·梅隆大学学习机器人技术，并在 2014 年加入了 Snap。最初，我在 Snapchat 的广告部门从事机器学习工作，包括广告排名和推荐等工作。然后，在 Snap 的最后两年里，我开始研究 AI 摄像头。Snap 利用了大量的 AI 技术来提升用户的拍摄体验。比如，你可能记得，2018 年 Snapchat 推出了婴儿滤镜和迪士尼风格滤镜。这是我第一次看到计算机能够创造出一些在现实世界中不存在的东西。那时候，我对这项技术非常着迷，我觉得它有可能改变人们创作内容的方式。Snapchat 本质上是一家利用摄像机功能的社交媒体公司，用户都是通过手机摄像头创作内容的。但是我们希望能够用 AI 来替代摄像头，因为我们相信 AI 能够创建内容，AI 可以成为新的“摄像机”。这就是我们创立 HeyGen 的初衷，我们的使命是让所有人都能够用视觉来讲述自己的故事。

愿景和影响

Sarah Guo: 我很喜欢这个想法，这是我们这一代最伟大的思想家的灵感，比如，你可以把你的脸变成一只可爱的小猫，或者任何你想变的样子。“替代摄像机”对你来说是什么意思呢？我们为什么要这样做呢？

Joshua: 我非常依赖相机。我在手机摄影领域积累了丰富的经验，我们开发了很多软件和技术，让人们能够更自在地使用手机摄影，使创建内容变得更加简单。然而，现在仍有很多人不能通过相机创作出好的内容。我们认为，如果我们能替代相机，那就意味着我们可以消除视觉叙述和视觉内容创作的障碍。这将推动我们在内容创作领域取得更大的进步。

Sarah Guo: 你认为你们开发的技术应用在哪些领域中？

Joshua: 我知道你们在不同类型的虚拟人物上投入了很多时间，这样你就可以把自己的视频变成一个虚拟人物，然后向它输入文字，它就可以用你的声音说话，做出各种有趣的事情，适用于各种领域。你们为什么决定首先从虚拟人物入手呢？当初创业的时候，你觉得主要的应用场景会在哪些领域？

Joshua: 我们试图解构整个视频制作过程。这主要涉及到摄影和后期编辑。所以，摄影主要是关于"A-Roll"，也就是人物、发言人、虚拟人物等元素。剪辑主要是关于 B-Roll，添加不同的素材，配音、音乐，过渡、动画，等等。所以，剪辑，我们从客户那里了解到，剪辑并不昂贵，因为这是一项标准化的服务，但摄像机成本非常高。想象一下，一个公司的 CEO 想要录制一段视频，我们可能需要提前两周的时间来安排。我们需要请摄像机工作人员来，有一个专门的工作室来录制。即使只有两分钟的镜头，有时我们需要录制 20 分钟，因为人们需要记住剧本。这就是阻碍很多企业创新内容的难题。因此，我们开始尝试用虚拟形象来取代摄像机，改变视频制作的过程。

未来将会发展到什么地步？

Sarah Guo: 你认为这在未来将会发展到什么地步？人们已经在各种不同的应用领域使用 HeyGen，比如市场销售、内部网络研讨会或学习等等...我有点好奇，是不是每个人都会有人代替他们参加 Zoom 会议，或者是它会被用于娱乐目的，你如何看待这种技术随着时间的演变？

Joshua: 我认为有很多可能性。我们目前正在解决的问题，就是内容创作的初始阶段，所有的内容都从摄像机开始。然后，会有许多人进行编辑，我们可以清晰看到一条路径，人们已经可以整合所有这些自动生成的镜头，运用 AI 编辑技术来制作最后的视频。再进一步，如果我们继续推动技术的发展，提升性能，我相信我们将能以流媒体形式创造出生成视频的体验。这实际上可能会取代我们现在的很多实时交谈，尤其是当我们使用 GPT-4.0 以及所有这些多模态实时流媒体技术的时候。

Sarah Guo: 好的，到 2024 年，我们仍然处于异步视频创作领域。今天人们是如何使用 HeyGen 的呢？你最喜欢的使用场景是什么？

Joshua: 我认为 HeyGen 的使用场景可以分为三类：创新，本地化和个性化。人们可以从我们的虚拟形象库中选择角色，或者创建自己的数字化替身，只需选择一个模板或编写剧本就能生成视频。这对于产品解说、教学视频、学习发展和一些销售启动培训内容来说效果最好。我们也可以获取现有的视频，并将其本地化到 175 种以上的不同语言和方言里。通过这种方式，我们可以帮助客户将他们的内容本地化到当地的语言。最后，同样重要的是，人们可以使用 HeyGen 大规模的个性化视频信息。我认为在今天的 HeyGen 上有很多非常有创意的应用案例。我们的平台覆盖范围非常广泛。我最喜欢的一种应用可能就是最近与麦当劳的合作。麦当劳推出了一项活动，允许人们用不同的语言向家人发送信息。我对此非常热爱。我无法用言语来表达我对他的热爱。我想要强调的是，AI 是为每一个人准备的，无论是祖母还是孙子孙女。

质量和技术挑战

Sarah Guo: 是的，那真是太酷了。我的意思是，那是一个大品牌向公众推出的面向消费者的应用案例。你如何看待 HeyGen 现在的质量呢？我本来以为那应该是质量最高的部分。你是如何判断虚拟形象何时足够好，何时又不够好的呢？

Joshua: 是的，我要说的是，对于产品、商业和技术来说，质量始终是我们最重视的事项。我经常会为自己设置一些标准。比如说，设定一个质量标准线，阈值是 90。低于 90 的，基本上对客户来说是无用的，因为我们不能完全取代他们的现实生产过程。我们真的需要专注于提升视频生成的质量，使其超过那个阈值。我认为，特别是对于现在的虚拟形象来说，它已经达到了那个标准。所以我们真的可以帮助人们替换掉真实的摄像机，释放大量创造力，帮助人们扩大内容生产。显然，我们还有许多可以改进的地方，比如生成全身形象，将各种元素融入视频。

Sarah Guo: 是的，我们正在进行这方面的工作。你最期待未来或即将发布的新版本有哪些特点？

Joshua: 我认为在我们的技术和产品路线图中有很多令人兴奋的东西。尤其是，我很期待全身形象的生成这一块。从历史上看，形象技术主要集中在上半身。要生成手势和身体动作非常困难。但是，很多学术研究已经证明现在这一切是非常可行的。我们只需要将这个成果推向终点。另外我想说...我对流媒体形象非常兴奋，特别是最近发布的 GPT 4.0，真的大大提升了文本和声音实时交互的性能。而 HeyGen 形象可以成为所有这些应用的可视化层。

Sarah Guo: 显然，我们需要...全身的手势控制和移动才能

制作出任何类型的视频。但是客户对全身动作有什么需求呢？就像你们在过去几个月里展示的那样走路。

Joshua: 我们的看法是，根据不同的用例，质量要求是一个连续的范围。让我们从这个范围的左边开始。这是关于学习发展和教育的内容。这更像是一对多的广播式传播，主要讨论的是教育培训内容。在这种情况下，质量相对较低，因为形象可以保持静止，看起来更专业。但是如果我们看向谱系的另一端，我们把它称为高端的营销内容，这种内容通常非常动态。比如，广告创意就是一个例子。人们在广告中展示非常动态的内容。这样可以有效地提高内容的投资回报率，使其更具吸引力。我认为，启用全身渲染，使形象可以全身呈现，可以帮助我们提升视频的吸引力和真实感，达到新的高度。这将有助于解锁许多广泛适用于营销和销售的场景。比如新闻广播或其他类似内容，记者经常会拍摄人们边走边谈的镜头，这就像是一种标准的镜头模式。如果我们可以做到全身渲染，那么就可以为各种应用领域提供更多可能性。

Sarah Guo: 关于这一点，我想知道你们现在使用的是什么技术？你提到了一些东西，例如 GPT-4.0，但你们也在自家开发了一些模型。你是如何看待你们现在使用的技术栈，以及为了实现全身渲染或其他新功能，你们的技术需要如何发展？

Joshua: 有三种模型，对吧？文本，语音和视频。因此，我们与 OpenAI 和 ChatGPT 合作进行文本生成。显然也像是我们内部构建的协调引擎的大脑。我们也与 OpenAI 和 Event Lab 一起开发语音引擎。但是，我们自行构建了整个视频技术栈，包括视频创作后的渲染和 B 卷制作。我认为随着时间的推移，整个技术趋势正在朝着一个方向发展。所有这些元素，如多模态模型和多媒体，都将整合到一个单一的模型中。我想要强调的一个挑战是全身图像生成的如何将声音与手势动作相结合？这实际上是通过同时训练语音模型和视频模型才能实现的。这样可以在模型中建立起声音和动作之间的连接。这在以前一直是个大问题，因为我们必须分别训练文本转语音（TTS）模型，并将 TTS 模型的输出输入视频模型。创建这种连接一直很困难，但是通过多模式模型训练，这个问题可以解决。虽然 Sora 目前不向开发者和最终用户开放，但是有一些世界级的文本转视频生成模型是通用的，而不仅仅是人物形象。

Sarah Guo: 这种技术与 Sora 有什么不同？

Joshua: 当我们最初开始 HeyGen 时，我们希望帮助企业解决视频创作的问题。商业在寻找什么？他们在寻求质量。他们在寻求控制力。他们在寻求一致性，对吗？所以，当我们回首过去，这就是我们的指引灯塔。我们该如何才能达到那里？我们要走哪条技术道路才能到达那里？这可能主要有两条路径。一条是文本到图像的 SORA，我们尝试从头到尾生成整个内容。这样你就能一次性得到整个视频。另一种方法是我们在 HeyGen 所坚信的，我们试图将整个视频分解成不同的组成部分。大体来说，它将是 A 卷和 B 卷。B 卷代表了所有不同类型的元素，如旁白、音乐、转场。A 卷则是代表角色。我们尝试逐个解决这些组件。然后我们围绕这些组件构建了一个编排引擎，以将最终的视频组合在一起。我们认为这条技术路径更有可能提供品牌所寻求的质量、控制力和一致性。因为例如，有些东西我们可能不应该尝试生成。那就是标志和字体。这需要非常精确。更别说我们还需要能够学习，尤其是在商业环境中，我们需要了解品牌风格、色彩搭配，这些基本都是来自我们的客户。我认为第二种方式会让我们在构建这个系统时具备更多的灵活性和能力。实际上，我们把 Sora 看作是我们的合作伙伴，因为我们能够将其作为一个组件生成器整合进来，然后让它成为我们业务应用中获取数据的引擎的一部分。

Sarah Guo: 对于 HeyGen 来说，如果你只关注如何提升用户体验的各个要素，尤其是你想主导并成为顶尖的视频堆栈，你会如何看待研究呢？你是如何从研究角度探索新能力的？是看看学术界有哪些可供参考的，还是看看客户反馈的问题，或者是从零开始创新？

Joshua: 我认为答案是多元化的。我还要补充一点，那就是我们需要深入理解模型的局限，并努力在客户需求和技术能力之间找到一种连接。比如说，当我们真正尝试去理解问题时，我们发现所有的 AI 模型都有自身的局限。我认为关键的问题是，为了给客户提供优质的产品体验，我们如何设计产品，以尽可能避开模型的局限，同时放大模型的优势。这是发掘新领域、开创新的创作体验的关键所在。我们可以看一看视频翻译技术这个例子。这是一种全新的翻译内容方式，相比传统的配音方式有所不同。我们保留了用户的自然语音和面部表情。但如果深入了解这个模型，使视频渲染成为可能的，实际上是一个唇形同步模型。我们找到了一种方法，将所有这些元素，包括语音和 ChatGPT 的翻译，融合在一起，打造出一种极佳的体验。这就如同我们正在为用户的视频和内容定制化打造一种全新的体验。

道德与安全

Sarah Guo: 大量像麦当劳这样的商业应用都非常精彩，同时我认为很多人也深感深度伪造和滥用他人的形象或声音这类事情令人恐惧。你对此有何看法？网络安全、选举安全，以及滥用行为呢？

Joshua: 首先，我们的平台上不允许发布任何政治或选举相关的内容。HeyGen 的政策严格禁止未经许可的内容创作，我们对于平台滥用行为绝不轻视。所以，我们的安全防护包括非常先进的用户验证，实时视频同意，动态口令，以及在平台上创建的所有内容背后，都有快速的人工审核。信任和安全对我们的业务来说至关重要，我们正在积极地与整个行业合作，继续开发工具和最佳实践，以打击误导信息和提升 AI 的安全性。我们实际上在设计的时候就已经考虑到了安全性。如果你看一下 HeyGen 上的许多创作过程，你会发现我们在每一个创作步骤中都关注安全，并设立了安全防护措施。

Sarah Guo: 我认为，这是非常有意义的。有趣的是，如果我们从积极的角度去看待这个问题。你提到了你是如何防止负面影响。从积极的角度来看，你正在竞选公职，你应该能够向每一位选民发送一条个性化的信息，直接发送到他们的邮箱中，包含一段你专门对他们说话的短视频片段，或者针对他们特别关心的问题进行谈论。因此...你可以想象，将来可以使用这种技术进行高度个性化的政治宣传，只要你能避开一些深度伪造的问题，那么这实际上可能是非常有价值的。你认为这种能力，即生成大规模的、独特的、个性化的等个人对话内容，会如何改变人们制作或使用视频的方式？

Joshua: 如果人们能够生成非常有吸引力和真实的视频内容，他们会更多地创作并使用视频来发展他们的业务，以发展他们的业务。我们现在生活在一个视频优先的世界，每个企业都想制作更多的视频。我认为当前行业的主要问题是制作视频的成本非常高，而且制作一个视频需要花费几周甚至几个月的时间。这会根本性地改变人们对如何发展业务，如何进行沟通，如何进行市场营销和销售的思考方式。我坚信我们有很大可能性创建和生成高度个性化的视频，特别是那些带有全身虚拟形象的视频，它们能够呈现出非常动态和高质量的内容。比如，我认为 AI 生成的价值并不只在于节省成本和时间，这只是其中的一部分。实际上，我们发现很多客户使用这种方法来发掘新的应用场景，做他们以前无法做的事情。我认为这是推动现今许多商业成果的关键因素。

异步使用场景和实时生成

Sarah Guo: 你如何看待在实时和异步的情境下的应用呢？似乎现在很多这些技术都是专注于异步的使用场景。这也同样适用于纯文本到语音模型。你认为我们什么时候才能转向任何形式的实时或接近实时的视频虚拟形象，以及它们的应用场

景呢？

Joshua: 我从两个方面来看这个问题。一个是虚拟形象的实时应用。现在甚至已经可以实现了。我认为人们已经可以在 HeyGen 上体验到这一点。我们正在制作新的更新，可以使其更快。所以它有可能成为，比如说，虚拟的 AI，SDR，虚拟支持，用来接听客户电话或提供支持，对吧？而且，我认为这项技术一直在这种趋势下发展。两年后，看到大量的虚拟形象生成并不会让人觉得惊讶。异步处理流程将能够实现实时流传输。我也看到世界正在朝一个我们未来可能实时生成整个视频的方向发展。比如说，五年后。我有一个观点，虽然生成的图像仍然是图像，但生成的视频并不只是视频。它代表了一种新的格式。我说的意思是，当我们真正看一个视频的时候，我们把它看作是一个 MP4 文件，对吧？所以它是不可更改的。例如，如果你和我在 Instagram 上，我们可能会被推荐两个不同的广告，但只要我们是被同一个商家推荐的，我们看的就是同一个 MP4 文件。但事实并非总需要如此。比如，如果我喜欢鳄梨，我看到的广告应该是关于可口可乐和鳄梨的，向我展示有关可口可乐的新信息。而你如果喜欢其他的，你看到的就应该是其他的。但现在做不到这一点，因为制作视频的成本很高。然而，这完全有可能实现。比如说，我们可以实时生成他们喜欢的视频广告，这有可能成为一种新的广告形式。当我们看今天的视频播放器，它只对应一个 MP4 文件。但实际上并非必须如此。视频播放器可以接收大量的用户属性，然后实时生成一些内容，以便以最佳的方式呈现给消费者。

个性化学习与未来的可能性

Sarah Guo: 说到这，我觉得一个有趣的类比就是 YouTube，它是如今世界上最大的学习工具之一，但对每个人来说，它提供的都是静态的，不可修改的视频。然而，从 Bloom Studies 和其他所有研究来看，个性化的教育才是更有效的教育方式。人们希望通过视频学习，但个性化视频的制作成本过高。这似乎为未来的教育提供了一个全新的可能。

Joshua: 确实，我们从客户那里得知，Pubsis 集团已经制作了超过 100,000 个视频，这些视频是用来感谢全球的所有员工，它们根据不同的语言进行本地化，并且带有员工的名字，以及他们对公司的喜爱之情，这些都是在他们加入公司时表达的。从历史来看，这种方式实际上只用于一部视频，对吧？CEO 或者执行团队可能会站在镜头前，发表一些讲话，比如感谢 2023 年。但现在，这种信息和通讯可以在非常大的规模上个性化。

Sarah Guo: 你提到的研究方向包括构建你自己的视频模型以及使用第三方 API。从研究的角度来看，有什么困难或挑战吗？

Joshua: 我认为，与许多其他模型不同，构建视频模型将美学融入 AI 模型是相当困难的。视频生成不仅仅是解决数学问题，实际上是创造一些客户喜欢和欣赏的东西。基本上，一个具有较低优化成本函数的模型，并不意味着它能产生更好的视觉效果。这使得模型很难评估，但也非常重要，因为它能为客户提供最后一英里的价值。通常，模型评估也很难。我们必须依赖产品内的信号，例如，A / B 测试来知道哪个模型实际上更好，因为，只有客户可以作为评判。而这个过程从数学的角度来看就是不可微分的。我们需要构建一个围绕它的系统，并能够将那些数据反馈到我们的模型训练中，以便我们可以继续改进。

Sarah Guo: 你是因为在 Snapchat 工作涉及消费产品的经验还是在创立 HeyGen 的过程中不得不想出这种方法的呢？

Joshua: 我觉得它们非常相似，尤其是我们开发相机软件的时候。那我们怎么才能知道哪个参数更好呢？我想我们绝对可以找出一些非常客观的衡量标准，比如光线得分和分辨率等。但我们发现，高分辨率并不一定意味着更好的图片质量。你看，iPhone 的分辨率并不总是最高的，比起其他很多手机来说。但是，它却能捕捉到大部分人都喜欢的图片，这也是为什么大家都喜欢用 iPhone 拍照。确实，我们在 Snap 早期就学到了这样的经验教训。

HeyGen 的增长和招聘

Sarah Guo: 你能谈谈 HeyGen 现在的规模吗？

Joshua: 我们的团队有 40 多人，但我们服务的付费客户超过 40,000 人。我觉得我们的客户很有意思，他们并不是典型的 AI 早期采用者。他们是主流公司，从欧洲制造商到小企业，从全球非营利组织到财富 500 强公司，这就是我们正在解决的问题所在。

Sarah Guo: 考虑到每个员工服务的客户达到了惊人的 1000 个，有没有你们正在招聘的特定关键职位，或者我们的听众可能会感兴趣申请的其他事项？

Joshua: 当然，我们正在各团队招聘，包括产品、设计、工程、AI 研究和市场推广等。

Sarah Guo: 这次谈话非常愉快。谢谢你，Joshua。

Joshua: 非常感谢。谢谢你。

Sarah Guo: 感谢你的邀请。

[音乐播放] 在 Twitter 上关注我们 @nopriorspod。如果你想看到我们的视频，就订阅我们的 YouTube 频道吧。在 Apple Podcasts，Spotify 或者你经常使用的播客平台上关注我们的节目，这样你就能每周收听到新的一期。也可以在 no-priors.com 注册我们的邮件通知，或查看每一期的文字稿。