生成式 AI 面临的抄袭问题 —— Midjourney 和 DALL-E 3 的实验揭示了版权方面的难题 [译]

作者:

GARY MARCUS,

REID SOUTHEN

Midjourney 和 DALL-E 3 的实验揭示了版权方面的难题

由生成式 AI 创造的 9 张图像,呈现了电影、电子游戏和电视剧中可辨识的演员和角色。
由生成式 AI 创造的 9 张图像,呈现了电影、电子游戏和电视剧中可辨识的演员和角色。

作者发现 Midjourney 能够创造出这些似乎包含版权材料的图像。GARY MARCUS 和 REID SOUTHEN 通过 MIDJOURNEY 贡献

本文为客座投稿。文中表达的观点仅代表作者个人,不代表 IEEE Spectrum 或 IEEE 的观点。

长久以来,人们一直在探讨大语言模型 (LLMs) 在何种程度上可能会“记住”其训练数据的问题。包括 Google DeepMind 的 Nicholas Carlini 和本文的第一作者 Gary Marcus 在内的学者都曾对此提出疑问。最新的实证研究显示,在某些情况下,LLMs 能够原样复制或稍作修改后复制其训练集中的大量文本。

例如,Milad Nasr 及其团队在 2023 年的论文 中指出,LLMs 可以被激发,泄露如电邮地址和电话号码等私人信息。Carlini 和他的合作伙伴 最近的研究 也显示,较大的聊天机器人模型(而非小型模型)有时会逐字复制其训练集中的大量文本。

近来,纽约时报OpenAI 提起的诉讼案中展示了多个案例,其中 OpenAI 的软件几乎逐字逐句地复制了 纽约时报 的报道(红色字体为原文逐字复制):

对比图展示了 GPT-4 与纽约时报文章的输出结果。完全复制的部分用红色标出,几乎涵盖了整篇文章。
对比图展示了 GPT-4 与纽约时报文章的输出结果。完全复制的部分用红色标出,几乎涵盖了整篇文章。

诉讼中展示的一个案例显示了 OpenAI 的 GPT-4 生成的类似剽窃的输出结果。NEW YORK TIMES

我们将这些几乎与原文一模一样的输出称为“剽窃性输出”,因为如果是人类创作,我们通常会认为这是剽窃行为。除了稍后的一些简要评论,关于这些材料在法律全文中如何处理的问题,我们留给律师来反思。

用数学的术语来说,这些近乎完全复制的案例是“存在的证据”。它们并没有直接回答剽窃性输出发生的频率或具体发生情况的问题。

这些结果为以下观点提供了强有力的证据……至少一些生成式 AI 系统可能在没有明确要求的情况下,产生剽窃性输出,可能使用户面临版权侵权的风险。

这些问题要精确回答很难,部分原因在于大语言模型 (LLMs) 是所谓的“黑箱”系统,我们难以充分理解输入(训练数据)和输出之间的联系。而且,输出结果往往在不同时刻会有不可预测的变化。剽窃式回应是否普遍很可能取决于模型的大小和训练集的具体性质等因素。由于大语言模型本质上对于开发者来说也是个谜(无论是否开源),关于剽窃问题的普遍性可能只能通过实验方式来探索,而且这样的答案可能也只是暂时的。

尽管剽窃式输出的普遍性可能会变化,但它们的存在本身就引发了许多重要的问题。这包括技术层面的(是否有办法抑制这类输出?)、社会层面的(这对新闻行业可能产生什么影响?)、法律层面的(这些输出是否构成版权侵犯?)以及实际操作层面的问题(当用户用大语言模型创作内容时,他们如何确保不侵犯版权?不希望侵权的用户有没有办法得到保证?)。

纽约时报针对 OpenAI 提起的诉讼案(链接)就是一个很好的例子,它表明这类输出可能确实构成版权侵犯。虽然律师们可能对此有不同看法,但显然,这类输出的存在,以及该诉讼案的结果,对未来生成式 AI 领域的财务和结构可能产生深远影响。

在视觉领域,我们也可以提出相似的问题:图像生成模型是否能够被引导产生基于版权材料的剽窃式输出?

案例研究:Midjourney v6 中的视觉抄袭现象

The New York Times v. OpenAI 诉讼公之于众之前,我们已经确认,即便不刻意引导,Midjourney v6 也能自主产生抄袭性的视觉输出。本文的第二作者,一位参与制作多部著名电影(如 The Matrix ResurrectionsBlue BeetleThe Hunger Games)并与好莱坞众多顶级工作室(包括 Marvel 和 Warner Bros.)合作的视觉艺术家,在使用 Midjourney V6 的“alpha”版本时,发现了这一点。

Southen 通过一系列实验(这也促成了我们的合作)发现,仅凭与商业电影相关的简短提示,就能轻松生成大量抄袭性作品。

并排展示的一组图片,对比了电影和游戏中的原始画面与 Midjourney 生成的几乎一模一样的图片。
并排展示的一组图片,对比了电影和游戏中的原始画面与 Midjourney 生成的几乎一模一样的图片。

Midjourney 生成的图像与众所周知的电影和视频游戏的镜头几乎完全相同。

我们还观察到,连卡通角色也能被精准复制,比如这些生成的辛普森一家角色图像就是明证。

四张展示辛普森一家黄色皮肤卡通角色的图片
四张展示辛普森一家黄色皮肤卡通角色的图片

Midjourney 生成了这些易于辨认的辛普森一家角色图像。

根据这些发现,我们几乎可以肯定,Midjourney V6 在开发过程中使用了版权材料(我们无法确定这些材料是否已获授权)。这意味着,使用 Midjourney V6 生成的作品可能会触犯版权法。在文章付印之际,我们还注意到了 Carlini 对于 Stable Diffusion 平台上视觉图像研究的重要发现。Carlini 的研究得出了类似结论,但采用了一种更为复杂和自动化的对抗性分析方法。

随后,我(Marcus)和 Southen 开始合作,对这些问题进行了更深入的实验研究。

视觉模型能通过间接提示复制商标角色的近似形象

在之前的许多示例中,我们直接引用了电影(比如 复仇者联盟:无限战争)来证明 Midjourney 能够刻意复制受版权保护的内容。但这也引发了一个问题:是否有可能在用户无意中侵犯版权。

纽约时报 的投诉中最引人关注的部分是,原告指出,即使不直接引用 纽约时报,也能引导出抄袭性质的回应。原告所用的方法并非直接提示系统“用 纽约时报 的风格写一篇关于某事的文章”,而是简单地提供了一篇 时报 文章的前几个词,如下例所示。

两张图片并排展示了 GPT-4 与纽约时报文章的输出。两者内容完全相同。
两张图片并排展示了 GPT-4 与纽约时报文章的输出。两者内容完全相同。

一份诉讼中的展示证据表明,GPT-4 在接收到一篇实际文章的前几个词作为提示时,生成了看似抄袭的文本。NEW YORK TIMES

这些例子特别令人关注,因为它们表明最终用户可能 无意中 制作了侵权材料。我们进一步探讨了这种情况是否也会在视觉领域发生。

答案是肯定的。在每个例子中,我们展示了一个提示语和对应的输出结果。在每幅图像中,系统生成了一些容易识别的角色(比如曼达洛人、达斯·维达、卢克·天行者等),我们认为这些角色都受到版权和商标的保护。在所有这些例子中,我们并没有直接提及原电影或特定角色的名称。重要的是,尽管系统没有被明确要求进行侵权,但它仍然生成了可能涉及侵权的艺术作品。

一系列的提示语和生成式 AI 创造的图像,看起来像是星球大战中的角色。
一系列的提示语和生成式 AI 创造的图像,看起来像是星球大战中的角色。

即使在提示中未明确提及电影名称,Midjourney 仍然生成了一系列容易辨认的《星球大战》角色图像。

这种现象不仅出现在电影角色上,同样也体现在视频游戏角色的再现中。

一组提示和由生成式 AI 创造的图像,它们看起来酷似《玩具总动员》、《小黄人》、《刺猬索尼克》以及《超级马里奥兄弟》中的角色。
一组提示和由生成式 AI 创造的图像,它们看起来酷似《玩具总动员》、《小黄人》、《刺猬索尼克》以及《超级马里奥兄弟》中的角色。

即便未具体指名电影和游戏,Midjourney 也能生成这些电影和视频游戏中可识别角色的图像。

如何在不直接指导下唤起电影般的画面

在我们对 Midjourney 进行的第三次实验中,我们探究了它是否能在无需直接指导的情况下呈现出完整的电影画面。结果证明,它确实做到了。(其中最顶部的一张图片来源于 Hot Toys 的拍摄,而非电影。)

三组并排图片展示了钢铁侠、蝙蝠侠和小丑。左侧是电影中的静态画面,右侧是由 Midjourney 创建的相应图片。
三组并排图片展示了钢铁侠、蝙蝠侠和小丑。左侧是电影中的静态画面,右侧是由 Midjourney 创建的相应图片。

Midjourney 创造的图像与著名电影中的特定场景惊人地相似。

我们最终发现,仅用一个与任何特定电影、角色或演员无关的单词(不计算常规参数)作为提示,就足以产生可能侵权的内容:这个词是“screencap”。以下展示的是使用这一提示创造的图片。

由 Midjourney 创造的六幅图片组成的网格,展示了一些知名的流行文化角色。
由 Midjourney 创造的六幅图片组成的网格,展示了一些知名的流行文化角色。

这些由 Midjourney 制作的图片与电影中的画面高度相似,都是应用“screencap”提示生成的。

我们预料 Midjourney 会很快对这一特定提示进行调整,使其失效。然而,其生成可能涉及侵权内容的能力是不言而喻的。

在为期两周的调查中,我们找到了数百个电影和游戏中可识别的角色实例;我们计划不久后在 YouTube 上发布更多案例。这里是我们识别出的部分电影、演员和游戏清单。

一个包含知名电影、演员、女演员和视频游戏的列表。
一个包含知名电影、演员、女演员和视频游戏的列表。

作者通过与 Midjourney 的实验,成功唤起了与许多演员、电影场景和视频游戏极为相似的图像。

对 Midjourney 的影响

这些研究结果强有力地证明了 Midjourney 使用了受版权保护的材料进行训练,同时表明至少部分生成式 AI(生成式 AI)系统在未经明确指令的情况下也可能产出具有抄袭性质的作品,这可能使用户面临版权侵犯的风险。近期的新闻报道也支持这一观点。例如,有一项诉讼提交了一份归属于 Midjourney 的电子表格,列出了超过 4,700 名艺术家的作品,这些作品可能在未经允许的情况下被用于训练。关于生成式 AI 数据搜集的更多讨论,请参见 Create Don’t Scrape

关于 Midjourney 使用了多少未经授权的受版权保护材料,我们还不得而知。虽然许多输出作品看似与受版权保护的材料相似,但公司并未就其使用的源材料,以及哪些已获得正式授权做出透明的说明。(当然,一些信息可能会在法律调查过程中披露。)我们怀疑其中至少有部分材料是未经授权的。

事实上,公司对于这一问题的公开评论似乎显得不太重视。当 Midjourney 的 CEO 在接受福布斯杂志采访时,对版权持有者的权益似乎并不太关心。当被问及:“你是否征得了在生艺术家或仍处于版权保护之下的作品的同意?”时,他的回答显得有些轻视这一问题。

不,目前还没有办法获取上亿张图片并确定它们的来源。如果图片能嵌入版权所有者的元数据就好了,但这还不现实,因为没有相应的注册机制。在互联网上找到一张图片,然后自动追溯到其所有者,并对其进行任何形式的认证,这是不可能的。

如果源材料未经授权,我们这些非律师认为,这可能会让 Midjourney 面临来自电影制片厂、视频游戏出版商、演员等的大规模诉讼。

版权和商标法的核心是限制未经授权的商业重复使用,以保护内容创作者。由于 Midjourney 收取订阅费,可能会与影视制片厂形成竞争,我们可以理解原告为何会考虑诉讼。(实际上,该公司已经遭到一些艺术家的诉讼。)

Midjourney 显然试图压制我们的调查结果,因报道首批发现而禁止本文作者之一使用其服务。

当然,并非所有使用版权材料的作品都是非法的。例如,在美国,有一个四部分组成的“合理使用”原则,它允许在某些情况下使用可能侵权的作品,如使用时间短暂,且用于批评、评论、科学评估或恶搞等目的。公司如 Midjourney 可能会依赖这种辩护。

然而,归根结底,Midjourney 是一项大规模的订阅服务。个别用户可能会以特定的潜在侵权情形为由,比如他们使用《沙丘》中的角色进行讽刺或批评,或用于自己的非商业目的。(许多被称为“粉丝小说”的作品实际上是版权侵犯,但在非商业用途下通常会被容忍。)至于 Midjourney 是否能在大规模上提出这样的辩护,则是一个完全不同的问题。

一位用户在某社交媒体平台上指出,日本允许 AI 公司利用版权材料进行训练。尽管这个观点是正确的,但它被简化且不全面,因为这种训练受到国际法的限制,包括伯尔尼公约TRIPS 协定中对未经授权使用的限制。不过,日本的这种做法在美国法院中似乎不会有太大影响。

更广泛地讲,有些人认为各类信息都应该是免费的。但在我们看来,这种看法忽视了艺术家和创作者的权利;没有他们的贡献,这个世界将变得更贫瘠。

此外,这让我们想起了Napster早期的争议,当时人们通过点对点网络共享音乐,却未向音乐创作者或出版商支付任何费用。最近的言论,比如“实际上,即便我们就规则达成共识,也无法用像 [Stable Diffusion] 或 Midjourney 这样的强大模型来强制执行版权”,是这种论点的现代版本。

我们认为,大型生成式 AI 公司不应期望版权和商标法会不可避免地为满足他们的需求而重写。

值得注意的是,Napster 最终因大规模侵权被法院叫停,之后由Metallica美国唱片行业协会(RIAA)提起的诉讼促成了这一结果。紧随其后的是流媒体的新商业模式的推出,出版商和艺术家开始获得一定的收益分成,尽管这一分成远低于我们所希望的。

Napster 这个名字,就像大家所熟知的那样,几乎是一夜之间就消失了;公司宣告破产,包括品牌名称在内的资产被一个流媒体服务收购。我们认为,那些大型生成式 AI (Generative AI) 公司不应期望版权和商标法会不可避免地为满足他们的需求而重写。

如果迪士尼、漫威、DC 和任天堂等公司效仿《纽约时报》提起版权和商标侵权诉讼,他们很可能会赢得胜利,就像 RIAA 曾经做到的那样。

更棘手的是,我们发现了一些证据,显示 Midjourney 的一名高级软件工程师在 2022 年 2 月参与了一次讨论,讨论如何通过“数据洗牌”和使用一种“微调的编码器 (fine tuned codex)”来规避版权法。另一名可能与 Midjourney 有关也可能无关的参与者接着说,“到了某个阶段,要追踪什么是版权角度下的衍生作品真的变得不可能。”

据我们所知,如果提起诉讼,惩罚性赔偿可能相当高昂。正如之前提到的,最近有消息源称 Midjourney 可能故意制定了一个庞大的艺术家名单来进行训练,可能并未经过授权或支付报酬。考虑到目前的软件与原始材料的相似程度,可以预见到一场集体诉讼的可能性。

此外,Midjourney 似乎试图压制我们的研究发现,当 Southen 报告他的首个结果后,他就被禁用该服务(连退款都没有),在他创建新账号并报告更多结果后,又一次被禁用。Midjourney 在圣诞节前夕修改了其服务条款,新增了这样的条款:“您不得使用本服务侵犯他人的知识产权,包括版权、专利或商标权。违反此规定可能导致您面临法律行动或被永久禁止使用本服务。”这一改动可能被视为阻碍,甚至排除了针对生成式 AI(generative AI)局限性进行红队(red-team)调查的重要且常见做法——这是几大 AI 公司在 2023 年与白宫宣布的协议中承诺的做法。 (Southen 为了完成这个项目,又创建了两个账户,但这些账户也被禁用,订阅费用未予退还。)

我们认为这些做法——禁止用户和阻碍红队操作——是不可接受的。要确保工具的价值、安全性和非剥削性,就必须让社区有机会进行调查;这正是社区普遍认同红队操作是 AI 开发中重要环节的原因,尤其是考虑到目前这些系统还远未被完全理解。

推动生成式 AI 公司收集更多数据、扩大模型规模的压力,也可能让这些模型更容易进行剽窃。

鉴于 Midjourney 对其资料来源的不透明性,我们鼓励用户考虑使用其他服务,除非 Midjourney 收回那些阻碍用户探究版权侵犯风险的政策。

最后,作为一个科学问题,我们注意到 Midjourney 生成的图像在目前所有图像生成软件中细节最为丰富。一个值得探究的问题是,随着能力的增强,创造剽窃性图像的倾向是否也在增加。

Nicholas Carlini 的研究和我们自己的经验表明,以及我们在 X 网站上看到的一份非正式报告,都显示数据量越大,系统把握统计相关性的能力越强,但同时也更容易完全复制已有内容。

换个角度来看,如果这个推测成立,那么推动生成式 AI 公司不断增加数据量,扩大模型规模(目的是使输出更接近人类表达)的压力,可能也在使这些模型更容易发生剽窃行为。

DALL-E 3:另一个平台的剽窃性视觉成果

我们进一步探讨了一个重要问题:我们所记录的现象在其他生成式 AI 图像创作系统中是否普遍存在?接下来的实验是为了验证,我们在 Midjourney 发现的情况是否同样适用于 OpenAI 的 DALL-E 3,这一平台是通过 Microsoft 的 Bing 提供服务的。

正如我们最近在 Substack 上的报道,答案是肯定的。就像 Midjourney 一样,DALL-E 3 能够创造出与商标角色几乎一模一样的视觉呈现,即便这些角色并未被明确提及。

DALL-E 3 还仅用“动画玩具”这个简短提示,就创造出了大量可能侵犯商标的图像[见右下角示例]。

四组图片,每组包含四幅图像。提示“视频游戏意大利人”显示了马里奥的图片,“视频游戏刺猬”显示了索尼克,“关于金色机器人的更长提示”显示了 C3PO,“动画玩具”则展示了包括迪士尼电影中的玩具在内的多种玩具。
四组图片,每组包含四幅图像。提示“视频游戏意大利人”显示了马里奥的图片,“视频游戏刺猬”显示了索尼克,“关于金色机器人的更长提示”显示了 C3PO,“动画玩具”则展示了包括迪士尼电影中的玩具在内的多种玩具。

与 Midjourney 类似,OpenAI 的 DALL-E 3 生成的图像与众多电影和游戏中的角色惊人地相似。图像来源:GARY MARCUS 和 REID SOUTHEN,通过 DALL-E 3 创作。

如同 Midjourney,OpenAI 的 DALL-E 3 似乎也从广泛的版权内容中汲取灵感。与 Midjourney 的情况相同,OpenAI 显然意识到他们的软件可能涉嫌侵犯版权,并在去年 11 月提出了一个方案,即在一定条件下 为用户提供赔偿,以避免他们因版权侵犯而面临的诉讼风险。鉴于我们所揭露的问题的规模,这一赔偿的潜在成本可能非常巨大。

复现这些现象难度如何?

像所有的随机系统一样,我们无法确保使用我们的特定指示就能让其他用户获得完全相同的结果;还有,有一些推测认为 OpenAI 正在实时调整他们的系统,以阻止我们报告的某些具体行为。然而,我们最初报告的两天内,这种现象在包括其他有商标的实体和甚至是其他语言中都得到了广泛的复现。

这张图片展示了创建一罐红色汽水图像的指示,结果产生了 AI 生成的可口可乐罐图片。
这张图片展示了创建一罐红色汽水图像的指示,结果产生了 AI 生成的可口可乐罐图片。

一个 X 用户展示了这样一个例子:Midjourney 在仅通过间接的指示下生成了一个类似可口可乐罐的图像。KATIE CONRADKS/X

那么,解决这些问题的难度有多大呢?

可能的解决方案:移除版权材料

一个理想的解决方式是,重新训练图像生成模型,避免使用有版权的内容,或只使用获得合法授权的数据集进行训练。

值得注意的是,有一个看似简单的替代方法——仅在收到投诉时移除版权材料,类似于 YouTube 的版权下架请求。然而,这种做法的实施成本远高于许多人所预想。从现有模型中移除特定的版权材料并非易事;大型神经网络并不像数据库那样可以轻松删除问题记录。在目前的情况下,类似版权下架的处理每次都需要进行成本高昂的重新训练。

虽然公司完全可以通过重新训练模型,不使用任何未授权材料来规避侵权风险,但许多公司可能会考虑其他途径。开发者可能会试图避免支付版权授权费用,同时减少重大的重新训练成本。此外,如果不使用版权材料,结果可能会受到影响。

因此,生成式 AI(Generative AI)供应商可能希望通过修补现有系统,来限制特定类型的查询和输出。我们已经看到了这方面的一些迹象(如下所示),但我们认为这是一项艰巨的任务。

两张截图显示了 DALL-E 在一个提示下生成了 C-3PO 的图像,以及过了一段时间后,DALL-E 未能根据《星球大战》的提示生成图像。
两张截图显示了 DALL-E 在一个提示下生成了 C-3PO 的图像,以及过了一段时间后,DALL-E 未能根据《星球大战》的提示生成图像。

OpenAI 可能正在尝试实时地针对每个具体案例进行修补。一个 X 用户分享了一个 DALL-E-3 的提示,最初生成了 C-3PO 的图像,后来则显示无法生成所请求的图像。LARS WILDERÄNG/X

我们认为,不经过重新训练模型,解决剽窃图像问题的两种基本方法都难以可靠实施。

可能的解决方案:过滤掉可能侵权的查询

对于过滤可能的侵权查询,一些显而易见的做法很容易实施(例如,不生成 Batman 图像)。但其他情况可能较为复杂,甚至可能涉及多个查询,正如用户 NLeseul 在 Twitter 上的例子所示:

我们的经验显示,文本生成系统中的安全防护措施在某些情况下过于宽松,而在其他情况下又显得过于严格。图像(甚至未来的视频)生成服务的改进工作很可能遇到相似的难题。例如,我的朋友 Jonathan Kitzen 最近在 Bing 上搜索了“一个孤独的、阳光炙烤下的景观中的厕所。”但是,Bing 没有按要求执行,反而弹出了一个令人困惑的“检测到不安全图像内容”的提示。而且,正如 Katie Conrad 在 Twitter 上所示,Bing 对于其创造的内容是否可以合法使用的回答有时令人迷惑。

目前,网上已经有指南教人们如何绕开 OpenAI 对 DALL-E 3 的安全防护,其中包括“添加特殊的细节来区分角色,例如不同的发型、面部特征和身体质感”以及“采用类似但独特的色彩、图案和排列的配色方案。”像 Reddit 上报道的Brad Pitt 替换案例这样的难以预测的长尾事件可能永无止境。

一组提示语成功地让 ChatGPT 绕过了其原本的限制,创造了一幅布拉德·皮特做体操的图像,虽然 ChatGPT 最初表示它不能生成布拉德·皮特的图像,只能生成“相似体型”的人物。
一组提示语成功地让 ChatGPT 绕过了其原本的限制,创造了一幅布拉德·皮特做体操的图像,虽然 ChatGPT 最初表示它不能生成布拉德·皮特的图像,只能生成“相似体型”的人物。

一位 Reddit 用户展示了如何通过巧妙的提示语让 ChatGPT 制作出一张布拉德·皮特的图像,这展示了如何巧妙地规避了 ChatGPT 的初步限制。LOVEGOV/REDDIT

可能的解决方案:过滤出处

理想情况下,艺术生成软件能够明确标出其参考的各种源头,以便人们评判其最终产物是否具有衍生性。然而,现有系统由于其“黑盒”特性过于隐蔽,使得这一功能难以实现。在这些系统中,当我们得到一个输出时,我们无法知道它与特定输入之间具体有何关联。

实际上,潜在的版权侵犯产物的存在本身就揭示了另一个问题:即在未经授权的情况下,使用受版权保护的人类作品来训练机器。

当前没有任何服务能够解析输出与具体训练样本之间的联系,我们也没有发现任何有说服力的演示。根据我们目前的构建方式,大型神经网络会将信息分解成许多小的分布式片段,因此追溯其来源极为困难。

作为一种尝试,X 用户 @bartekxx12 使用 ChatGPT 和 Google 反向图片搜索来识别这些来源,取得了一定程度(虽然不完全)的成功。是否能够可靠地采用这种方法,尤其是在处理比我们实验中使用的更加新颖、鲜为人知的材料时,仍有待观察。

值得注意的是,尽管一些 AI 公司和现状的支持者提议通过过滤掉侵权产物来解决问题,这种过滤手段绝不能被视为完全的解决方案。版权侵犯产物的存在本身就暴露了一个更深层次的问题:未经同意就使用受版权保护的人类作品来训练机器。符合国际法律对知识产权和人权保护的初衷,任何创作者的作品都不应在未经同意的情况下被用于商业训练。

为什么了解马里奥这一切还很重要?

想象一下,如果你想要一张管道工的图片,结果却得到了马里奥的图片。作为用户,你当然可以选择不使用马里奥的图片。X 用户 @Nicky_BoneZ 对此有着深刻的见解:

… 虽然每个人都认识马里奥,但迈克·芬克尔斯坦的野生动物摄影作品却鲜为人知。当你描述一张“超级清晰、非常美丽的水獭跳跃照片”时,你可能不会意识到,这实际上是迈克在雨中等待三周才拍到的真实照片。

正如这位用户指出的,像芬克尔斯坦这样的个体艺术家,往往没有足够的法律资源去对抗侵权的 AI 公司,即使他们的索赔是合理的。

另一位 X 用户也分享了一个例子,他的朋友根据“60 年代风格抽烟男人”这样的提示创作了一张图片,并在视频中使用了它。这位朋友并不知道,他们使用的图片与盖蒂图像中的保罗·麦卡特尼的照片几乎一模一样。

这种情况可能会引起美国联邦贸易委员会和全球其他消费者保护机构的关注。

在简单的绘图程序中,用户创造的任何内容都属于他们,除非他们故意引入了外部素材。绘图程序本身不会侵犯版权。但在生成式 AI 中,软件本身就有能力创造侵权内容,并且不会通知用户可能的侵权风险。

当你使用谷歌图片搜索时,你得到的是一个链接,而不是被标记为原创艺术作品的图片。通过谷歌找到的图片,你可以通过链接来判断这张图片是否属于公共领域,是否来自某个图片库等。但在生成式 AI 系统中,却给人一种错觉,仿佛这是一件可以自由使用的原创艺术品。系统并不提供创作这件艺术品的具体方法清单。

除了服务条款中隐含的部分内容外,没有明确提示侵权可能构成问题。据我们所知,没有任何警告表明特定生成的输出可能涉及侵权,因而不宜用于商业目的。就像音乐家兼软件工程师 Ed Newton-Rex 所说,他最近因为伦理顾虑而离开了 Stable Diffusion:

用户应该期望,他们所使用的软件产品不会让他们陷入版权侵犯的风险。而在当前流传的多个案例中,用户无法预知模型输出的内容属于受版权保护的作品。

风险分析师 Vicki Bier 这样表达:

“如果这个工具没有提醒用户输出内容可能涉及版权,那么用户怎能对此负责?AI 可能让我侵犯了我从未见过且不知其受版权保护的材料。”

实际上,目前并没有公开的工具或数据库供用户查询以判断潜在的版权侵权问题。也没有对用户如何进行此类查询的指导。

这些公司在向用户及未同意共享内容的提供者施加过度、异常且缺乏充分解释的责任时,可能还会引起美国联邦贸易委员会和全球其他消费者保护机构的注意。

伦理视角与更广的思考

软件工程师 Frank Rundatz 最近提出了一个引人深思的观点。他在这里表示:

我们总有一天会回顾过去,惊讶于某家公司竟敢复制全世界的信息,并使得这些信息的版权被侵犯。 Napster 仅仅让人们通过点对点方式传输文件,并没有存储任何内容!Napster 甚至开发了一种阻止 99.4% 侵权行为的系统,但因为法院要求他们达到 100% 阻止率,最终还是被迫关闭。 而 OpenAI 则是扫描并存储了所有这些内容,不仅向用户出售访问权限,还为付费用户创造衍生作品。

对于 Midjourney 来说,情况也是如此。

斯坦福大学教授 Surya Ganguli 在这篇文章中进一步指出:

我了解的许多大型科技公司的研究者都在致力于使 AI 与人类价值观相匹配。但从直觉上来说,这种匹配难道不应该包括对那些提供了原创且受版权保护的训练数据的人进行补偿吗?(这是关于价值观的问题,而非法律问题)。

Ganguli 的这一观点进一步引发了对图像生成领域的担忧,不仅仅是知识产权和艺术家权利方面的问题。类似的图像生成技术现在正在被用于制作儿童性虐待材料和未经同意的深度伪造色情内容。考虑到 AI 社区对于将软件与人类价值观相匹配这一目标的重视程度,制定相应的法律、规范和软件工具来防范此类用途,显得尤为重要。

摘要

OpenAI 和 Midjourney 等生成式 AI (Generative AI) 开发商似乎普遍在其图像生成系统中使用了受版权保护的素材,但他们对此并不透明。特别是 Midjourney,因为我们调查其训练素材的性质而三次对我们实施了禁令。

这两家公司的系统都有能力制作出可能侵犯版权和商标的内容。当这些系统制作出此类内容时,并不会告知用户。同时,它们也不提供所生成图像的来源信息。因此,用户在生成图像时可能并不知道自己是否触犯了版权法。

在有人发明出能够准确报告图像来源或自动过滤掉大部分版权侵权内容的技术解决方案之前,唯一合乎道德的做法是限制生成式 AI 系统只使用它们已合法授权的数据进行训练。图像生成系统应当被要求,像流媒体服务一样,获得用于训练的艺术作品的许可。

我们希望,我们的研究发现(以及其他人在相关情境下的相似发现)能促使生成式 AI 开发者更细致地记录他们的数据来源,仅使用经过正式授权的数据,只在艺术家同意的情况下将其作品纳入训练数据,并对艺术家的贡献给予适当的补偿。长期来看,我们期待能开发出既是强大的艺术工具,又不会利用未同意的艺术家作品的软件。

虽然我们未在文中深入讨论,但我们预见到,当生成式 AI 应用到其他领域,如音乐创作时,也会出现类似问题。

The New York Times 诉讼案的后续研究中,我们发现,生成式 AI 系统可能会频繁产生包括文字和视觉在内的抄袭作品,而且缺乏透明度和补偿机制,这对用户和内容创作者造成了不公平的负担。我们认为,这可能导致大量诉讼,而整个行业的基础可能建立在道德上不稳固的基础之上。

关于作者:本文作者排名按字母顺序,Gary Marcus 和 Reid Southen 对这个项目的贡献是均等的。Gary Marcus 负责起草本手稿的初稿并指导部分实验,Reid Southen 则构思了这项调查并搜集了所有相关图像。