OpenAI 的最终挑战 [译]

关于《纽约时报》与 OpenAI 版权诉讼结果的思考

自《纽约时报》因 OpenAI 使用其内容进行 AI 训练而提起版权侵犯诉讼后,所有与 AI 领域相关的人士都在关注这一事件可能带来的后果。这场官司将如何发展,更重要的是,其结果将如何影响我们对大语言模型的训练和使用方式?

这场诉讼涉及两个关键问题。首先,ChatGPT 被发现能够几乎完全复制《纽约时报》的文章,这显然构成了版权侵犯。尽管如此,仍有一些重要的问题可能会影响案件的最终判决。OpenAI 明确表示,复制《纽约时报》的内容并非 ChatGPT 的目的,并且已经对 ChatGPT 进行了调整,使其更难生成侵权内容,尽管这并非绝对不可能。这种调整是否足以减轻潜在的法律责任?目前尚不清楚是否有人利用 ChatGPT 来规避订阅《纽约时报》的费用。其次,这类案件中的例证往往是精心挑选的。虽然《时报》可以证明 OpenAI 能够复制其部分文章,但是否能复制《时报》档案库中的任意文章呢?比如,能否让 ChatGPT 生成 1947 年 9 月 18 日第 37 页上的文章?或

者《芝加哥论坛报》、《波士顿环球报》的文章?是否有可能访问整个档案库(我对此表示怀疑),还是只有特定的随机文章可用?目前尚不清楚,考虑到 OpenAI 已经修改了 GPT 以降低侵权的可能性,现在做这种实验几乎已为时已晚。法院将需要判断无意中、不重要的或不可预测的复制行为是否构成版权侵犯。

加速学习,深入探索,远见卓识。

更为重要的指控是,将版权内容用于模型训练构成侵权,不论该模型是否能在输出中复制训练数据。萨拉·西尔弗曼等人此前提出的一项笨拙的指控已被驳回。作者协会正致力于一种许可模式,允许其成员参与到统一的许可协议中。这一案件的结果可能带来广泛的影响,因为它本质上允许出版商不仅收取其文本的费用,还涉及这些文本的使用方式。

虽然很难准确预测结果,但可以做出合理的假设。我的预测是,OpenAI 可能会与《纽约时报》达成庭外和解,因此我们可能不会看到正式的裁决。这种和解将具有重要的影响:它将为训练数据设定一个实际价格。这个价格无疑会很高,或许不及《时报》所希望的那样高(有传言称 OpenAI 提出支付大约100 万至 500 万美元),但足够高,以至于能够阻止 OpenAI 的竞争对手。

100 万美元本身并不是一个极高的价格,但《时报》认为这远低于它们的期望值;然而,需要认识到,OpenAI 将不得不向全球几乎每家主要报纸出版商、像作者协会这样的组织、技术期刊出版商、杂志出版商以及许多其他内容所有者支付类似的金额。总开销可能接近 10 亿美元,甚至更多,随着模型需要更新,这将成为一项持续的费用。鉴于微软的投资,OpenAI 提高价格可能会遇到困难——无论你如何看待这一策略——OpenAI 必须考虑总成本。我怀疑他们是否接近盈利;他们似乎正在执行一个 Uber 式的商业计划,大量投资以争夺市场,而不考虑实现可持续经营。但即使是这样的商业模式,数十亿美元的费用也必将引起合作伙伴如微软的关注。

与此同时,《时报》似乎过高估计了自己数据的价值。的确,它拥有庞大的档案库——但旧新闻的价值何在?此外,在任何应用中,尤其是 AI 中,数据的价值并非在于数据本身,而在于不同数据集之间的关联。《时报》并不比任何个人更拥有自己的浏览数据与其他数据之间的关联权。但正是这些关联对于 OpenAI 及其他开发数据驱动产品的公司至关重要。

将版权训练数据的价格定为 10 亿美元左右,其他模型开发者也将需要支付相似的费用以获得训练数据的许可:谷歌、微软(对于其独立开发的模型)、Facebook、亚马逊和苹果等公司都能承担得起。但小型初创公司(包括 Anthropic 和 Cohere 等)将因此被市场排除,开源项目也是如此。通过和解,OpenAI 将大幅减少其竞争对手。好消息是,即便 OpenAI 最终输掉官司,对其竞争对手的影响也是相同的。《时报》和其他出版商将负责执行这一“协议”,负责与其他希望使用其内容的团体协商,并对那些无法达成一致的团体提起诉讼。这样,OpenAI 可以保持其清白,避免花费巨额法律费用。他们通过输赢来取胜——如果真是这样,他们还有赢的动力吗?

遗憾的是,OpenAI 正确地声称,不使用版权数据训练出一个优秀的模型是不可能的(尽管 Sam Altman,OpenAI 的 CEO,也曾表达过相反的观点)。的确,我们拥有大量的公共领域文学作品、维基百科以及 ArXiv 中的论文,但如果一个模型仅基于这些数据进行训

练,那么它生成的文本可能会听起来像是 19 世纪小说与科学论文的混合体,这并不令人愉快。问题不仅仅在于文本生成;如果一个语言模型的训练数据仅限于版权免费的资源,是否需要将提示写成 20 世纪早期或 19 世纪的风格?报纸和其他版权材料是现代语言良好编辑、语法正确的优秀来源。认为可以仅依靠已失去版权的资源来构建一个现代语言的优秀模型是不现实的。

要求模型构建组织购买他们训练数据的权利,将不可避免地将生成式 AI 留给少数几个难以攻破的垄断者手中。我们不讨论可以或不能使用版权材料做什么,但可以说,版权法对材料的来源毫无规定:你可以合法购买、从朋友那里借、偷窃、甚至在垃圾中找到——这些都与版权侵犯无关。在世界经济论坛的一次圆桌讨论中,一位参与者提到 Altman 曾表示,他认为没有必要有多于一个基础模型。考虑到我的预测,他的策略似乎是围绕减少竞争构建的,这并不令人意外。但这一点令人不安:如果所有 AI 应用都必须通过少数几个垄断者,我们能否信任这些垄断者在处理偏见问题时会保持诚实?AI 开发者已经广泛讨论了“对齐”问题,但对齐讨论似乎总是避开了更直接的问题,比如基于种族和性别的偏见。开发需要特定数据集训练的专业应用(例如,O'Reilly Answers)是否还可能?垄断者可能会声称“当然,这些可以通过微调我们的基础模型来构建”,但我们是否真的知道这是构建这些应用的最佳方式?或者,一旦垄断者成功占领市场,小公司是否还能负担得起构建这些应用?记得,Uber 曾经是廉价的。

如果模型开发仅限于少数富裕公司,其未来将是黯淡的。版权诉讼的结果将不仅适用于当前一代基于 Transformer 的模型,还将影响任何需要训练数据的模型。将模型建造限制在少数公司中,将大大减少学术研究的可能性。大多数研究型大学完全有可能基于他们合法获取的内容来构建训练语料库。任何好的图书馆都会有《时报》和其他报纸的微缩胶片,可以通过 OCR 转换为文本。但如果法律规定了如何使用版权材料,基于大学合法购买的材料的研究应用可能就不再可行。开发像 Mistral 和 Mixtral 这样的开源模型将变得不可能——因为获取训练数据的资金将不复存在——这意味着那些不需要大型服务器农场和耗电 GPU 的小型模型将不再存在。这些小型模型可以在现代笔记本电脑上运行,成为开发 AI 驱动应用的理想平台。未来,这是否还可能?或者创新是否只能通过根深蒂固的垄断者来实现?

最近,开源 AI 成为了许多恐慌制造者的目标。然而,认为开源 AI 会被不负责任地用于开发对人类福祉有害的敌对应用,这种观点忽略了问题的实质。是的,开源可能会被不负责任地使用——正如历史上所有工具一样。但我们知道,敌对应用正在被开发,不仅在军事实验室、政府实验室,也在许多公司中。开源让我们有机会看到那些密闭的门后发生了什么,理解 AI 的能力,甚至可能预测 AI 的滥用并准备防御措施。限制开源 AI 不会“保护”我们免受任何事情,它只会阻止我们意识到威胁并开发对策。

透明度至关重要,而专有模型在透明度方面总是落后于开源模型。开源一直是关于源代码,而不是数据;但这正在发生变化。OpenAI 的 GPT-4 在斯坦福的基础模型透明度指数上得分非常高,但仍然落后于领先的开源模型(Meta 的 LLaMA 和 BigScience 的 BLOOM)。然而,重要的不是总分,而是“上游”得分,包括训练数据的来源,在这一点上,专有模型远远落后。没有数据透明度,我们如何可能理解任何内置于模型中的偏见?理解这些偏见对于解决模型当前正在造成的伤害至关重要,而不是那些可能由科幻中的超级智能带来的假设性伤害。将 AI 开发

限制在少数愿意与出版商私下达成协议的富有玩家手中,确保训练数据永远不会公开。

AI 的未来将怎样展开?是否会出现更多的模型?AI 用户,无论是企业还是个人,是否能够构建符合自身需求的工具?或者我们是否将被限制在云端运行的少数 AI 模型中,按交易收费,而永远不真正理解模型的运作或其能力?这正是 OpenAI 与《纽约时报》之间法律战争的终极考验所在。