OpenAI 向 NTIA 提交的开放模型权重意见 [译]

OpenAI 针对 NTIA 在 2024 年 3 月发布的有关广泛应用的双用途基础模型权重的信息征集提交了此份意见。

构建安全与有益的 AI,途径多样。

OpenAI 坚信,通过建立、广泛部署和应用 AI,我们可以改善人们的生活,并开辟一个更加美好的未来。这一进程依托于不断的创新与市场竞争的自由。在这些宽泛原则下,推动 AI 前景的路径多种多样。OpenAI 是最先尝试解决如何公平分配基础模型带来前所未有利益的 AI 开发者之一,我们通过分享这段历史背景,旨在为 NTIA 的评议提供参考。

2019 年,我们推出了 GPT-2,一个能够生成连贯文段的新型模型。面对如何部署这一模型的问题,我们陷入两难:一方面,这个模型极具潜力;另一方面,我们不确定它是否也可能被用于不良目的,比如制作钓鱼邮件。我们决定采用“分阶段发布”策略。正如当时我们所阐述,分阶段发布意味着我们会逐步公开一系列模型。通过分阶段发布 GPT-2,我们希望大家有足够时间评估这些模型的特性,讨论它们可能带来的社会影响,以及在每个发布阶段后衡量其影响。当我们发现没有明显的误用情况时,我们便鼓足勇气,公开发布了模型的完整权重

在 2020 年,我们开发出了 GPT-3,它的性能在所有标准测试中均远超以往任何语言模型,这让我们再次面临该如何发布它的问题。这次,我们选择通过我们的首个产品——OpenAI API(一个允许开发者基于我们技术构建应用的应用程序编程接口)来进行发布。正如我们当时所述,采取这种发布策略的动机有几个:“通过商业化我们的技术,我们可以为持续的 AI 研究、安全和政策工作提供资金支持”,并且“API 发布方式使我们能更灵活地应对技术的滥用。鉴于很难预测我们的模型将会被如何应用,通过 API 发布并逐步扩大其使用范围,相比于直接发布一个开放源代码的模型来说,显得更为谨慎和安全,尤其是在发现其可能的有害应用时,我们还能对使用权限进行调整。”几年的时间里,通过 API 发布的经验让我们和社区深入了解了 GPT-3 级别模型在安全性和误用方面的实际情况。

从那以后的几年里,我们持续支持并信任开源 AI 生态系统的潜力,这包括公开发布了一些我们先进模型的权重(如 CLIP 和 Whisper)和为其他 AI 开发者开发开源工具(比如 Triton GPU 编程语言)。我们已经见证了公开发布模型权重所带来的众多益处,包括推进对 AI 模型内部机制的学术研究,使用户和机构能够在自己的设备上直接运行这些模型,以及激发对模型进行创新性修改以满足特定需求的可能。很多 AI 公司出于品牌建设、招聘优秀人才以及吸引开发者共同完善和加速公司技术发展的目的,都在积极地投入资源以支持模型权重的开源发布。

与此同时,我们选择通过 API 和商业产品(如 ChatGPT)来发布我们领先的 AI 模型。这样做不仅使我们在初次发布后能够继续探索和降低已发现的风险,而且在很多情况下,如果直接公开模型的权重,这些措施是行不通的。举个例子,我们最近与 Microsoft 合作,成功识别、研究并打击了几个滥用我们的 GPT-3.5-Turbo 和 GPT-4 模型进行网络攻击的国家级威胁行为者。如果这些尖端模型的权重被公开,我们就无法这样有效打击这些威胁,因为这些行为者完全可以在自己的设备上运行模型,避开与我们的直接接触。这种做法让我们能够继续将 AI 的益处广泛传递给公众,包括那些免费或低成本的服务。

通过这些经历,我们更加坚信开放模型权重的发布和基于 API 及产品的发布都是推动有益 AI 发展的有效手段。我们认为,一个包含这两种元素的美国 AI 生态系统将更加强大。

将迭代部署与准备性框架结合起来

在多次产品和权重发布中,我们深刻体会到“迭代部署”(iterative deployment)的巨大价值:这一过程通过逐渐让用户获得更加强大的 AI 技术,不仅能够促进他们的生活品质得到实质性的提升,同时也有助于整个社会对这些新兴技术的适应。正如我们在 2023 年的文章中提到的,尽管我们致力于在技术推向市场前,预防所有可预见的风险,但实验室条件下的学习始终有其局限性。广泛的研究和测试无法完全预测到人们将如何利用这些技术带来的好处,或是以何种方式可能会滥用它们。因此,从真实世界中的应用学习,对于我们逐步创建和发布更安全的 AI 系统至关重要。

随着 AI 模型能力的不断增强,它们带来的益处和潜在风险也日益增大,这就要求我们在决定是否以及如何部署这些模型时,采取更为精细化的策略。这一点在 AI 技术可能对公共安全或国家安全产生重大影响时尤为关键。对于更先进的 AI 系统可能带来的重大风险,其未来的存在具有固有的不确定性,学术界对这些风险出现的可能性及其迫切性也存在分歧。我们认为,尽管目前的证据还不足以完全确定,但也不能排除这种可能性。作为致力于推进 AI 技术前沿、最大化其益处的开发者,我们认为,深入研究这项技术可能带来的风险及收集相关证据,是我们不可分割的工作部分。

为了在充满不确定性的领域中,以科学和实证的方法前行,OpenAI 公开推出了我们的准备性框架。这是一个基于科研的方案,旨在持续评估和降低我们的 AI 模型可能带来的巨大风险。该框架指导我们如何在网络安全、自动化操作、个性化影响以及化学、生物、辐射和核(CBRN)威胁等几个关键领域,评价我们 AI 模型的性能水平。举个例子,我们最近的一项研究测试了 GPT-4 在辅助生物威胁创建方面的能力,结果显示,它并未带来额外的显著风险。

基于这些评估,我们会根据模型在每一类别中的风险等级,将其划分为低、中、高或极高四个等级。值得注意的是,按照我们的准备性框架,我们不会推出风险等级为“高”或“极高”的 AI 系统——我们甚至不会去训练风险等级为“极高”的模型——除非我们能通过各种措施,将这些系统的风险等级降低到“中”等级以下。准备性框架之所以重要,是因为它使我们能在确保安全的前提下,构建并分享越来越强大的 AI 技术,同时让我们有能力在灾难性风险真正出现之前,尽可能早地发现并防范。

id:945100s9txxd8kmx

高能力 AI 开发者的实践

我们坚信,个人和企业应有权按照自己的志愿参与到 AI 的世界中——无论是开发还是使用能够体现他们价值观和愿景的 AI,以充分发挥 AI 的潜力。然而,开发和应用高性能 AI 系统时,必须确保其安全性,及时发现并缓解任何潜在的巨大风险。这些目标间的平衡有时会形成张力,需根据具体情况,通过周到的管理来确保社会得到最佳的成果。

对于那些开发成本高昂(数亿美元甚至更多)的高性能基础模型,我们认为 AI 开发者在部署或发布这些模型前,应先评估其可能引发的严重风险。如果评估结果显示风险水平较高,则必须先行采取适当的风险缓解措施。这种做法恰当地平衡了风险管理与创新之间的关系:这类模型被预期将展现出极大的能力,而进行风险评估的成本仅占其开发成本的一小部分。无论是打算广泛分享模型权重还是仅通过 API 提供,进行此类评估都是十分必要的。

在另一端,对于那些开发资源较少的基础模型,利益的平衡则有所不同。当前的证据表明,这些模型即便在微调和模型修改技术进步的情况下,引发重大风险的可能性也要小得多。同时,对于小规模训练的项目,进行灾难性风险评估的成本可能占据相当一部分预算,这可能会抑制创新和竞争的活力。因此,我们认为,这类模型不应强制进行严重风险评估,因为保持开发者在创新激动人心的新 AI 技术上的多样性、促进想法与产品市场的繁荣具有极大的价值,而且科学研究显示,这些模型的风险相对较低。

如 Preparedness Framework 所示的评估协议,是一个在发布任何类型模型之前评估潜在风险的有力工具。在将这些协议应用于模型权重的开放式发布时,有几个特别需要注意的地方。

在考虑如何测试模型时,一个重要的点是测试环境应尽可能覆盖下游使用者可能对模型的各种修改方式。开放模型的一大优点是允许使用者根据自己的需要调整模型,增强模型的原始功能。但这也带来了一个问题:有心之人可能会利用这一点,加强模型的潜在危害。因此,当我们评估向公众开放模型权重的风险时,应包括对恶意使用者可能采用的各种修改方法的测试,比如进行微调。OpenAI 在我们的预备框架中已经进行了此类测试,就像我们在生物风险评估中所做的那样。

另外,开放模型的开发者可能难以依赖系统级别的保护措施来防止模型被滥用,因为恶意使用者很可能会绕过这些保护措施。目前,这种差异在缓解能力上的影响还比较有限,因为即使是我们最先进的模型,也还没有被认为具有特别高的风险。但如果未来的模型存在重大风险,减少开放模型权重发布的风险可能需要提高模型发布环境的整体抵抗力。

社会对 AI 误用的抵御能力,不仅仅是某个组织决定是否发布模型的问题。随着 AI 技术的不断进步和普及,加之计算资源的日益广泛获取——包括对美国等国家的关注点——今日的尖端 AI 技术终将被广泛应用。美国及全球其他国家也面临着一个机遇,那就是通过投资和领导减缓措施,来限制误用的潜在后果,确保最终的影响尽可能正面。

例如,为了提高对 AI 加速的网络攻击的抵抗力,我们可能需要让关键基础设施的运营商提前使用这些 AI 模型,以此加强他们的网络防御能力(正如我们通过 OpenAI 网络安全赠款计划 所资助的一些早期项目所做的)。对抗 AI 加速下的生物威胁则可能需要完全不同的方法,比如升级核酸合成的筛查技术(正如行政命令 14110 所提议的),或者是增强公共卫生系统发现和识别新病原体的能力。如果证明某个 AI 模型对公众安全或国家安全构成了重大风险,那么开发者在广泛发布之前提前增加对这些新能力的认知也是至关重要的(比如通知基础设施提供商或限制 API 的部署),以便为紧迫的抗压准备工作赢得时间和动力。这种做法与网络安全领域的“负责任披露”原则相似,安全研究员发现漏洞后会暂时保密,以便让防御者有时间修补系统,同时也确保安全研究能够继续前进。

我们需要深入研究 AI 风险的科学

我们认为,评估最先进模型的风险是非常重要的,但目前关于 AI 风险评估的科学知识还很初级。OpenAI 以及整个 AI 社区都在努力建立评估 AI 风险的基本方法,我们在准备框架的实施细节上也在不断摸索改进。政府可以通过组织来自网络攻击、关键基础设施和 AI 领域的专家共同确定一套 AI 网络威胁模型的优先级,并建立严格和基于实证的评估平台,从而在帮助 AI 生态系统提升其风险和能力评估实践方面发挥重要作用。我们全力支持美国人工智能标准协会(USAISI)所倡导的自愿、创新友好及科学优先的方针。

自 OpenAI 在 2019 年决定如何发布 GPT-2 —— 一开始只发布了一个小版本后,新的研究成果和事件不断地使我们重新思考何时应公开发布模型的基础结构。我们预计这种情况还会持续下去。任何政府的政策措施都应保持灵活,以便能够适应未来的变化。