AI 开发人员通常会使用安全校准程序来防止 AI 系统被滥用。举个例子,在 Meta 公司推出由一系列经过详细指导调整的大语言模型组成的 Llama 2-Chat 产品之前,他们在安全培训上进行了大量的投入,包括广泛的对抗测试和基于人类反馈的强化学习。然而,当攻击者能够接触到模型的权重数据时,安全训练能在多大程度上防止模型被滥用还是一个未知数。本研究通过对 Llama 2-Chat 公开权重进行隐蔽的微调,考察了语言模型安全训练的稳固性。我们采用了一种高效的微调方法——低秩适应(LoRA)。在预算不超过 $200、仅使用一块 GPU 的情况下,我们成功地破解了 7B、13B 和 70B 三种规模的 Llama 2-Chat 模型的安全训练。具体来说,我们的微调技术大幅降低了模型拒绝执行危险指令的次数。在两项拒绝标准测试中,我们对 70B Llama 2-Chat 模型的拒绝率降到了不足 1%。我们的微调方法在保持总体性能的同时,通过与 Llama 2-Chat 在两个标准测试中的对比,验证了模型性能的保持。此外,我们还展示了一些由我们的模型生成的危险输出示例。尽管对当前模型潜在风险的范围还存在很大的不确定性,但未来的模型可能会拥有更为危险的能力,比如侵入关键基础设施、制造危险生物武器或自主复制适应新环境的能力。我们的研究表明,隐蔽微调是一种切实可行且有效的方法,因此我们认为,在进行模型权重发布的风险评估时,评价微调带来的风险应当成为核心内容。
November 1, 2023
View Article