探索 Claude 的新纪元 [译]

探索 Claude 的新纪元 [译]

在今天,我们兴奋地宣布 Claude 3 模型系列的问世,这一系列模型在多项认知任务上重设了行业的新高标准。这个家族包括了三款顶尖模型,它们按能力高低排列:Claude 3 Haiku、Claude 3 Sonnet 以及 Claude 3 Opus。每一款模型都在前者的基础上提升了性能,使得用户能够根据他们的具体需求,找到智能水平、响应速度和 成本 之间的完美平衡。

目前,Opus 和 Sonnet 已经可以通过 claude.ai 以及现已在 159 个国家 广泛开放的 Claude API 使用。而 Haiku 也将很快加入我们的行列。

Claude 3 模型家族

智能新标杆

Opus,我们最领先的模型,在多个常用 AI 系统评测标准上领先同行,涵盖了本科水平的专业知识(MMLU)、研究生水平的专业推理(GPQA)、基本数学(GSM8K)等。它在处理复杂任务时,展现出近乎人类的理解力和流畅度,成为通用智能领域的先锋。

所有 Claude 3 模型在分析预测、创造细腻内容、代码生成以及使用西班牙语、日语和法语等非英语语言进行交流方面,能力得到显著提升。

下面是 Claude 3 模型与我们同行在多个能力评测基准 [1] 中的比较:

几乎瞬时响应

Claude 3 模型能够即时支持实时客户聊天、自动补全和数据提取任务。

Haiku 是其智能范畴中市场上响应最快、性价比最高的模型。它能在不到三秒的时间内阅读一篇包含图表和图形的密集信息和数据的 arXiv 研究论文(约 10k tokens)。我们预计在产品推出后进一步提升其性能。

对于大多数任务,Sonnet 的响应速度是 Claude 2 和 Claude 2.1 的两倍,且智能水平更高。它在需要迅速反应的任务上表现出色,如知识检索或销售自动化。Opus 虽然速度与 Claude 2 和 2.1 相当,但智能水平大幅提升。

卓越的视觉处理能力

Claude 3 模型展现了与市场上其他领先模型相当的高级视觉处理能力。它们能够处理广泛的视觉格式,包括照片、图表、图形和技术图纸等。我们特别期待将这一新功能提供给我们的企业客户,他们中有的人的知识库中多达 50% 的内容以 PDF、流程图或演示幻灯片等多种格式存储。

减少不必要的拒绝

在以往,Claude 模型有时会不必要地拒绝回答某些问题,这反映出它对问题上下文的理解不够深入。现在,我们取得了显著进步:相较于以往的版本,Opus、Sonnet 和 Haiku 在处理那些可能触碰到系统安全边界的询问时,减少了拒绝回答的情况。正如下面所示,Claude 3 模型对用户的请求有了更为细致的理解,能够辨别真正的危害,并显著减少了对无害请求的拒绝。

精确度的提升

对于各种大小的企业来说,依靠我们的模型服务于他们的客户是至关重要的,这就要求我们的模型输出必须在大规模应用时仍能保持高度的准确性。我们通过一系列旨在检测当前模型已知弱点的复杂事实性问题来评估这一点。我们把这些回答分为三类:正确的答案、错误的答案(或错误联想)以及表示不确定的回答,即模型宁愿表示不知道答案也不会给出错误信息。相比于 Claude 2.1 版本,Opus 在这些挑战性问题上的准确率有了显著的提高,错误答案的比例也有所减少。

为了让回答更加可靠,我们将很快为 Claude 3 模型增加引用功能,使其能够指向参考资料中的具体句子来验证其答案。

长篇幅理解及其出色的记忆复现能力

Claude 3 系列模型在刚推出时,将提供最多 20 万字的上下文处理窗口。但实际上,这三款模型均能处理超过 100 万字节的输入数据,我们计划将此高级功能开放给那些需要更强大处理能力的特定客户群。

有效地处理大量文本信息,模型必须具备出色的记忆和回溯能力。所谓的“大海捞针”(NIAH)评价方法,就是用来测试模型从海量数据中准确提取信息的能力。通过选取 30 对随机的问题和答案,针对每个问题在一个广泛的、由众包贡献的文档库中进行测试,我们提高了这个评价标准的稳健性。Claude 3 Opus 不仅在这一测试中实现了几乎完美的信息回忆,准确率超过了 99%,在某些情况下,它还能识别评价方法本身的局限,比如识别到某些“答案”句子似乎是后来人工加入原文的。

负责任的设计

在开发 Claude 3 系列模型时,我们确保它们既可靠又功能强大。我们设立了多个专业团队,专门跟踪和减轻从假信息、CSAM(儿童性侵材料),到生物滥用、选举干预乃至自动化复制技术等一系列广泛的风险。我们持续推进宪法式 AI 等方法,旨在提升模型的安全性和透明度,并已对模型进行了调整,以减少新互动方式可能带来的隐私问题。

我们一直在努力解决越来越复杂的模型中的偏见问题,并在这次新版本中取得了显著进步。正如模型说明书中所展示的,根据问答偏见基准测试(BBQ),Claude 3 相比我们以前的模型展现出更少的偏见。我们致力于推进技术进步,减少偏见,并确保我们的模型在中立性上更加进步,避免偏向任何特定的政治立场。

虽然 Claude 3 模型在生物学知识、网络安全知识及自主能力方面相比前代模型有所提升,但按照我们的负责任扩展政策,它仍然处于 AI 安全级别 2 (ASL-2)。我们的红队评估(按照我们对白宫的承诺以及2023 年美国行政命令的一致)表明,目前这些模型带来的灾难性风险极低。我们将继续密切监控未来模型的发展,以评估它们是否接近 ASL-3 的界限。更多关于安全性的详细信息,请参阅Claude 3 模型说明书

更加用户友好

Claude 3 模型在执行复杂且多步骤的指令方面表现更佳。特别是在忠于品牌特定的表达风格与响应准则、开发让用户信赖的面向客户体验方面,表现尤为出色。此外,Claude 3 模型更擅长输出像 JSON 这样的流行结构化数据格式,使得针对自然语言处理和情感分析等应用场景的操作指引变得更为简单。

模型详细介绍

Claude 3 Opus 是我们最先进的模型,它在处理极其复杂的任务上表现卓越,能够以人类般的理解力和流利度处理开放式提问和前所未见的场景。Opus 展示了生成式 AI 技术的极限潜能。

成本

[输入 $/百万 Tokens | 输出 $/百万 Tokens]
$15 | $75
上下文窗口200K*
潜在用途- 任务自动化:在 API 和数据库之间规划和执行复杂操作,交互式编程
- 研发:研究审查,头脑风暴和假设生成,药物发现
- 策略:高级分析图表&图形,财务和市场趋势,预测
区别因素比任何其他可用模型都更智能。

*特定用途可提供 100 万 tokens,请咨询详情。

Claude 3 Sonnet 在智能与速度之间找到了完美的平衡,尤其适合企业级任务。它以更低的成本提供强劲的性能,并且经过优化,可承受大规模 AI 应用的高强度工作。

成本

[输入 $/百万 Tokens | 输出 $/百万 Tokens]
$3 | $15
上下文窗口200K
潜在用途- 数据处理:通过大量知识进行 RAG 或搜索&检索
- 销售:产品推荐、预测、目标营销
- 节省时间的任务:代码生成、质量控制、从图像中解析文本
区别因素与具有类似智能的其他模型相比更经济;更适合规模化。

Claude 3 Haiku 是我们响应速度最快、体积最小的模型,专为即时反应设计。它能够迅速回答简单的查询和请求,用户可以借此创建仿佛与人交流一般流畅的 AI 体验。

成本

[输入 $/百万 Tokens | 输出 $/百万 Tokens]
$0.25 | $1.25
上下文窗口200K
潜在用途- 客户互动:在实时互动中快速准确的支持,翻译
- 内容审核:捕捉风险行为或客户请求
- 节省成本的任务:优化物流,库存管理,从非结构化数据中提取知识
区别因素比同类智能模型更聪明、更快、更经济。

模型可获取情况

Opus 和 Sonnet 现已通过我们的 API 提供,该 API 已正式开放,开发者可以立即注册并开始使用。Haiku 即将推出。在 claude.ai 上,Sonnet 正在支持免费体验,而 Opus 则提供给 Claude Pro 订阅用户。

通过 Amazon Bedrock,Sonnet 现已可用,并且在 Google Cloud 的 Vertex AI Model Garden 中处于私有预览阶段——Opus 和 Haiku 也将很快在这两个平台上推出。

智能升级,速度提升,安全加固

我们坚信模型智能的潜力远未被完全挖掘。接下来的几个月里,我们将不断推出 Claude 3 系列模型的更新。同时,我们也将推出一系列新功能,以进一步提升模型尤其是在企业应用场景和大规模部署中的性能。这些功能包括工具使用 (即函数调用)、交云交式编码 (即 REPL) 以及更进一步的智能体能力。

在不断推进 AI 能力的边界的同时,我们也致力于确保我们的安全防护机制能够与性能的飞速提升同步。我们相信,站在 AI 发展的最前沿,是确保其朝着有益社会发展方向进步的最佳策略。

我们期待看到您利用 Claude 3 创造出什么,并希望您的反馈能帮助我们使 Claude 成为更优秀的助手和创造性伙伴。开始探索 Claude 的旅程,请访问 anthropic.com/claude

脚注

  1. 我们的数据表格展示了与目前已上市且公开评估数据的模型进行比较的结果。在我们的模型说明书中,您还可以看到与那些已宣布但尚未上市的模型,比如 Gemini 1.5 Pro,的比较。此外,我们还注意到工程师们为了评估而优化了提示和少量样本,从而为新版 GPT-4T 模型获得了更高的评分。来源