Anthropic 经济指数

导读:

知名 AI 公司 Anthropic 刚发布了 Anthropic 经济指数(Anthropic Economic Index),他们通过分析了几百万条匿名的用户在 Claude 上的聊天记录,分析了日常对话中 AI 的使用模式:从软件开发和技术写作等高频应用场景,到薪资与职业类型之间的关联,再到 AI 在“增强”与“自动化”两大方向上的分布,得出了一些有价值的分析结果。

从分析结果可以看出:

  • 在 22 个职业类别中,“计算机与数学”占比最高(37.2%),而在劳动力市场中占比最高的是“办公室与行政支持”(12.2%)。渔业、林业在两个维度中的占比都最低(0.3% 与 0.1%)。大多数职业类别在两种度量中都处于 0-10% 的区间,而教育、娱乐/媒体以及科学相关领域在 AI 使用方面也展现出一定的存在度。

  • 在薪资方面,AI 使用主要集中于中等至中高收入群体;相对收入较低或收入非常高的职业,AI 使用率都明显更低。

  • AI 使用略偏向“增强”(57%),即 AI 与人类协同完成任务,而不是“自动化”(43%),即由 AI 直接执行任务。

  • 只有大约 4% 的工作在其超过 75% 的任务中使用了 AI,表明极少数工作会在大部分任务中依赖 AI;但大约 36% 的工作会在至少 25% 的任务中使用 AI,说明中等程度的使用更为普遍。

值得一提的是,他们还开源了数据集,你可以自己基于它公开的数据集进行分析。下面就是他们的博客内容:

Anthropic 经济指数

阅读报告

Anthropic 经济指数宣传图:一张简洁的折线图,显示一条向上趋势的珊瑚色线段,坐标轴为黑色。图表呈现在类似纸张或画布的背景上,周围以手绘线条装饰,仿佛有手指托举着这份图表。

在未来的几年里,AI 系统将对人们的工作方式产生重大影响。基于这一点,我们推出了 Anthropic 经济指数,这一倡议旨在随着时间推移,深入了解 AI 对劳动力市场和整体经济的影响。

经济指数的初步报告基于数百万条在 Claude.ai 上的匿名对话,提供了首批此类数据和分析,清晰地展现了当今真实世界中 AI 如何被运用于各行各业的各类任务。

我们也在开源用于本次分析的数据集,以便研究人员在此基础上进行拓展与深入研究。要制定相应的政策应对即将到来的劳动力市场变革及其对就业与生产力的影响,需要多方视角的参与。因此,我们也邀请经济学家、政策专家和其他研究人员为指数提供意见和建议

以下是本次经济指数首篇论文的主要发现:

  • 目前,AI 的使用主要集中在软件开发和技术写作任务上。超过三分之一的职业(约 36%)在至少四分之一的相关任务中使用了 AI,而约有 4% 的职业在其相关任务的四分之三以上都使用了 AI。

  • AI 的使用更多倾向于增强(57%),即 AI 与人类协同合作并提升人类的能力;而自动化(43%)则是由 AI 直接执行任务。

  • AI 在与中高收入相关的职业(如计算机程序员和数据科学家)所对应的任务中使用更为普遍,而在收入最低和收入最高的岗位中使用率都较低。这或许既反映了当前 AI 能力的局限性,也体现了实际使用中的种种障碍。

下面是对我们初步研究结果的进一步说明。

信息图:根据 Claude.ai 的使用数据,将职业划分成六类:计算机与数学(37.2%)、艺术与媒体(10.3%)、教育与图书馆(9.3%)、办公室与行政管理(7.9%)、生命科学(6.4%)以及商业与金融(5.9%)。图中列出了各类职业的代表性职位和常见任务,并附有各自使用比例。

Claude.ai 的真实使用数据展示了 AI 在现代经济中所涉及的职业及其具体使用方式。数字表示与这些任务、职业或类别相关的对话占总对话数量的百分比。

在劳动力市场中绘制 AI 使用的分布图

我们的新论文延续了有关技术对劳动力市场影响的长期研究脉络,从工业革命时期的珍妮纺纱机到当今汽车制造中的机器人。我们聚焦于 AI 正在产生的持续影响。与许多预测或调查用户是否在使用 AI 的方法不同,我们直接使用了 AI 真实使用情况的数据。

基于职业任务的分析

我们的研究受到经济学文献中一个重要观点的启发:有时从“职业任务”而不是“职业本身”入手更为有效。不同的职业往往存在一些共同的任务和技能。例如,视觉模式识别是设计师、摄影师、安全检查员以及放射科医生的共同任务。

由于某些任务本身更易被新技术自动化或辅助完成,所以我们预计 AI 在经济中的采用,会针对特定任务而非整项职业进行。基于这种思路,从“任务层面”来分析 AI 对经济的影响,会为我们提供比只看“职业整体”更全面的视角。

使用 Clio 将 AI 使用情况与任务对应起来

本研究得以实施的关键在于我们使用了 Clio,它让我们能够在保护用户隐私的前提下分析用户与 Claude 的对话数据。1

具体做法是,利用 Clio 对大约一百万条来自 Claude(主要是 Claude.ai 免费版和专业版)对话进行分析,将每条对话映射到最能代表该对话中 AI 所扮演角色的 ONET 任务上。ONET 即美国劳工部的职业信息网络,它包含了约 2 万个与工作相关的具体任务。然后,我们按照 O*NET 提供的框架,把这些任务归纳到相应的职业,最后再把这些职业聚类到更高一级的类别(如“教育和图书馆”、“商业和金融”等)。

流程图:展示用户与 Claude 的对话如何被映射到任务和职业。上半部分是一些示例对话,逐渐被分配到不同的任务分类和六大职业类别。下半部分是三种分析视角:分别是薪资与 AI 使用率的散点图、增强与自动化任务占比的环形图,以及技能细分图(如批判性思维、编程等)。

上图展示了我们的 Clio 系统如何在确保用户对话私密性的情况下(左上)将对话聚合为职业任务(上中),再通过 O*NET 归纳为相应职业或职业类别(右上),最终得出不同类型的分析结果(下方)。

研究结果

AI 在不同职业类型中的使用。
从我们收集的数据来看,在“计算机与数学”类别(主要对应软件工程领域)的任务和职业中,AI 的使用最为集中,相关查询占到 Claude 对话量的 37.2%,涉及软件修改、代码调试以及网络故障排查等任务。

排在第二位的是“艺术、设计、体育、娱乐与媒体”类别,占 10.3% 的对话。其具体内容多为用户让 Claude 协助进行撰写和编辑等工作。不出所料,诸如“农业、渔业和林业”这类依赖大量体力劳动的职业类别(仅占所有查询的 0.1%)AI 使用率最低。

我们同时还比较了这些职业类别在整体劳动力市场中的占比(如下图所示的灰色部分),以及它们在 Claude 对话中的占比(如下图所示的橙色部分)。

横向条形图对比了 AI 使用率与美国劳动力市场占比的差异。图中依次列出了 20 种职业类型,每种职业用两个相互连接的条形表示:橙色代表在 Claude 对话中所占的百分比,灰色代表此职业类型在美国劳动力市场中的占比。可以看到,计算机与数学类的 AI 使用最高(37.2%),而在美国劳动力市场中仅占 3.4%。而办公室与行政支持类在劳动力市场中占比最高(12.2%),在 Claude 中的使用为 7.9%。其他值得关注的对比如艺术与媒体(AI 使用占 10.3% 而劳动力占比仅 1.4%),以及交通运输(AI 使用占 0.3% 而劳动力占比 9.1%)。农业在两方面都最低(AI 使用 0.1%,劳动力占比 0.3%)。

橙色条表示 Claude 对话中与该职业类别相关的占比,灰色条表示劳动力市场中该职业类别的占比(数据来自美国劳工部 O*NET 分类)。

职业内部对 AI 的深度使用。
我们的分析发现,几乎没有某个职业在其大多数(至少 75%)的任务中都使用 AI,符合此条件的职业仅占约 4%。然而,较为温和的 AI 使用却很普遍:约 36% 的职业在其 25% 以上的任务中使用了 AI。

正如我们所预测的,这些数据并未显示整个职业被完全自动化的迹象;取而代之的是,AI 在整个经济中呈现出“扩散式应用”的趋势,对某些类型的任务影响更大,对另一些任务则较小。

AI 使用与薪资。
O*NET 数据库还列出了每个职业在美国的薪资中位数。我们将此信息纳入分析后,可以比较不同职业对应的薪资中位数与 AI 在这些职业的相关任务中的使用水平。

有趣的是,薪资水平较低和极高的职业使用 AI 的比例都相对较低(例如需要大量手动操作的洗发师,年薪较低;以及高薪的产科医生等)。相反,薪资处于中高水平的特定职业(如计算机程序员、文案撰稿人)在我们的数据中对 AI 的使用最为积极。

散点图展示了职业年度薪资中位数与 AI 使用的关系。横轴为年薪,纵轴为在 Claude 对话中对该职业相关任务的占比。一些例子职业被突出标记:计算机相关职业(如程序员、软件开发人员)位于散点图右上方,对应较高薪资(7.5 万到 10 万美元之间)与较高 AI 使用率(3-6%)。薪资较低(如洗发师约 2.5 万美元)也几乎不使用 AI;而像产科医生这样薪资非常高(超过 20 万美元)的职业使用 AI 的比例也很低。中间用一条垂直线标示了美国整体的薪资中位数 60,070 美元。

横轴为年度薪资,纵轴为该职业在 Claude 对话中的占比,一些有代表性的职业被突出显示。

自动化与增强。
我们也进一步探讨了任务的执行方式——具体来说,任务是由 AI“自动化完成”,还是作为对人类的“增强支持”。自动化指 AI 直接执行某些操作(例如给文档排版),而增强则指 AI 与用户协作完成任务。

总体而言,数据显示 AI 更多地被用来增强(57%),而非自动化(43%)。也就是说,在超过一半的案例中,AI 并没有取代人类来完成任务,而是与人类协同,如协助验证(例如帮用户核对工作)、学习(例如帮助用户掌握新知识或技能)或任务迭代(例如帮助用户头脑风暴或重复性的生成工作)。

横向条形图对比了 Claude 对话中“增强”与“自动化”的占比,增强总计 57.4%,自动化总计 42.6%。增强又细分为三个类别:验证(2.8%)、任务迭代(31.3%)和学习(23.3%);自动化分为两个类别:反馈回路(14.8%)和指令式(27.8%)。图中不同类型用不同深浅的蓝色(代表增强)和紫色(代表自动化)进行区分。

此图展示了 Claude 对话中“增强”与“自动化”的总体比例,以及各自的任务子类型。报告中定义的子类型如下:指令式(Directive):将整个任务完全交给 AI;反馈回路(Feedback Loop):AI 在执行任务时会根据环境或其他反馈进行修正;任务迭代(Task Iteration):AI 与用户反复协作、不断完善;学习(Learning):帮助用户获取并理解新知识;验证(Validation):对已有工作进行查验和改进。

注意事项

我们的研究为了解 AI 正在如何改变劳动力市场提供了独特视角,但同样存在以下局限性:

  • 我们无法确定用户在 Claude 上为某项任务寻求帮助时,是否一定是为了工作需求。有人也可能为了写作兴趣或个人项目而让 Claude 提供写作、编辑建议。

  • 同样,我们不清楚用户在获得 Claude 输出后如何使用。例如,他们是否直接复制粘贴了 Claude 的代码?还是先进行事实核查再使用?看似是“自动化”的任务,也可能在后续被用户手动完善,从而变成实际的“增强”过程。

  • 此外,我们仅分析了 Claude.ai 免费版和专业版的数据,而不包括 API、团队版或企业版用户。尽管 Claude.ai 数据中包含了部分非工作场景,但我们使用了语言模型进行过滤,仅保留了与职业任务相关的内容。

  • 由于涉及的任务数量庞大,Clio 可能会对部分对话的分类出现偏差。更多细节可参见论文正文及附录 B。

  • Claude 本身无法直接生成图像(除非通过编写代码的方式间接实现),因此一些可能需要创意图像的任务无法在此数据集中体现;

  • 由于 Claude 同时也被推广为一款在代码处理方面表现出色的模型,因此与编程相关的用例在我们的数据中可能比一般 AI 应用更为突出。基于此,我们并未认为该数据集能完全代表 AI 的整体使用情况。

结论与未来研究

AI 的使用正在迅速扩展,而且模型也在不断升级,其在劳动力市场的影响或将很快发生显著改变。基于这一点,我们计划定期重复上述分析,以便追踪未来可能发生的社会与经济变革,并将结果及相关数据作为 Anthropic 经济指数的一部分进行持续发布。

这种纵向研究能让我们对 AI 与就业市场的关系有更多洞察。例如,我们可以监测特定职业内部使用 AI 深度的变化。如果未来依然只在某些任务中引入 AI,而只有少数职业在其大部分任务中使用 AI,那么我们可能面临的是多数岗位演变而非消失的未来。我们也可以追踪自动化与增强的比例变化,观察哪些领域开始出现更多的自动化趋势。

需要强调的是,本研究给出了 AI 实际使用的现状数据,但并未直接提供政策建议。如何为 AI 对劳动力市场的影响做好准备,不能仅依赖研究结论,还需要结合多方价值取向、实践经验和各种证据。我们期待未来能继续运用这一新方法,为相关问题提供更多佐证。

阅读完整报告,获取更多分析细节和研究结果。

开源数据与征求意见

本论文以及 Anthropic 经济指数最重要的贡献,是其所提供的全新方法与详细数据,用于研究 AI 带来的影响。我们现已将用于上述分析的数据集公开,并计划在未来继续公开更多数据。

完整数据集可在此处下载。

如果您是研究人员,欢迎通过此表单提供对我们数据的反馈或新的研究方向建议。

鸣谢

我们感谢以下学者在研究早期和论文草稿阶段给予的富有成效的评论与讨论:Jonathon Hazell、Anders Humlum、Molly Kinder、Anton Korinek、Benjamin Krause、Michael Kremer、John List、Ethan Mollick、Lilach Mollick、Arjun Ramani、Will Rinehart、Robert Seamans、Michael Webb 和 Chenzi Xu。

加入我们

如果您对在 Anthropic 工作、研究 AI 对劳动力市场的影响感兴趣,欢迎申请我们的社会影响方向研究科学家研究工程师等职位。

注释

1 Clio 会将大量对话聚合为高级别的分类进行分析,同时确保用户隐私,即研究人员无法查看原始对话。更多关于 Clio 的信息可在此查看。