ChatGPT 的不平衡采用加剧了工人之间既有的不平等 [译]
Anders Humlum 和 Emilie Vestergaard
作者信息与隶属关系
由麻省理工学院(MIT)剑桥分校的 Simon Jaeger 编辑;2024 年 7 月 24 日收到,2024 年 11 月 26 日被编委会成员 Orley C. Ashenfelter 接收
2024 年 12 月 30 日
第 122 卷 (1) e2414972121
https://doi.org/10.1073/pnas.2414972121
重要意义 (Significance)
通过一项大规模、具有代表性的调查,我们研究了谁已经采用了 ChatGPT、工人如何预期该技术将影响他们的工作,以及为什么有些工人使用它而有些人则不使用。我们的研究显示,ChatGPT 的采用障碍加剧了一些现有的不平等:女性和低收入工人使用该工具的可能性更小,而年轻和资历较浅的工人采用 ChatGPT 的速度更快。
摘要 (Abstract)
我们通过在丹麦开展的一项大规模调查(并与全面的登记数据相链接)来研究 ChatGPT(生成式 AI 的代表)的采用情况。我们对来自 11 个“易受影响”职业的 18,000 名工人进行了调查,结果显示 ChatGPT 已广泛传播,尤其在年轻和资历较浅的工人中。然而,也出现了显著的不平等。女性使用该工具的可能性比男性低 16 个百分点。此外,尽管从资历来看他们更“年轻”,在 ChatGPT 出现之前就已经收入略高的那批工人更可能是 ChatGPT 的用户(显示更高成就的个体在使用上更积极)。工人认为 ChatGPT 存在很大的生产力潜力,但在实际使用中往往受雇主限制以及对培训需求的感知所阻碍。
ChatGPT 的出现标志着生成式 AI 时代的到来,多个高技能职业可能因此受到颠覆 (1)。本文研究了谁在采用 ChatGPT、工人预计该技术将如何影响他们的工作,以及为什么有些人使用而有些人不使用。
我们与丹麦统计局合作,对 2023 年 11 月至 2024 年 1 月期间来自 11 个易受影响职业、具有代表性的 18,000 名工人进行了调查。我们将调查回答与登记数据(涉及个人劳动力市场历史、收入、财富、教育和人口特征)相结合,以分析 ChatGPT 采用的异质性。
首先,我们发现 ChatGPT 在这些易受影响的职业中使用非常普遍:41% 的受访工人已经在工作中使用 ChatGPT,不同职业的采用率从市场营销专业人员的 65% 到理财顾问的 12% 不等,几乎所有人都知晓这个工具。ChatGPT 在首次推出仅一年后就得到如此广泛的采用,足以确立其在技术发展史上的里程碑地位。
其次,我们深入分析这 11 个易受影响职业的内部特征,探讨使用 ChatGPT 的工人具有哪些特征。现有证据表明,之前专业经验较少的工人从 ChatGPT 及其它生成式 AI 中受益最大 (2,3),这意味着该技术本可帮助缓解工人之间的已有不平等 (4)。与这一观点相符的是,我们发现年轻且资历较浅的工人更可能使用 ChatGPT:每增加一岁或一年经验,对在工作中使用 ChatGPT 的可能性会分别降低 0.7 和 0.6 个百分点。然而,尽管资历较浅,但使用 ChatGPT 的工人在它出现前的收入就略高,暗示同一群体中成绩更高的个体更倾向于使用 ChatGPT。最后,我们发现一个巨大的性别差异:在同一职业中,女性使用 ChatGPT 的可能性比男性低 16 个百分点。这种差距在所有职业中普遍存在,也出现在多种不同的采用衡量指标中,即使在同一家工作场所、从事相同类型工作任务的同事之间进行对比时,这一差距也依然明显。
接着,我们研究了工人对 ChatGPT 将如何影响其工作活动的预期。在易受影响的职业中,工人认为 ChatGPT 具有相当大的生产力潜力,估计它能将约三分之一的工作任务所需时间减半。工人认为,对于拥有更丰富专业知识的员工来说,ChatGPT 带来的时间节省会小一些,这与现有证据一致——该技术相当于替代(取代)了一部分人类专业知识 (2)。工人也普遍认为自己不会因为 ChatGPT 节省时间而在其他任务上投入更多——约 40% 的人表示他们不会去做更多由 ChatGPT 节省时间的那些任务。
最后,我们发现工人对 ChatGPT 的时间节省预期只能在很弱的程度上预测他们的实际使用。例如,在那些相信 ChatGPT 能将完成任务所需时间减半的工人中,仅 23% 计划在未来两周内使用该工具。工人报告的主要障碍是雇主对于使用的限制以及他们对于接受培训的需求。我们通过随机向部分工人告知 ChatGPT 能带来的时间节省,并观察他们在接下来两周的使用行为变化,结果显示并没有出现明显改变。由此可见,这些或其他阻力在客观上阻碍了工人利用 ChatGPT 所带来的潜在生产力提升。
1. 材料与方法 (Materials and Methods)
ChatGPT 是生成式 AI 聊天机器人中最明显的领导者,占据了网站总流量的 80% 至 90%;详见 SI Appendix, section 2.A。
丹麦的数据基础设施为研究 ChatGPT 的采用情况提供了理想环境。尤其是,每个丹麦人都有一个可供丹麦统计局发送调查邀请的数字邮箱。我们将调查结果与丹麦统计局的行政登记数据相结合,这带来了两大优势。首先,我们可以获取所有工人的详细职业代码,从而有针对性地向易受影响职业的人群发送调查问卷。其次,登记数据包含了大量关于个人的信息,使我们能够研究工人根据其劳动力市场经历、收入、财富、教育和人口特征所表现出的差异。
1.1. 职业 (Occupations)
我们使用 Eloundou 等人 (1) 的专家评估来识别易受 ChatGPT 影响的职业。我们使用他们的 “Direct Exposure (E1)” 指标,这一指标会判断在维持相同质量的前提下,ChatGPT 是否可以将平均工作者完成某项任务所需时间减半。详见 SI Appendix, section 1.A.1 中对该指标的描述,本文称之为“生产力”(productivity)。
Eloundou 等人 (1) 结合了人类评估和 GPT 提示对 ONET 数据库中 Detailed Work Activities(DWAs)所涵盖的工作活动的时间生产力进行分类。我们在最详细的 ONET Job Duties(工作职责)层面复现了 Eloundou 等人 (1) 所使用的 GPT 评估,做了一些小调整。*
我们纳入了以下所有职业:i)至少有一项工作任务被 ChatGPT 所“影响”(即可将其完成时间减半),ii)可以用一组明确的 ISCO 职业代码来表示,iii)包含足够多的从业者以进行统计分析;详见 SI Appendix, section 1.A.3。最终确定的职业包括:会计、客服专员、理财顾问、人力资源专业人员、IT 技术支持、记者、法律专业人员、市场营销专业人员、办公室文员、软件开发人员和教师。
在调查中,我们选取了每个职业的 6 个具有代表性的工作任务。具体的筛选算法见 SI Appendix, section 1.A.4,各职业对应的任务清单见 SI Appendix, section 6。
1.2. 调查 (Survey)
本次调查的重点是工人如何在其工作任务中使用 ChatGPT,以及他们对其看法。调查还包含一个实验,让部分工人获知专家对其工作任务中 ChatGPT 时间节省的评估,并在随后的跟进调查中检验这一影响。详见 SI Appendix, section 1.B,完整问卷见 SI Appendix, section 8。
1.2.1. 样本 (Sample)
我们在 2023 年 11 月至 2024 年 1 月期间,向来自上述 11 个易受影响职业的 100,000 名工人发送调查邀请,并在他们作答两周后进行了一次跟进调查。邀请信详见 SI Appendix, section 7,信中告知被邀请者数据处理流程,并在参与调查前征得其同意。本研究已在 AEA-RCT-R-0012527 注册实验设计,并获得哥本哈根大学的伦理审查(IRB)批准。
主调查收到了约 18,000 份有效且完整的答卷,构成本研究的主要分析数据。样本回复率相关信息见 SI Appendix, section 1.C。
我们对调查结果的代表性和质量做了多项检验。在 SI Appendix, section 1.C.1 中,我们首先验证了我们的样本在可观测变量(如年龄、性别、工作经验、收入和财富)上对总体具有代表性。其次,参考文献 7 的方法,我们通过对参与者设置随机参与激励来展示我们的发现在控制工人潜在参与意愿后依然稳健。
在 SI Appendix, section 1.C.2 中,我们将调查问卷中的回答与行政登记数据库中也能获得的变量(例如工人的职业和经验)进行了交叉比对。此外,我们展示了在主调查和跟进调查中对同一变量的重复测量之间具有很强的一致性。
2. ChatGPT 的采用 (Adoption of ChatGPT)
2.1. 不同职业的采用情况 (Adoption across Occupations)
图 1 展示了 11 个易受影响职业中对 ChatGPT 的采用情况。其中,面板 (A) 显示了是否曾经使用 ChatGPT,面板 (B) 则显示了过去两周的使用情况。
图 1.
ChatGPT 在不同职业及性别之间的采用情况。本图比较了不同职业中男性(M)与女性(F)对 ChatGPT 的采用。面板 (A) 显示使用 ChatGPT 执行“核心工作任务”、用于工作、是否使用过 ChatGPT,以及是否知道 ChatGPT 的比例。面板 (B) 显示过去两周内的使用情况,包括是否订阅了 ChatGPT Plus 付费版,是否在“核心工作任务”中使用 ChatGPT,是否在工作中使用,以及是否曾使用 ChatGPT。“核心任务”指对该工人的工作“非常重要”或“极其重要”的任务。
样本:基于所有完成的调查问卷。
调查结果显示,在这些易受影响的职业中,ChatGPT 已广泛采用:超过一半(半数以上)的工人使用过该工具,41% 的人曾在工作中使用过,21% 的人将其用于核心工作任务。† 几乎所有工人都表示知晓 ChatGPT。
不同职业间的采用率有差异。对文字写作要求高的职业(如市场营销和记者)领先,采用率约为 64%。‡ 需要处理敏感信息的职业(如理财顾问和会计)采用率则较低,约为 18%。
并非所有曾使用 ChatGPT 的工人都在持续使用它。在过去两周内,34% 的人使用过,29% 的人在工作中使用过,16% 在核心任务中使用过,7% 订阅了付费版 Plus。
2.2. 同一职业内部的采用情况 (Adoption within Occupations)
表 1 深入同一职业内部,探讨哪些特征决定了工人是否在工作中使用 ChatGPT。
表 1. 谁在工作中使用了 ChatGPT?
本表比较了同一职业内的工人,并探究了哪些特征与他们使用 ChatGPT(用于工作)的行为相关。列 (1)~(5) 是只包含一个自变量的回归,且控制职业固定效应;列 (6) 是在多个自变量同时进入模型、并控制职业固定效应的回归结果;列 (7) 则在此基础上进一步控制工作场所和任务重要性等固定效应。括号内为标准误。所有特征基于 2022 年的登记数据。经验值指在该职业中的工作年限;收入指总劳动收入;净财富 = 房产等实物资产 + 金融资产 + 养老金储蓄 -(优先债务 + 其他私人债务 + 公共债务),在 5% 和 95% 分位进行缩尾。
样本:所有能够与登记数据匹配的完整调查答卷。
已有研究表明,先前专业能力较少的工人从 ChatGPT 和其他生成式 AI 中获益最多 (2,3)。与此一致的是,我们发现年轻和资历更浅的工人更容易采用 ChatGPT:每多一岁或一年经验,相应使用该工具的可能性分别降低 0.7 和 0.6 个百分点。
不过,尽管他们在资历上更“年轻”,但使用 ChatGPT 的工人早在该技术出现之前就收入略高,说明同一人群中成绩较好者更容易采用 ChatGPT。§ 这些采用模式说明专业能力较弱的工人或许需要进一步的帮助才能真正受益于生成式 AI。¶ 若对比列 (6) 中的结果,一个 10 个百分点的使用率差距,可能通过让工人年轻 15 岁、资历减少 17 年,或收入提高 122% 来实现。
表 1 的最后一行则显示了惊人的性别差异:在同一职业中,女性使用 ChatGPT 的可能性比男性低约 16 个百分点。图 1 表明这种差距存在于所有职业中,SI Appendix, section 2.C.2 进一步证明了在多种采用指标上也能观察到这一差异。#
为什么会出现如此之大的性别差异?首先,在列 (6) 中对其他工人特征进行控制后,性别差距只略微缩小到 14 个百分点。其次,在列 (7) 中对相同工作场所且进行相同工作任务类型的工人进行对比后,性别差异仍有 12 个百分点。这意味着女性更少使用 ChatGPT,主要原因并非她们所从事的具体任务或其他可观测特征。在下文第 4.4 节,我们将探讨工人的主观信念或使用障碍如何导致女性较少采用 ChatGPT。
3. 关于 ChatGPT 的看法 (Beliefs about ChatGPT)
表 2 显示了工人对 ChatGPT 将如何影响其工作任务的预估。‖ 列 (1) 显示,工人普遍认为在其所在职业中,ChatGPT 能将约 37% 的工作任务所需时间减半。
表 2. 工人对 ChatGPT 的看法
本表比较了男性与女性工人对 ChatGPT 的主观看法(括号内为标准差)。列 (1) 表示工人认为:ChatGPT 可以将某项典型工作任务所需时间减半的比例。列 (2) 表示工人(非常)不确定其对第 (1) 列所做评估的任务比例。列 (3)(5) 分别表示工人认为与更高专业技能的工人相比,ChatGPT 提供的时间节省是更小、相似或更大比例的任务。列 (6) 表示工人认为:ChatGPT 可以将其“自己”完成这些工作任务的时间减半的比例。列 (7)(9) 分别表示工人在任务上可能出现的“零替换”、“非弹性替换”以及“弹性替换”情况——即如果 ChatGPT 能节省某项任务的时间,他们会不会花更多时间来做更多该任务,或改变工作时间分配。
样本:列 (1)(5) 基于所有完整的问卷答复;列 (6)(9) 仅针对对照组(因为这些问题是在处理组的干预之后才提出的)。
列 (3)~(5) 显示了工人如何看待 ChatGPT 对具有更多专业知识的工人的影响:多数工人认为,如果某项任务需要更高专业度,则 ChatGPT 提供的时间节省会更小(38% 的比例),而认为会更大的仅有 20%。这一结果与已有研究相符:ChatGPT 的确会替代一些人类专家的工作 (2,10),说明工人也意识到该技术主要是对专业技能的一种“替代”而非“增强”。
列 (6) 显示了工人如何看待 ChatGPT 对其自身效率的影响。与评估“平均工人”相比,受访者对自身从中获益的估计值略低(32% vs. 37%)。详见 SI Appendix, section 3,男性更常提到自己专业水平高,女性则更多担心正确性不足,这都导致他们认为自己比“平均水平”获得的好处更小。
列 (7)~(9) 检验了工人预期 ChatGPT 将如何影响其任务产出与时间分配。有约 37% 的工人表示,即使 ChatGPT 可以节省某项任务的时间,他们也不会在该任务上做更多工作。相较之下,约 24% 的工人表示会在那些能由 ChatGPT 节省时间的任务上投入更多工作时间。** 这种低度的跨任务替代意味着,在行业基于该新技术重新组织工作之前,ChatGPT 在短期内可能只带来有限的工作任务再分配。††
最后,表 2 还显示了在同一职业内部,工人对 ChatGPT 的预期差异很大:关于能将多少任务的时间减半这一估计的标准差约为 31 个百分点,并且大多数工人对 ChatGPT 带来的时间节省存在(非常)不确定,女性对其评估尤为不确定。
4. 信念与使用之间的关系 (Beliefs vs. Adoption)
工人主观上对 ChatGPT 可能带来的好处与他们的使用行为之间关系如何?一方面,已经使用过 ChatGPT 的工人可能对其功能更了解;另一方面,看好 ChatGPT 前景的工人可能也更愿意尝试。详见 SI Appendix, section 4,这里我们只做简要总结。
4.1. 先前使用、信念以及使用意愿 (Prior Use, Beliefs, and Intended Use)
SI Appendix, section 4.A 显示,无论受访者是否实际用过 ChatGPT,大多数人都认为它具有相当大的效率潜力。已经使用过的人认为有 32.6% 的任务能被减半时间,而未用过的人则认为这一比例是 30.6%,仅略低一些。
对于那些目前从未使用过 ChatGPT 的人,也几乎没有打算在未来使用。比如,在他们自己声称 ChatGPT 能将任务时间减半的任务中,仅有约 3.3% 的人打算在未来两周内去使用。
更普遍地说,工人预估的时间节省对其使用 ChatGPT 的预测能力很弱。即使是在自称“已经用过 ChatGPT”并相信“ChatGPT 可将某项任务时间减半”的工人当中,也仅有 36.3% 表示会在接下来的两周继续使用。
4.2. 采用阻力 (Adoption Frictions)
SI Appendix, section 4.B 探讨了为什么工人明明相信 ChatGPT 能节省大量时间,却仍然不打算使用。最主要的原因与企业政策相关:42% 的工人表示需要培训才能使用 ChatGPT,36% 的工人报告雇主对使用进行了限制。那些关于“对工作岗位被取代”或“过度依赖技术”的担忧却最不重要,仅有不到 9% 的工人认为这是他们拒绝使用 ChatGPT 的理由。
职业之间的这些采用阻力有所不同,这也部分解释了 图 1 所示的差异。例如,在理财顾问中,有 82% 的人虽然认为 ChatGPT 能大幅节省时间,但仍面临某种阻力;而软件开发人员中这一比例仅为 35%。不同职业面临的主要障碍也不一样:需要处理敏感信息的职业(如理财顾问、法律专业人员)往往受雇主政策限制;对 IT 的依赖度不高的职业(如教师)则主要表示“需要培训”;客服专员对“被替代”或“技术依赖”更为担心;在写作能力是核心的职业(如记者和教师)中,有些人表示使用 ChatGPT 使他们失去了对工作的兴趣。
值得注意的是,一些人表示“需要培训”这一点看上去似乎令人惊讶,因为 ChatGPT 本身并不需要太多技术门槛。或许这部分原因是工人对“尝试”本身就有所排斥;数据显示,在那些已经尝试过 ChatGPT、并且认为它能节省大量时间的人中,13% 仍声称需要培训。
最后,需要说明的是,这些所谓的采用阻力是工人在问卷里对其“未来打算”给出的解释,而很多时候“打算”未必会转化为真实行为 (13)。事实上,工人所预估的时间节省与其“打算”使用 ChatGPT 的相关性仅为 27%,而与其“实际曾用过 ChatGPT”的相关性更低,仅 19%。
4.3. 信息干预 (Information Treatment)
工人的主观认知对 ChatGPT 的采用到底有多大因果影响?为评估这一问题,SI Appendix, section 4.C 中,我们随机地向部分受访者提供了专家对他们工作任务所需时间的评估信息。
干预确实成功影响了工人的信念,在两周后的跟进调查中仍能看出这种信念差异。然而,它几乎没有改变工人打算使用 ChatGPT 的意愿,更没有影响到他们在接下来两周内的真实使用行为。
在我们的情境中,这种对行为影响有限的结果与第 4.2 节描述的障碍相吻合:雇主限制和培训需求阻碍了人们将转变后的“更乐观”认知变为使用行为。更普遍地讲,信息提供类实验也常常难以对实际行为产生影响 (14)。
4.4. 性别差异 (Gender Gaps)
为什么女性对 ChatGPT 的采用率这么低?在 图 2 中,我们分析了工人对 ChatGPT 的主观看法以及面临的使用障碍在多大程度上导致了性别差距。
图 2.
不同性别在对 ChatGPT 的时间节省评估、使用意向和使用障碍上的差异。图中的结果以职业为单位平均,但对男性和女性分别赋予相同的权重,以确保性别差异不受职业构成差异的影响。面板 (A) 的内环显示工人对 ChatGPT 在其工作任务中的时间节省的估计,外环显示他们在接下来 2 周内打算在该任务中使用 ChatGPT 的比例。面板 (B) 则显示为什么一些工人尽管认为 ChatGPT 能大幅节省时间却仍不打算使用。其中,图中仅关注工人预计在未来 2 周内会执行的那些任务;对于男性工人而言,符合此条件的任务占所有“能大量节省时间”任务的 81%,女性则为 77%。由于工人可能列举多个阻力因素,各柱相加可超过 100%。误差线代表 95% 置信区间。
样本:对照组中所有完成的调查问卷。
从面板 (A) 可以看出,女性与男性在平均认知上并无太大差异:她们认为 ChatGPT 可以带来的时间节省比例与男性大致相当。‡‡ 而且就对“时间节省”与“打算使用”之间的一致性而言,女性其实比男性略微更“匹配”。§§
然而,女性更容易遭遇使用障碍,特别是“培训需求”。面板 (B) 显示了在“认为某项任务能节省大量时间,却仍不打算使用”的这部分人群中,女性有 45% 都表示自己“需要培训”。而对男性而言,更常见的障碍是雇主限制或数据保密政策(详见 SI Appendix, section 3,其中还显示女性更常回答“不知道该怎么用”ChatGPT 来解释其收益为何更低)。[Carvajal 等人 (15) 对挪威 514 名大学生的调查实验也得出了类似的结论:女性学生使用 ChatGPT 明显更少、在编写 ChatGPT 提示方面熟练度更低、且对“禁止使用 ChatGPT”这类禁令更加敏感。]
最后,女性较少使用 ChatGPT 并不是因为她们对信息的反应更迟钝。相反,详见 SI Appendix, section 4.C.5,我们的信息干预对女性的信念影响更大,但她们仍然因各种阻力而未能转化为实际采用。
5. 结论 (Conclusion)
ChatGPT 的出现是技术发展史上的一个里程碑。仅在推出一年后,它就在易受影响的职业中得到广泛使用,并为用户带来了显著的时间节省。本文基于丹麦的大规模代表性调查,并结合了全面的登记数据,揭示了 ChatGPT 的采用阻力如何强化了既有的不平等:女性和收入较低的工人更不可能使用该工具。
迄今为止,这种快速扩散主要得益于工人的自主决定,而许多雇主却在旁观或加以限制。展望未来,企业在推动生成式 AI(如 ChatGPT)的进一步采用方面可发挥关键作用。许多目前没有使用的工人表示,他们面临雇主的使用限制或需要培训。因此,通过为高效使用提供指导、或组织员工培训,企业可以帮助更多人释放生成式 AI 的生产力潜力。
企业或政府若能采取主动措施来协助推广生成式 AI,也有助于缓解在我们研究中出现的三大令人担忧的问题。第一,虽然生成式 AI 有潜力缓解已有的不平等,但目前使用 ChatGPT 的人本就在其出现前收入略高,因此专业能力较弱的工人或需要额外支持才能真正获益。
第二,我们发现了巨大的性别差距:女性使用 ChatGPT 的可能性显著更低。通过对员工进行有针对性的培训,或可帮助弥合这一差距。
最后,许多工人表示即便 ChatGPT 提高了他们在某项任务上的生产力,他们也不会增加对这项任务的投入。然而,随着企业围绕生成式 AI(如 ChatGPT)对工作流程进行重新组织,这些生产力提升最终仍有可能带来更大规模的产出扩张,从而进一步促进经济增长。
数据、材料与软件可获得性 (Data, Materials, and Software Availability)
程序数据将在 Open Science Framework 上公开。数据本身无法共享。(本研究使用了丹麦统计局研究服务器上的专有微观数据。有兴趣的研究人员可通过丹麦统计局研究服务部门申请数据访问:https://www.dst.dk/en/TilSalg/Forskningsservice/Dataadgang)(16)
致谢 (Acknowledgments)
我们感谢编辑、两位匿名审稿人,以及 2024 年 NBER 夏季研讨会(劳动经济学分会)、“Labor in the Age of Generative AI” 会议(芝加哥)和 “AI and the Future of Work” 会议(沃顿商学院)上的与会者对本文提出的意见和建议。我们也感谢丹麦统计局调查部门众多员工的努力,使本研究成为可能,并对 Kirsten Bagge Nielsen 提供的杰出研究协助表示感谢。本项目获得了贝克-弗里德曼研究所(Becker Friedman Institute)、芝加哥大学布斯商学院应用人工智能中心(Center for Applied Artificial Intelligence)、芝加哥布斯商学院(Chicago Booth)以及波尔斯基创新创业中心(Polsky Center for Entrepreneurship and Innovation)的资金支持。
作者贡献 (Author contributions)
A.H. 和 E.V. 共同设计研究、执行研究、分析数据并撰写论文。
利益声明 (Competing interests)
作者声明不存在利益冲突。