AI 智能体 (AI Agent) 如何大规模推动 Shopify 的产品分类体系进化 (2025)

作者: Kshetrajna Raghavan

不只是分类:AI 智能体正如何大规模推动 Shopify 的产品分类体系进化

去年,超过 8.75 亿人从 Shopify 商家那里购买了商品。我们之前已经用“视觉语言模型” (一种能同时理解图像和文字的AI模型)来进行产品分类,这篇文章将在此基础上,探讨 AI 智能体 (AI agents) 是如何反过来 推动分类体系本身 进化的。

博文作者:Kshetrajna Raghavan 和 Ricardo Tejedor

我们的产品分类系统每天要处理数千万次的预测,而且准头很高。但问题来了,支撑这个系统的“分类体系” (Taxonomy,就像一个巨大的商品目录,包含类别和属性) 也需要成长和适应,那该怎么办?我们有 10,000 多个类别和 2,000 多个属性,必须得有个办法,确保它们在电商不断发展的今天,还能继续帮到商家和顾客。

答案是:一个创新的 AI 多智能体系统。它不只是给产品分类,它还能主动地 改进分类体系的标签本身,让我们的系统保持敏捷,面向未来。

挑战:如何大规模地保持分类体系“新鲜出炉”?

支撑我们产品分类系统的这个“分类体系”,自己也遇到了规模化的难题。商业世界是永不停歇的:新产品层出不穷,旧类别不断演变,市场一变,商家的需求也跟着变。

“量”的难题

在全球尺度上管理一个产品分类体系,需要时刻盯着。每一种新产品、每一种新技术类别、每一种季节性趋势,都可能需要更新分类。靠传统的人工维护,根本跟不上趟。

举个例子,想想“智能家居设备”、“可持续产品”或“远程办公设备”这些类别的迅速崛起。它们不只是新的类别,还带来了一整套全新的“属性” (比如智能灯泡的“连接方式”或“功耗”)

智能家居设备需要“连接类型”、“电源要求”和“兼容性”——这些规格以前在我们的分类体系里根本没有。

“专业知识”的难题

设计一个好用的分类体系,需要极深的领域专业知识。比如,你要懂不同“吉他拾音器”之间的细微差别,要懂“工业设备”的分类层级,还要懂“护肤品”该用哪些属性。这需要横跨几十个垂直领域的专业知识。

我们的分类团队不可能精通商家卖的 所有 产品类别。但如果分类体系前后不一或者结构混乱,就会直接影响商家的生意,比如商品更难被发现、搜索结果不理想,以及顾客没法高效筛选。

“一致性”的难题

随着分类体系的“野蛮生长”,不一致的地方悄悄冒了出来。我们开始发现,类似的概念在不同类别里叫法不一样,命名规范也不统一,甚至商家和顾客对产品的分类理解都有偏差。

时间一长,这些问题越积越多,商家上架产品时会很困惑,顾客筛选和比较产品时也会很抓狂。更要命的是,它们还会拉低我们分类系统的质量。

我们的探索之旅:从“人工维护”到“AI 驱动进化”

我们管理分类体系的方法经历了巨大的演变。一开始是纯“人工挡”,现在已经转变成一个“AI 驱动”的系统,它能跟上现代商业的复杂节奏。

传统的分类管理

最开始,更新分类的流程大家都很熟:领域专家分析产品数据,找出漏洞或不一致的地方,提出修改建议,然后通过严格的人工审核来执行。这套方法能保证质量,但它也制造了“瓶颈”,让我们没法跟上商业的飞速发展。

这个过程本质上是“被动”的——我们总是在商家开始上架那些现有分类“装不下”的产品 之后,才意识到需要新的类别或属性。可到那时候,我们已经错过了为商家和顾客提供更好体验的机会。

基于“智能体”的突破

先进“大语言模型” (LLM) 的出现,给了我们一个彻底重构分类管理的机会。我们的想法不是要“取代”人类专家,而是设想用 AI 智能体来“增强”我们团队的能力,在保持人工维护所带来的高质量和领域知识的同时,提供我们急需的规模和一致性。

我们的突破点在于,我们意识到可以把不同类型的分析结合起来,获得更全面的洞察。有些改进,你只分析分类体系 本身 的逻辑结构就能发现(比如类别层级有断档,或者属性关系缺失了)。而另一些改进,则必须去研究 真实的产品数据 才能浮现(比如搞清楚商家到底是怎么描述他们的产品,以及哪些属性才能帮顾客做购买决定)。

技术深潜:AI 智能体架构

我们的 AI 智能体系统建立在三个基本原则之上:专业化分析智能协调质量保证。每个组件都针对我们在规模化管理分类体系时发现的具体挑战,同时保持我们平台所必需的专业性和一致性。

一种全新的分类进化方法

虽然 AI 已经被用于产品分类和创建基础的分类体系,但我们的系统代表了一种根本不同的思路:我们用专门的 AI 智能体来进行 持续的分类进化,而不是一次性的 静态构建

扎根真实产品:我们的系统整合了来自平台的真实商家产品数据,确保提出的修改能反映商家 实际上 是如何描述和分类他们的产品。这就让分类决策扎根于商业现实,而不是纯粹的理论组织原则。

多智能体分工:我们雇佣了多个“术业有专攻”的智能体——一个专注于结构一致性,另一个专注于产品驱动的洞察——然后将它们的发现智能地合成起来。这种组合拳能发现任何单一方法都无法识别的改进点。

复杂的等价关系发现:这可能是最独特的一点。我们的系统能检测出复杂的“等价关系”,比如某个特定类别,其实 等于 另一个更广泛的类别加上某些属性值的筛选。这带来了一个至关重要的商业洞察:商家应该以最适合他们业务的方式来组织目录,而平台系统则需要理解这些产品关系的底层逻辑。

系统架构流程

让智能体与分类体系“互动”

要让 AI 智能体有效地分析和改进分类体系,它们需要有高明的方法去探索、理解和验证现有的结构。我们实现了一个系统,允许智能体搜索相关类别、检查层级关系,并核实提议的修改是否会与现有元素冲突。

这个基础让智能体能进行“上下文分析”(Contextual Analysis)——不只是孤立地看某个类别或属性,而是理解它们在整个分类体系大框架中的位置。举个例子,一个分析“吉他相关类别”的智能体,可以探索整个“乐器”的层级,检查不同乐器类型的相关属性,并找出规律,从而做出更好的结构决策。

多阶段分析流水线

我们的分析流水线通过专业的智能体汇集了不同类型的专业知识,每个智能体都针对特定类型的洞察进行了优化。

结构分析:检查分类体系本身的逻辑一致性和完整性。这个智能体负责找出类别层级中的断层、命名规范的不一致,以及组织相关概念的更优方式。它纯粹在分类体系的“结构”上做文章,确保逻辑严谨和组织原则统一。

产品驱动分析:整合真实的商家数据,研究平台上的产品 实际上 是如何被描述和分类的。这个智能体分析产品标题、描述和商家自定义类别中的模式,找出“商家对产品的理解”与“我们分类体系的表达”之间的差距。

智能合成:将上述两种方法的洞察融合起来,解决冲突并消除冗余。当“结构分析”建议一种改法,而“产品分析”又建议另一种时,这个“合成”过程会决定最佳的前进路径,而且往往是集两家之长。

等价检测:这解决了一个商业中的根本挑战:如何既保持商家的灵活性,又让系统能智能运作?这个自主智能体能识别出,什么时候 不同的分类方法 其实代表了 同一组产品,为系统跨越商家组织偏好、理解产品关系打下了基础。

想想“高尔夫球鞋”——一个商家可能会创建一个专门的“高尔夫球鞋”类别,而另一个商家可能用的是“运动鞋”类别,再加上一个“活动类型 = 高尔夫”的属性。两种方法都能很好地服务于他们各自的商家和顾客,但我们的搜索、推荐和分析系统如果能 理解 这两种方法代表的是 同样的产品,那效果就会好得多。

系统能检测出复杂的“基于属性的等价关系”:一个特定类别,可以等于一个更广泛的类别,再加上一个或多个属性值的筛选。比如,“女士高尔夫球鞋”可能就等于“运动鞋” + “活动类型 = 高尔夫” + “性别 = 女”。这使得商家可以随心所欲地组织他们的目录,同时确保平台的智能功能无论在哪种分类方式下都能无缝工作。

自动化的质量保证 (QA)

最后一个阶段,我们引入了通过专门的“AI 评审员”(AI judges) 来实现的自动化质量保证。这些评审员使用先进的推理能力来评估提议的修改,在进入“人工审核”之前,它们会运用领域专业知识和分类设计原则来筛选和优化这些建议。

不同类型的修改——比如添加新属性、创建类别层级,或改动现有结构——需要不同类型的评估。我们的评审系统会为每种修改类型使用专门的评估标准,确保技术要求、业务规则和领域专业知识都得到妥善应用。

特定领域的评审员会为不同的产品垂直领域提供专业知识。例如,一个专注于“电子产品”的评审员,会懂该行业特有的技术要求和常见模式;而一个专攻“乐器”的评审员,则会运用该领域相关的不同专业知识。

成果与影响

从“人工维护”到“AI 驱动进化”的转变,在多个维度上都带来了显著的改善。这使我们能够在保持分类质量的同时,从容应对平台日益复杂的商业生态。

效率的提升

我们的 AI 智能体系统可以“并行”分析整个分类体系的分支,找出那些以前需要花几周时间人工分析才能发现的改进机会。人类分类专家可能一天只能分析几个类别,而我们的系统可以全面评估 数以百计 的类别,同时检查结构一致性和与真实产品数据的契合度。

这种效率提升对于“新兴产品类别”尤其宝贵。当新类型的产品在我们的平台上开始流行时,我们的系统能迅速识别出分类体系的空白,并提出全面的解决方案,而不是那种“打补丁”式的被动修改——“打补丁”只会随着时间积累下越来越多的技术债。

质量的改善

“多智能体”的方法提高了我们分类体系进化的一致性和全面性。通过结合“结构分析”和“真实产品数据”,我们能发现任何单一方法都无法单独发现的改进点。“结构分析”确保了逻辑上的一致和层级组织的合理性;而“产品驱动分析”则确保了类别和属性真正反映了商家是如何描述和区分他们的产品。

事实证明,“自动化质量保证”这一层特别有价值,它能在人工审核前就“逮住”潜在的问题,并确保特定领域的专业知识在不同产品垂直领域得到一致的应用。这减少了从“初步提议”到“最终实施”之间通常需要的反复修改。

看看系统是如何处理“手机配件”的:我们的“产品分析智能体”发现,商家在为充电器、手机壳和钱包等配件打广告时,经常提到“支持 MagSafe”——这是一个日益增长的兼容性差异点。

智能体提议添加一个“兼容 MagSafe”的布尔型属性**(也就是“是”或“否”的选项)**,来帮助顾客筛选支持 MagSafe 的产品。

专门的“电子产品评审员”评估了这项提议。它核实了不存在重复的属性,确认了“布尔型”是合适的类型,并且认识到:虽然 MagSafe 是特定品牌的,但它代表了一个合法的技术标准,类似于蓝牙或 Qi 充电。

最终,评审员以 93% 的置信度批准了该属性,并指出它将“改善顾客在筛选支持 MagSafe 的充电器、手机壳、钱包等产品时的体验”。

这个例子展示了我们的智能体是如何协同工作的:识别商家的真实需求、提出解决方案、并获得复杂的评估——所有这些共同推动了分类体系的系统性进化。

规模化的分类体系开发

也许最重要的是,这个系统从根本上改变了我们开发分类体系的方式。我们不再是“被动”地等着某个特定的商家需求或平台限制来触发改进,而是可以“主动”地在分类空白影响到商家和顾客体验 之前,就识别并解决它们。

系统处理和推理 整个 分类体系结构的能力,使得全面的改进成为可能,它会考虑到跨类别的关系并保持全局的一致性。这种“全局视角”的方法,防止了那种“头痛医头、脚痛医脚”式解决问题时经常出现的“碎片化”。

为了验证这种系统性方法,我们将这种 AI 驱动的分类进化方法专门应用在了“电子产品 > 通信 > 电话”领域(在我们的分析中称为“电话 AI”),并将其与我们以前的“人工扩展”方法进行了比较。这个“试点”为我们更广泛的方法论提供了概念验证:

图表显示 AI 驱动与人工流程如何将数年的工作缩短为数周

未来的方向

随着 AI 能力的不断进步,我们看到了绝佳的机会,可以进一步增强我们的分类进化系统,并使其与我们的产品分类流水线更紧密地结合。

更强的智能体能力

我们正在探索如何利用更新的大语言模型和推理能力,来提高我们分析智能体的“老练”程度。更强的推理能力,可以让我们对产品关系有更细微的理解,更敏锐地察觉到不易发现的不一致,并更老道地“调和”来自不同分析方法的冲突见解。

我们对扩展“专业评审员”的领域专长尤其感兴趣,希望它们能以更高的精度和更深的理解力,来处理日益复杂的产品类别和新兴的商业趋势。

跨语言支持

随着 Shopify 的全球业务不断扩展,我们正在研究如何扩展我们的分类进化系统,以更好地支持“国际商务”。这包括去理解:在不同的市场和文化中,产品的分类和属性的关联性可能会有何不同;以及,我们该如何在保持一致性的同时,又允许“本地化”的定制。

与“分类”的深度融合

我们的“分类进化系统”和“产品分类流水线”之间的关系,为打造“持续改进的闭环”提供了机会。来自“分类”的模式和商家的反馈,可以反过来指导“分类进化”的优先级;而“分类体系”的改进,也可以立即提升“分类”的准确性和商家的接受度。

我们设想的未来是,这些系统无缝地协同工作:分类进化由真实的分类表现来指导,而分类又受益于持续优化的分类结构。

结语

我们在分类管理上的进化,代表了一次根本性的转变——从“人工、被动”的流程,转向“AI 驱动、主动”的改进系统。通过结合多种类型的分析、自动化的质量保证和人类的专业知识,我们创造了一个既能应对现代商业复杂性、又能保持商家和顾客所依赖的质量与一致性的可扩展系统。

这项工作展示了 AI 智能体如何在复杂、知识密集的领域“增强”人类的专业能力。我们的系统并非要“取代”人类的判断力,而是“放大”了我们分类团队的能量,让他们能专注于高层次的战略决策,而把支撑高效分类管理所需的全面分析和质量保证工作,交给 AI 来处理。

在我们继续拓展电商基础设施可能性的边界时,我们始终致力于构建能够随全球商家社群多样化、不断变化的需求而扩展的系统。这个由 AI 驱动的分类进化系统,是我们“让商业对每个人都更好”这一使命中,迈出的又一步。