Translated on November 25, 2023Published on July 17, 2023

Cloudflare 作为 AI 领域的新动向：与 CEO Matthew Prince 的专访 [译]

原文：Cloudflare as an AI play. An interview with CEO Matthew Prince.

詹姆斯·戈夫纳的 MONKCHIPS

Cloudflare 作为 AI 领域的新动向：与 CEO Matthew Prince 的专访

作者：James Governor | @monkchips | 2023 年 7 月 17 日

在我们关注行业中产品管理表现出色的公司时，Cloudflare 显然不容小觑。该公司不断推出新功能，不仅增强了其在现有领域的实力，还开拓了新的市场。Cloudflare 不仅在网络性能和安全领域树立了独特的品牌形象，现在还在普通应用程序开发的边缘计算服务领域展开布局，这使其与云计算巨头的竞争更加激烈。

我最近在伦敦采访了 Cloudflare 的首席执行官 Matthew Prince，我们讨论了人工智能、边缘计算和开发者体验 (DX) 等领域的最新趋势。他提到了一些颇具洞见的点——例如，他指出，由于 GPU 短缺，AI 公司现在更加倾向于多云解决方案。因为随着技术拓扑结构变得越来越复杂，AI 问题已经演变成了一个分布式计算和网络的挑战。

基于我们的讨论，我将撰写几篇文章。和目前科技界的大多数讨论一样，我们的对话从生成式 AI 的话题开始，并探讨了这一领域如何改变了所有人的规划。Prince 表示，他之前对 AI 有些保留态度，因为 Cloudflare 自 2010 年成立以来就一直在利用机器学习模型预测安全威胁。

我曾说 Cloudflare 是一家 AI 公司，但常常遭遇怀疑的眼光，因此我也学会了对声称自己是 AI 公司的其他企业持怀疑态度。

但在今年 Cloudflare 的内部讨论中，他们意识到，由 ChatGPT 领衔的新一代大语言模型 (LLMs) 确实改变了游戏规则。

Prince 指出，Cloudflare 在 AI 方面主要关注五大领域。

首先，Cloudflare 从一开始就是一家 AI 公司，这在十年前部分成立。而今天，这一点变得更加确凿。我们正在利用 AI 更有效地防御安全威胁。例如，去年 Cloudflare 的一个自动化系统发现了之前未被人类识别的安全威胁。这已经不再是个别事件，而是成为了日常。虽然误报率仍然较高，需要人工干预，但这无疑为 Cloudflare 带来了革命性的变革。

我们注意到，越来越多的 AI 公司因为业务成本极高而开始重视安全问题。具体成本取决于使用的生成式 AI (Generative AI) 系统，但据估计，每次查询的成本可能高达 25 美分。例如，如果有人发送大量查询来生成一百万个独特的电子邮件地址，这对于一家初创公司来说，可能意味着高达 25,000 美元的开支。

Prince 指出，包括 OpenAI 在内的公司已经开始采用 Cloudflare 的挑战系统进行机器人管理，以防止这种高昂的成本。

我们在开发者体验方面也在运用 AI 技术。对于我们这样一个新兴的开发平台，它有自己独到的视角，但对开发者来说，一开始什么都没有，只有一个空白屏幕，这可能很难应对。因此，我们利用 AI 来帮助有经验的开发者解决初始阶段的难题，并拓宽可以在 Cloudflare 上编程的人群。

因此，Cloudflare 最近推出了 Cursor，这是一个类似于“GitHub Copilot”的 AI 开发者助手，它从提供 AI 辅助文档开始。目前，Cursor 还处于实验阶段，但我们预计不久将会有重大改进。正如我之前提到的，Cloudflare 在迭代改进方面非常专注。

第四个领域 - 这对我来说意外之喜 - 我们认为 Cloudflare 并不适合进行模型训练。模型训练需要大量机器紧密排列，需要使用最新最强的 GPU。我们有很多机器和 GPU，但它们分布得太广了。模型构建更适合传统的超大型计算公司来做。

然而，意想不到的是，全球范围内 GPU 极为稀缺。作为 AI 公司，寻找足够的计算能力和尽可能廉价的 GPU 容量成了重要任务。这些公司有巨大的训练集和模型，他们以前的做法是在不同的云服务和地区复制训练集，以便在 GPU 空闲或价格低时立即使用。这种做法极其浪费资源。让我吃惊的是，目前我们对象存储 R2 增长最快的用户是 AI 公司。他们选择在 R2 存储训练集的单一副本，而不是在每个云服务和地区都存储多份副本。

由于 Cloudflare 不收取数据出口费，将这些模型导入任何能找到 GPU 容量的云服务变得容易。所以，虽然我们在模型训练中没有直接作用，但我们在很多生成式 AI 公司的训练中扮演了间接而关键的角色。只要 GPU 仍然稀缺，其他大型公共云服务继续收取数据出口费，我们就面临着有趣的机遇。

在多云环境中追逐最便宜的云容量，即所谓的套利策略，原本是多云支持者的一个不良主张。云服务并非单纯的计算资源，数据重力、Prince 所批评的出口费用，以及开发者对云平台更高级服务和抽象的依赖，都使得多云变得复杂。但在 2023 年，我们仍然看到了这种情况的存在。对于那些从所有主要云服务处获得免费额度的初创公司来说，追逐 GPU 以训练模型是非常合理的选择。

接下来是第五个原因，这是我们之前就已经预料到并讨论了几年的：AI 推理的地点不会局限于传统的大型数据中心，原因多种多样，包括合规性以及性能相关的因素。我认为，今后会形成一种竞争，那就是在用户的终端设备上完成的推理与在类似 Cloudflare 这样的网络上完成的推理之间的竞争。

Cloudflare 网络的覆盖范围广泛，几乎可以在地球上任何地方以仅五十毫秒的延迟提供服务。因此，我们观察到，尤其在人机交互领域，越来越多的 AI 公司选择在我们的平台上开发他们的推理引擎。从长远来看，我们将面临一个问题：是与终端设备制造商竞争，还是更可能的与他们合作。你的手机或笔记本电脑上的计算能力、GPU 或 CPU 的容量、带宽和存储空间都相当昂贵。Apple 或 Google 可能会在设备上处理一部分推理任务，但很多任务会在离设备非常近的网络上运行。所以，对我们来说，推理是一个新兴领域，但从长远看将变得越来越重要。

因此，这就涉及到 AI 和机器学习的网络架构，我们需要定义云端、边缘以及设备上将要执行的 AI 任务和数据流。这为每个云服务提供商提供了一个有趣的架构设计机会。例如，微软已经在这一领域进行了一些工程工作，今年 5 月推出了 Open Neural Network Exchange (ONNX) 和 Olive 工具链，这是一套旨在帮助开发者优化机器学习模型和推理过程、充分利用异构拓扑中硬件资源的工具。

Prince 认为 AI 是一个网络问题，这正是 Cloudflare 的强项。他认为，由于合规性、隐私和性能方面的考虑，一些推理任务在设备上进行是合理的。例如，在自动驾驶汽车中，紧急刹车功能应该是即时的，而聚合道路条件、交通报告或天气报告以选择最佳路线的任务，则可以由边缘云聚合多个云服务的数据来完成。

Prince 还提到了第六个可能的发展领域，那就是 Cloudflare 可能被用于信息管理，以确保企业机密不会被输入到像 ChatGPT 这样的模型中，从而避免泄露。

你会愿意将哪些信息发送给 AI 系统，又有哪些信息你绝对不想发送给 AI 系统，无论是出于安全顾虑还是因为不想用错误信息破坏模型？需要注意的是，大语言模型 (LLMs) 基本上是不能忘记已学习的信息的。

在 AI 系统中如何有效管理数据和信息流动，这是一个关键问题。Prince 认为这里面蕴藏着巨大的机遇。所谓的 Shadow AI，也就是新兴的 Shadow IT 领域，同样值得关注。即使一些最终用户的组织规定禁止使用 OpenAI 这样的第三方服务以避免泄露商业秘密，实际上这些用户很可能还是会违规使用。从小型计算机到个人电脑、开源软件、SaaS 应用再到云计算，我们在每一次技术革新中都能看到这种模式。用户总是倾向于选择那些最简单、最高效的工具。因此，即便是公司禁止使用 ChatGPT，这并不意味着员工就一定会听从。在 AI 和机器学习领域，信任、数据来源、安全性、可解释性、知识产权管理以及数据和信息的主权，这些都将成为竞争的关键点。

无论如何，Prince 都看好自己成为这个领域的基础设施提供者，就像那些为 AI 公司提供“挖掘工具和铲子”的关键供应商一样。

See all posts