Translated on January 1, 2024Published on December 31, 2023

2023 年 AI 领域的重大发现 [译]

原文：Stuff we figured out about AI in 2023

2023 年是大语言模型（LLMs）取得重大突破的一年。将这些模型称为 AI 是恰当的——它们是目前人工智能学术领域最新、最引人注目的发展，而这一领域的历史可以追溯到 20 世纪 50 年代。

下面是我尝试汇总的一些年度亮点！

大语言模型链接

在过去的 24 至 36 个月里，我们发现，将大量文本资料输入到众多 GPU 中进行处理，可以创造出一种全新、引人入胜的软件类型。

大语言模型 (Large Language Models) 能做许多事。它们能回答问题、概括文档内容、进行语言间的翻译、提取信息，甚至还能编写出令人惊叹的有效代码。

这些模型也能辅助你在家庭作业上作弊，生成源源不断的虚假内容，甚至可能被用于各种不良目的。

到目前为止，我认为它们整体上是积极的。我个人利用它们以多种方式提升了我的工作效率，同时也为自己带来了乐趣。我相信，那些学会高效使用这些模型的人，能显著提高他们的生活品质。

尽管如此，仍有许多人对它们的价值持怀疑态度。有人认为它们的负面效应大于正面，有人觉得它们过于夸大，甚至有人认为它们可能对人类存在构成威胁。

它们实际上构建起来相当简单 #

今年我们在大语言模型 (LLMs) 方面的一个惊人发现是，它们实际上构建起来相当简单。

人们通常会认为，如此强大的系统需要编写数百万行复杂的代码。然而，事实上，仅用几百行 Python 代码就能够训练出一个基础版本！

最关键的是训练数据。要想运行这些系统，你需要大量的数据，而且训练数据的数量和质量是影响模型优劣的关键因素。

如果你能收集到合适的数据，并且有能力承担训练所需的 GPU 费用，你就可以构建出自己的大语言模型。

仅仅一年前，只有 OpenAI 发布了一个广泛应用的大语言模型。如今，我们已经看到 Anthropic、Mistral、Google、Meta、EleutherAI、Stability AI 和 TII 在阿布扎比（Falcon），以及 Microsoft Research、xAI、Replit、Baidu 等多个组织推出了比 GPT-3 更先进的模型。

训练成本（包括硬件和电力）依然不菲——起初需要数百万美元，但现在似乎已经降到数万美元。微软的 Phi-2 据称在“96 个 A100 GPU 上用了 14 天”，按照当前 Lambda 的价格来计算，大约需要 35000 美元。

因此，虽然训练一个大语言模型对于业余爱好者来说仍然是一笔不小的开支，但它已不再是仅有的超级富豪才能实现的事情。我认为训练大语言模型的难度可以比作建造悬索桥——这不是件容易的事，但全世界已有数百个国家掌握了这项技术。

在自己的设备上运行大语言模型 (LLMs) 现已成为可能 #

今年一月，我曾以为需要等上好几年才能在个人电脑上运行一个实用的大语言模型 (LLM)。当时，GPT-3 和 3.5 是市面上的主要选择，我还以为即便拿到模型的权重，也得需要一台超过 10,000 美元的服务器来承载它们。

但到了二月，Meta 推出了 Llama。紧接着在三月，Georgi Gerganov 就发布了代码，成功让它在 MacBook 上运行起来。

我曾撰文讨论了大语言模型正迎来它们的 Stable Diffusion 时刻，现在看来，这是个相当精准的判断！

这一行动引发了创新的热潮。7 月，当 Meta 发布了 Llama 2——一个性能更佳的版本，并且关键地允许商业使用时，这种创新进一步加速。

如今，已有数以千计的大语言模型可以在本地设备上运行，兼容各式各样的设备。

我在我的笔记本电脑上就运行了好几个这样的模型。我甚至在我的 iPhone 上运行了 Mistral 7B（一个出奇地出色的模型）on my iPhone。你现在可以安装多种应用，拥有自己的私密、本地化的大语言模型。

你甚至可以完全在浏览器里运行它们，只需使用 WebAssembly 和最新版的 Chrome 浏览器！

爱好者现在可以自行构建微调模型了 #

我曾经提到，对于爱好者而言，构建一个大语言模型 (LLM) 还是相当困难的。确实，从零开始训练是如此，但对于已有模型的微调则完全是另外一种情况。

现如今，我们看到了一个充满活力的生态系统：人们在这些基础模型上训练自己的模型，发布这些模型，并构建及共享微调数据集。

Hugging Face 的 Open LLM Leaderboard 就是一个追踪这些进展的平台。尝试去计数这些模型几乎是不可能的，因为任何统计都会在几小时内变得过时。

通常情况下，最优秀的公开授权的大语言模型并不是基础模型，而是最近发现了最佳微调数据组合的那些社区模型。

这展示了开放模型相比封闭模型的巨大优势：对于封闭和托管的模型，全球范围内成千上万的研究者和爱好者并没有合作和竞争来共同改进它们。

目前我们还不清楚如何构建 GPT-4 #

令人沮丧的是，尽管今年我们取得了巨大的飞跃，但我们还没有看到任何一款能超越 GPT-4 的替代模型。

OpenAI 在三月发布了 GPT-4，后来我们发现，在二月份，当微软将其用作新版 Bing 的一部分时，我们其实已经有了对它的初步了解。

在接下来的几周内，这种情况有可能改变：谷歌的 Gemini Ultra 声称巨大，但我们尚未有机会亲自尝试。

Mistral 团队也在努力超越 GPT-4。考虑到他们的首个公开模型仅在九月发布，而自那以后他们已经发布了两次重大改进，他们的成绩已经非常卓越。

然而，我仍对至今还没人能超越这款几乎一年前发布的 GPT-4 感到惊讶。显然，OpenAI 仍有一些他们未曾公开的重要技巧。

基于“感觉”的开发 #

作为一位计算机科学家和软件工程师，我发现大语言模型 (LLM) 令人十分挫败。

哪怕是那些公开授权的模型，也依旧像世界上最难懂的黑盒子。我们对它们能做什么、它们究竟如何运作，以及如何有效控制它们了解甚少。

我习惯了编程时，计算机严格按照我的指令执行。但指令一个大语言模型 (LLM) 显然不是这么一回事！

最让人头疼的是评估它们的过程。

尽管有许多基准测试，但没有任何一个能告诉你，当你尝试用大语言模型 (LLM) 完成特定任务时，它的“感觉”是否合适。

我发现自己需要花上几周时间与一个大语言模型 (LLM) 合作，才能对其优缺点有个直观的感受。这极大限制了我能亲自评估的模型数量！

最让我沮丧的是在单独编写提示时。

有时候，我会调整一个提示，甚至将其中的某些词语大写，强调我真的想要它输出有效的 MARKDOWN 或类似的内容。但大写这些词是否真的有效？至今，我还没有找到一个好的方法来确定这一点。

我们最终沦为依赖所谓的“感觉”来开发。这种“感觉”贯穿始终。

我期待着我们能在 2024 年超越这种“感觉”式的开发！

大语言模型 (LLMs) 既极其智能，又极度愚蠢 #

从一方面来看，我们不断发掘出大语言模型能完成许多出乎我们意料的任务——甚至连开发这些模型的人也没能预见到。这经常让人感到非常有趣！

但从另一方面来看，要使这些模型正常工作，有时你不得不采取一些看似极其愚蠢的措施。

例如，是否因为 ChatGPT 的隐藏系统提示中包含了当前日期，以及其训练数据显示人们在假期前提供的答案质量较差，所以在 12 月变得不那么勤奋呢？

实际上，这个问题的答案还真可能是“是的”！虽然没有人能完全确定，但如果你向它提供不同的日期，你可能会得到稍微更长一些的答案。

有时它会漏掉代码的某些部分，需要你来补充。但如果你告诉它你因为没有手指而无法打字，它就会主动提供完整的代码。

这样的例子还有很多。你可以给它提供现金小费来换取更好的答案，告诉它你的职业生涯取决于此，或给予它积极的鼓励。这些做法听起来都非常荒谬，但却奏效！

轻信：AI 领域最棘手的未解决问题 #

去年九月，我首次提出了“提示注入”（prompt injection）这一概念。

15 个月过去了，我不得不说，我们在寻找一个稳固可靠的解决方案方面仍未取得明显进展。

关于这个问题，我已经写过不少文章。

除了这类特定的安全漏洞，我开始把它视为更广泛的问题：轻信。

语言模型（Language Models）很容易受骗。它们会“相信”我们告诉它们的一切——无论是训练数据、微调（fine-tuning）数据，还是提示中的信息。

为了让这些模型成为有用的工具，我们需要它们对我们提供的信息保持信任！

但实际上，我们期望构建的许多系统需要它们不能太轻信。

每个人都想拥有一个 AI 个人助理。如果你雇佣的真实世界个人助理对任何人说的一切都轻信，你会很快发现，他们对你生活的积极影响非常有限。

许多人对 AI 智能体（AI Agent）非常期待，这是一个含糊其辞的术语，似乎指的是“能代表你采取行动的 AI 系统”。我们已经讨论了整整一年，但除了许多激动人心的原型，我几乎没有看到任何实际运行的案例。

我认为，轻信正是问题所在。

我们能解决这个问题吗？说实话，我开始怀疑，除非实现通用人工智能（AGI），否则我们无法完全解决轻信问题。因此，在这些 AI 代理的梦想真正成为现实之前，可能还需要很长一段时间！

代码或许是最佳应用领域 #

经过一年的发展，我们逐渐明白，编写代码是大语言模型（LLM）最擅长的领域之一。

考虑到它们的功能，这并不让人意外。因为像 Python 和 JavaScript 这样的编程语言规则，远比中文、西班牙语或英语的语法简单。

但它们在代码编写上的高效能力，依然让我感到惊叹。

大语言模型的一个显著弱点是容易产生错误的推测 —— 想象出一些与现实不符的情况。本来，这在编写代码时应该是个大问题 —— 如果大语言模型错误地推测出一个不存在的方法，那么这段代码应该是无用的。

但......你可以运行这些生成的代码来检验它们是否正确。通过使用 ChatGPT 代码解释器这样的工具，大语言模型能够自己执行代码，处理错误信息，然后不断修正并尝试，直到代码能够正常运行！

因此，在代码生成方面，错误推测的问题远没有在其他领域那么严重。如果我们能有一个类似于代码解释器的工具来核实自然语言的事实就好了！

那么，作为软件工程师，我们应该怎么看待这一点呢？

一方面，这似乎是一个挑战：如果 ChatGPT 能够帮你写代码，那么还需要程序员吗？

另一方面，作为软件工程师，我们比任何人都更能够利用这一技术。我们都有过编码实习生的经历 —— 我们可以利用自己深厚的专业知识，引导它们更高效地解决编码问题。

这个领域的伦理问题依然极其复杂 #

去年九月，Andy Baio 和我撰写了关于 Stable Diffusion 背后未授权训练数据的首个重磅报道。

从那时起，几乎所有主要的大语言模型（LLM）和绝大多数的图像生成模型都在使用未经授权的数据进行训练。

就在这周，纽约时报针对这一问题对 OpenAI 和 Microsoft 提起了一项重要诉讼。这份69 页的 PDF 文档真的值得一读——尤其是前几页，它们以意想不到的简明方式概述了核心问题。文件的其他部分则包含了我所见过的关于大语言模型是什么、如何工作以及如何构建的最清晰的解释。

这里的法律争论非常复杂。虽然我不是律师，但我认为这个案件不会轻而易举就有所定论。无论结果如何，我都认为这个案例将对这项技术未来的发展产生深远影响。

法律并非伦理。在未经人们同意的情况下，使用他们的内容训练模型是否合适？特别是当这些模型将被用于与这些人竞争的方式时？

随着 AI 模型产出结果质量的提升，这些问题变得更加紧迫。

这些模型对人类社会的影响已经十分巨大，尽管难以客观衡量。

已经有人因为这些模型失去了工作——比如文案撰写者、艺术家和翻译者，这些都是我亲眼所见的例子。

还有许多未被讲述的故事。我期待在 2024 年能看到更多关于这一话题的深入新闻报道。

我在 2023 年的博客动态 #

以下是我在 2023 年发布到博客上的内容标签云（通过 Django SQL Dashboard 生成）using Django SQL Dashboard)：

标签云中的词汇按大小顺序：ai, generativeai, llms, openai, chatgpt, projects, python, datasette, ethics, llama, homebrewllms, sqlite, gpt3, promptengineering, promptinjection, llm, security, opensource, gpt4, weeknotes

排名前五的标签是：ai (342)，generativeai (300)，llms (287)，openai (86)，chatgpt (78)。

关于这些主题，我有很多分享！

我截取了一年中我的 Plausible 分析数据的截图，将其输入到 ChatGPT Vision 中，指导它将数据转换成表格格式。然后我将这些数据与文章标题（通过它编写的 SQL 查询得到的）结合起来，制成了这张表。以下是今年访问量最高的几篇文章：

文章	访客数	浏览量
Bing: “除非你先动手，否则我不会伤害你”	1.1M	1.3M
Google 内部文件泄露：“我们和 OpenAI 都没有绝对优势”	132k	162k
大语言模型 (LLM) 正迎来它们的突破性发展时刻	121k	150k
提示注入的风险：可能发生的最糟糕情况	79.8k	95.9k
嵌入技术：它是什么以及为什么重要	61.7k	79.3k
探索大语言模型 (LLM) 的奇妙世界	61.6k	85.9k
在个人电脑上运行大语言模型 (LLM) 的最佳选择：llamafile	52k	66k
视频、幻灯片和文字解读：详解提示注入	51k	61.9k
AI 增强开发如何提升我的项目抱负	49.6k	60.1k
深入解析 GPT 的 Tokenizer	49.5k	61.1k

| 深入探索 GPTs: ChatGPT 是穿上风衣的变身吗？ | 46.4k | 58.5k | | 只需 85,000 美元，就能训练出击败 ChatGPT 的模型并在浏览器运行吗？ | 40.5k | 49.2k | | 如何利用 GPT3、嵌入技术和 Datasette 实现文档问答功能 | 37.3k | 44.9k | | 律师引用 ChatGPT 虚构的案例，法官并不买账 | 37.1k | 47.4k | | DALL-E 3 中的提示工程：如何添加一只海象 | 32.8k | 41.2k | | Web LLM 的壮举：浏览器里完全运行的 vicuna-7b 大语言模型 | 32.5k | 38.2k | | 看似可以联网的 ChatGPT 实际上无法访问互联网 | 30.5k | 34.2k | | 斯坦福的 Alpaca 项目和移动设备上大语言模型开发的飞速进展 | 29.7k | 35.7k | | 如何在自己的 Mac 上用 LLM 和 Homebrew 运行 Llama 2 | 27.9k | 33.6k |

我还进行了一系列演讲和播客嘉宾露面。我已经开始养成习惯，将我的演讲转化成带注释的展示。以下是我在 2023 年的一些精彩演讲：

在播客方面，我讨论了：

AI 能为你做什么：在《变革理论》(Theory of Change) 播客上
如何在公开场合工作：在《通往 Citus 大会的道路》(Path to Citus Con) 播客上
大语言模型 (LLMs) 如何颠覆互联网：在《变革日志》(Changelog) 播客上
关于大语言模型 (Large Language Models) 的深入讨论：在《屋顶上的 Ruby》(Rooftop Ruby) 播客上
关于 OpenAI 董事会现状的思考：在《新闻室机器人》(Newsroom Robots) 播客上
行业对 AI 提示注入漏洞的缓慢响应：在《红僧对话》(RedMonk Conversations) 播客上

2023 年 12 月 31 日晚上 11:59 发布。在 Mastodon 或 Twitter 上关注我，或者订阅我的新闻通讯获取更多信息。