首页

Apple Vision Pro 评测：初见惊艳，后觉平常 [译]

Apple Vision Pro 是迄今最佳的消费级头戴设备，但这恰恰是它的问题所在。新推出的 Apple Vision Pro 承载着巨大期望，它标志着苹果正式进入面部穿戴式计算机的领域。苹果宣称，售价起始于 3,499 美元的 Vision Pro，开启了一种名为“空间计算”的新篇章，这一概念实际上是指在你四周运行各种应用程序。苹果对此的广告宣传也毫不保留：展示人们在各种场合都戴着 Vision Pro——工作时、洗衣时、与孩子玩耍时。其雄心勃勃的目标是在现实世界中叠加应用和信息，以此增强现实感。

January 30, 2024

从历史伟大研发实验室获得的经验教训 [译]

关于最初的电气和杰出应用研发实验室，其历史分析能给 Answer.AI 带来什么启示，以及他们可能面临的风险

January 30, 2024

如果你觉得自己不够聪明，也缺乏才华，该如何行动 [译]

这篇博客是为那些渴望做出重要成就或对工作有所贡献，却觉得自己不够聪明或缺乏才能的人而写的。

January 30, 2024

使用 AI 学习编程时，切记还需独立思考 [译]

计算机科学教师和软件专家对机器学习辅助工具的建议

January 29, 2024

让 AI 来评估你的简历 [译]

最坏情况能有多糟？

January 29, 2024

他人即地狱：大型科技公司的绩效管理 [译]

本文讨论了大型科技公司中的绩效管理问题，特别是与解雇和奖励决策相关的复杂过程。作者指出，尽管普遍认为大型科技公司想要营造一种残酷的竞争环境，但在资金充足的快速成长公司里，解雇平庸员工并非内在动力。绩效管理过程对管理者造成压力，且可能伤害士气、增加法律风险，并导致机构知识的流失。文章还提到了员工对公平的执着，以及管理者如何处理下属之间的比较和感知不公。早期，绩效管理通常由经理决定，但这导致了一些问题，例如偏袒和严厉的评价不一。谷歌在其早期尝试了基于同事评价的绩效管理系统，这种模式逐渐被其他科技公司采纳。然而，这种方法并未带来预期的益处。大多数员工的反馈都是积极且平庸的，真正的差劲表现者或社交技能不佳者成为例外。为了解决这个问题，管理者不得不“解读”反馈以进行排名，用于决定解雇、晋升和奖金。尽管看似由同事驱动，实际上大部分重要决策仍由经理做出。文章最后指出，这种由谷歌发起的绩效管理流程并没有比它试图取代的系统表现得更好。它只是将经理层面的偏袒指控转换为更大的阴谋论，而且对于维持高水平的晋升标准所付出的代价也很高。

January 29, 2024

新论文：《WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models》

这篇论文详细的讲解了如何借助 GPT-4V 这样的多模态模型，与开放网络中的网站交互，完成用户的各项指令。

January 27, 2024

构建企业级 RAG 系统的高级指南 [译]

我们将深入了解构建企业级 RAG (Retrieval-Augmented Generation) 系统的复杂世界。网络上虽然不乏关于简易 RAG 系统的文章，但要构建一个坚固的企业级解决方案，过程却充满未知。许多开发者甚至不知道构建 RAG 系统时最关键的决策是什么...这篇博客不只是理论探讨，更是一个实践指南，旨在助您一臂之力！我们将从保障安全的关键措施到查询重写如何影响用户体验，提供实用的洞见和实际案例。无论您是资深开发者还是技术领袖，都请准备好深入探索先进的企业级 RAG 系统的世界！

January 27, 2024

WebVoyager：借助强大多模态模型，开创全新的网络智能体 [译]

随着大语言模型 (LLMs) 的突飞猛进，一个以真实世界中的自动化应用为核心的新时代已经来临。这一时代的特点是推动了基于网络的先进智能体的发展。目前市面上的网络智能体大多只能处理单一输入模式，并且它们的性能通常仅在简化的网络模拟环境或是静态的网络快照中得到评估，这大大限制了它们在实际应用中的有效性。为了解决这一问题，我们推出了 WebVoyager：一个创新的、由大型多模态模型 (LMM) 驱动的网络智能体。WebVoyager 能够通过与现实世界中的网站交互，全面完成用户的各项指令。此外，我们还提出了一种新的评估协议，用于应对开放式网络智能体任务自动评估中的种种挑战。我们利用 GPT4V 的强大多模态理解能力，从 15 个广泛使用的网站中收集真实世界任务，作为衡量我们智能体性能的新基准。测试结果显示，WebVoyager 的任务完成率高达 55.7%，明显优于 GPT4 (含所有工具) 以及仅文本模式的 WebVoyager，这充分证明了它在实际应用中的出色能力。我们的自动评估方法与人类评判的一致性高达 85.3%，为网络智能体在真实世界环境中的进一步发展奠定了坚实的基础。

January 27, 2024

AI 时代下，用户体验面临的复杂性挑战 [译]

2023 年标志着计算技术新纪元的开始。迄今为止，生成式 AI 主要关注于技术层面的发展。同时，大多数 AI 产品仍然在使用最初模型提供商设计的聊天界面，就像早期个人电脑时代的命令行界面，这对用户提出了较高的要求。

January 27, 2024

AI 不仅仅是一个功能 [译]

从 Blockbuster 的失败中学到的整合 AI 的智慧，以及为何光靠✨（闪光表情符号）不够。

January 26, 2024

借助 NEAT（非运动性活动热量消耗）的方法，不去健身房也能变得更健康 [译]

在日常生活中融入运动，比如骑车通勤或做家务，是一种巧妙的燃脂方式。这就是所谓的 NEAT（非运动性活动热量消耗）的理念。

January 25, 2024

自动驾驶：通用人工智能（AGI）的案例研究 [译]

随着大语言模型（LLMs）的进展，最近人们越来越多地讨论通用人工智能（AGI），包括它的发展趋势和可能的面貌。这些讨论既有乐观的期待，也有对未来充满担忧的声音。但遗憾的是，这些讨论往往过于抽象，导致大家在讨论中各说各话，难以达成共识。因此，我一直在寻找具体的例子和历史先例来更实际地探讨这个话题。当被问及我对 AGI 的看法时，我通常会举自动驾驶为例。在这篇文章中，我想解释这样做的原因。

January 25, 2024

Loro 富文本 CRDT 的介绍 [译]

React 服务组件为 React 引入了专属于服务端的强大功能。我在 Next.js 13 和 14 的应用中实践了这一新范式，接下来是我对其的真实评价。之前我一直在犹豫是否要发表这篇文章，因为 React 社区过去对待批评的态度让我有所顾虑。但最近，我认为分享我的看法变得尤为重要，特别是在我发现大多数现有批评要么记录不充分，要么基于对此技术的不熟悉。写下这篇文章，我是站在一个非常重视用户体验的角度。虽然我也关注开发者的体验，但我始终认为用户体验是最重要的。

January 24, 2024

MemGPT：将大语言模型转变为操作系统 [译]

大语言模型（LLM）已经在人工智能领域带来了革命性的变化。然而，它们的应用受限于处理信息的上下文窗口较小，这在执行长对话和文档分析等任务时尤其成问题。为了突破这一限制，我们提出了一种名为虚拟上下文管理的新技术。这种技术借鉴了传统操作系统中层次化内存系统的理念，能够通过在不同速度的内存间转移数据，从而扩展大语言模型处理信息的能力。基于这种技术，我们开发了 MemGPT（Memory-GPT），这是一个智能系统，它能够有效地在大语言模型本身有限的上下文窗口内提供更广泛的上下文信息。此外，MemGPT 还采用中断机制，以优化系统与用户间的交互控制流。我们在两个重要领域对这种受操作系统启发的设计进行了评估：一是文档分析，在这一领域，MemGPT 能够处理远超大语言模型本身上下文限制的庞大文档；二是多回合对话，在这里，MemGPT 能够构建出能够记忆、反思并在与用户长期互动中不断进化的对话智能体。

January 24, 2024

职场忠诚之终结 [译]

探究当前工作环境的失衡 —— 以及其可能的解决之道

January 23, 2024

彼得·林奇：懂得放手的智慧 [译]

“我记得那天站在雨中\[观看我女儿的足球比赛]，为她加油助威，心里想着，‘我希望能有更多这样的时刻。’”

January 23, 2024

成功人士共有的秘诀，亿万富翁 CEO 揭秘：“这是我决策的法宝” [译]

你有没有遇过那种似乎总能预知事情结局的人？他们并不是能预见未来的通灵者。其实，他们的秘诀在于洞察生活中的规律，这正是许多成功人士的共同技能，亿万富翁迈克尔·鲁宾就是这样的人。

January 23, 2024

利用 AI 教学哈佛 CS50 课程 —— 在计算机科学教育中的生成式人工智能应用 [译]

2023 年夏，我们在哈佛大学的 CS50 课程中引入了一套 AI 软件工具。这些工具最初面向大约 70 名夏季课程的学生，随后向数千名线上学生开放，并在同年秋季扩展到校园的数百名学生。遵循课程政策，我们鼓励学生使用这些专为课程设计的工具，同时限制了他们使用 ChatGPT、GitHub Copilot 以及新版 Bing 等商业 AI 软件。我们的目标是通过软件实现接近 1:1 教师对学生的比例，使每位学生都能随时拥有一位以教学为导向的学科专家助手。这些工具的设计目的是引导学生探索解决方案，而非直接给出答案。学生对这些工具的反响积极，他们表示这就像拥有了一位“个人导师”。我们的研究发现，将 AI 有策略地融入教育环境可以通过提供持续的个性化支持，提升学习体验，并帮助教育者解决更复杂的教学难题。在本文中，我们将详细讲述 AI 工具如何在 CS50 课程中提升教学和学习效果，主要涉及代码片段解释、代码风格改善，以及对课程讨论论坛上的课程内容和行政问题的精准回应。此外，我们还将分享我们的方法论、实施细节，以及对那些考虑在教育领域应用这些工具或 AI 技术的人的建议。

January 22, 2024

两个一文不名的学生怎样将一个想法变成珠宝行业每月 3 万美元的成功故事 [译]

大家好，我是 Joosep Seitam。今天我要跟各位创业者分享一个故事：就是我如何从一个大胆的想法出发，在短短 8 个月内，让我在珠宝行业的月收入达到了 3 万美元。我和我的合伙人 Martin Kardi 一起创办了一家专门销售镀金榴石嘻哈珠宝的公司。我们的产品主要针对居住在美国的非裔群体。我们销售的是一种非常特别的珠宝，即嘻哈风格的珠宝。仅仅 8 个月，我们就通过搜索引擎优化（SEO）的方式，将公司收入提升到了每月 3 万美元。在这个过程中，我们的网站每月自然访问量已经超过了 1 万次。这是两年前的我和 Martin，那时我们一贫如洗，对未来一无所知……

January 22, 2024

我每天是如何使用 ChatGPT 的（从科学家和开发者的视角） [译]

我每天在专业和个人生活中都使用大语言模型，我发现它们是极好的工具——它们不仅提高了我的工作效率，更让我在使用技术时感到愉快和满足，经常让我会心一笑。如果它们对我有帮助，那它们就不可能是无用的（除非我的经验毫无价值，那么你也就没必要读这篇文章了）。而那些怀着好意参与这类讨论的人会问我，“那么，你是怎么使用这些工具的呢？”因此，我查看了我过去一个月的 ChatGPT 使用记录，并将在这里列举一些用途。

January 22, 2024

聊天机器人性能革新：探索三大 RAG 性能提升策略 [译]

在我们深入 RAG 聊天机器人系列的最后几章之前，许多逐步构建聊天机器人的读者可能遇到了一些疑问。比如，在不追求快速反应、而更看重准确回答的情况下，比如医疗类聊天机器人，我们应该如何做？今天，我们要介绍三种不同的技术，它们专注于在特定技能上提升聊天机器器人的整体性能。重要的是，本节我们将不采用任何开源库或工具。这一选择是刻意为之，主要是为了关注性能优化这一核心议题。尽管这些技术对于聊天机器人的功能来说是可选的，但它们对于对性能有特别要求的用户和企业而言却非常关键。在本次讨论中，我会通过代码片段来详细说明每种技术。所有这些代码片段都可以轻松地融入之前文章中的代码，使得实施过程变得无比简单。如果您觉得这些示例对您的机器人项目有帮助，请随意使用。以一个为最终用户提供棋盘游戏信息的聊天机器人为例，我们来具体看看这些技术是如何应用的。

January 21, 2024

你的职业生涯衰退或许比你想的更早到来 [译]

“其实并不是没人再需要你。”这番话出自我身后的一位年长女士之口，当时我们正乘坐从洛杉矶飞往华盛顿特区的深夜航班。飞机里暗淡且静谧。她旁边的男士小声回应，声音几乎听不清，大意是“我宁愿已经死了。”她再次开口：“别那么说。”我原本无意偷听，但他们的对话不禁引起了我的极大兴趣。我脑海中开始描绘这位男士的形象，想象他是一位默默无闻却终身勤勉工作的人，怀揣着未曾实现的梦想——或许是未获得的学位，未追求的职业生涯，未创办的公司。当飞机降落、灯光亮起，我终于见到了那位绝望的男士。让我震惊的是，他是我认识的——一位世界知名的人物。那时他已经 80 多岁，曾因多年前的勇气、爱国精神和成就而被众人爱戴。他从我身后走过飞机走道时，其他乘客纷纷带着敬意向他致意。当他站在驾驶舱门口时，飞行员拦住他说：“先生，我从小就非常敬佩您。”就在几分钟前还渴望死亡的老人，在得到过去荣耀的认可时，脸上露出了自豪的笑容。

January 21, 2024

谷歌的文化转变 [译]

在过去几个月中，我尝试了三次撰写这篇文章；这是个复杂的话题。公众总是乐于看到大公司，特别是那些自负的硅谷科技公司被批评，他们喜欢看“失宠”的故事。但我并不想抹黑谷歌。尽管如此，谷歌依然是一个出色的工作环境，远胜过大多数其他公司，并且依然在创造惊人的成就。我的目的是想分享谷歌发生的一些独特而美好的事情，希望这些美好能在未来的某个地方重现。毫无疑问，谷歌早期的日子是非常特别的。我特意保存了一封电子邮件长达 18 年，直到我离开公司那天，因为我知道它会是一段有趣的历史对比。这封邮件主要描述了一些表面的差异，比如免费的美食。但这并不是谷歌员工来上班的主要原因。我想深入探讨的是谷歌文化中更深层次、更有意义的方面。

January 21, 2024

知识密集型自然语言处理任务的检索增强生成技术研究 [译]

在自然语言处理领域，大型预训练语言模型因能存储大量事实知识而备受关注，尤其是在针对具体任务进行细致调整后，它们的表现尤为出色。不过，这些模型在获取和准确使用知识方面仍有所不足，特别是在那些需要大量知识的任务上，它们的效果还不如专为特定任务设计的系统。此外，如何为这些模型的决策提供依据，以及如何更新它们所掌握的世界知识，仍是目前研究中的难题。迄今，研究人员已经探索了在提取型任务中应用具有可微分存取机制的非参数记忆的预训练模型。本研究则是针对检索增强生成（Retrieval-Augmented Generation, RAG）的通用调整方法进行探讨。这种方法结合了预训练的参数记忆（如 seq2seq 模型）和非参数记忆（例如，通过预训练神经网络检索器访问的 Wikipedia 的密集向量索引）。我们对比了两种 RAG 方法：一种是在整个生成过程中使用相同的检索内容，另一种则在生成的每个部分可能使用不同的内容。我们对这些模型在多种知识密集型任务上进行了细致的调整和评估，在几个开放领域的问答任务上取得了领先成绩，超过了传统的 seq2seq 模型和专门为特定任务设计的检索 - 提取系统。在语言生成任务中，我们发现 RAG 模型能产生更具体、多样化且符合事实的语言，相比之下，传统的只依赖参数的 seq2seq 模型则显得逊色。

January 19, 2024

人工智能迎战数学奥林匹克的新挑战 [译]

高中数学奥林匹克选手们要注意了，AlphaGeometry 正在挑战你们在数学领域的成就。

January 18, 2024

大语言模型抽象简明指南 [译]

这里为您提供了一些建议和技巧，旨在提高大语言模型应用的精准度，并介绍了选择合适大语言模型的要点。

January 18, 2024

AlphaCodium：引领代码生成新境界，从提示工程到流程工程 [译]

代码生成的难题与普通的自然语言处理不同 —— 它们涉及严格遵循目标编程语言的语法规则、识别正常和边界情况、关注问题规范中的众多细节，并应对代码特有的其他问题和需求。因此，自然语言生成领域的许多常用优化技巧对代码生成任务来说可能并不适用。在这项研究中，我们提出了一种全新的代码生成方法，名为 AlphaCodium —— 一种基于测试、分阶段、专注于代码的迭代处理流程。这种方法显著提升了大语言模型 (LLM) 在处理代码问题上的能力。我们在一个具有挑战性的代码生成数据集 CodeContests 上进行了 AlphaCodium 的测试，这个数据集包含了来自 Codeforces 等平台的竞赛编程题目。我们的方法在这些测试中始终保持着显著的性能提升。例如，在验证数据集上，使用 AlphaCodium 流程后，GPT-4 的准确率（pass@5）从单一精心设计的直接提示的 19% 提升到了 44%。AlphaCodium 在性能上不仅超越了之前的研究成果，如 AlphaCode，而且所需的计算资源也大大减少。我们认为，在这项工作中形成的许多原则和最佳实践普遍适用于代码生成的各种任务。我们在最新开源的项目 AlphaCodium 中分享了我们针对 CodeContests 的 AlphaCodium 解决方案，并提供了完整的数据集评估和基准测试脚本，以便社区进一步研究和探索。

January 18, 2024

新员工为何通常比老员工薪资高 [译]

在我职业生涯中，最令我震惊的一刻是发现，我在标准普尔资本智能公司（S&P Capital IQ）工作时，一位新同事的薪资竟比我高。有一天，我随口问他：“你的薪水有多少？”当得知他比我多挣 40,000 美元时，我既感到不满，又嫉妒，更觉得自己不被重视。同等职位和经验，他怎会挣得比我多 40%？此后，我开始提早离开办公室，心想自己的薪酬并不公平。几个月后，我选择离开了公司。尽管公司试图以晋升和加薪挽留我，但我已感受到了深深的冒犯，伤害无法弥补。

January 17, 2024

AlphaGeometry：一款具有奥林匹克水平的几何 AI 系统 [译]

在今日发表于《自然》杂志的论文中，我们介绍了 AlphaGeometry，这是一款能够解决复杂几何问题的 AI 系统，其能力已接近人类奥林匹克金牌选手的水平，标志着 AI 性能的一个重大突破。在对 30 个奥林匹克几何问题的基准测试中，AlphaGeometry 在规定的奥林匹克时间内解决了 25 个问题。相比之下，之前的最先进系统只解决了其中的 10 个问题，而平均水平的人类金牌选手能解决 25.9 个问题。

January 17, 2024

半人马与赛博格：在未来工作的前沿 [译]

作为生成式 AI 软件的典型代表，ChatGPT 模仿人类的效果非常惊人。它象征着研究领域的一个可能的新纪元，但同时也伴随着风险。

January 17, 2024

Scrum 的问题所在 [译]

最新观点：Scrum 存在问题。

January 16, 2024

构建基于大语言模型的系统与产品的策略 [译]

“有些问题看起来易于构想和展示原型，但将其发展成实际产品却极为艰难。比如自动驾驶：展示一辆汽车在街区自动行驶很简单，但要把这一技术转化为成熟的产品却需要十年时间。”本文旨在探讨如何将大语言模型（LLMs）有效地融入系统和产品中。我们将汇集学术研究、行业资源及实践者的经验，提炼出一些关键的观点和做法。

January 16, 2024

我们将 10% 的资源投入偿还技术债务；这是我们的收获 [译]

为什么以及如何我们持续地投入团队的努力来解决技术债务？结果又如何呢？任何长期维护软件的人都会意识到，随着时间的推移，软件似乎逐渐“腐朽”。防止这种情况的发生，需要付出刻意的努力。本文我将分享一个团队如何成功应对这一挑战，并提供一些实际的操作建议。

January 16, 2024

深入浅出：大语言模型的视觉解析 [译]

在先前的文章中，我们探讨了如何利用 ChatGPT 进行主题建模，并取得了显著成效。我们的任务是分析酒店连锁的客户评价，找出其中的主要议题。在之前的尝试中，我们运用了标准的 ChatGPT 完成 API 并亲自编写了原始提示。这种方式对于一些特定的分析研究非常有效。但如果你的团队正在积极地关注和分析客户评价，采取一些自动化措施是非常有益的。优秀的自动化不仅可以帮助你构建一个独立的流程，还能提供更便捷的体验（即便是不懂大语言模型和编程的团队成员也能轻松获取数据），同时还更加节省成本（你只需一次性向大语言模型发送所有文本并支付费用）。如果我们要构建一个可持续发展的、准备投入生产的服务，那么利用现有的框架来减少编写辅助代码的工作量，并实现更模块化的解决方案是非常值得的（例如，我们可以轻松地从一个大语言模型切换到另一个）。在本文中，我将介绍一个非常流行的大语言模型应用框架 — LangChain。我们还将详细了解如何评估模型的性能，这对于商业应用来说至关重要。

January 15, 2024

脉动观察：美国的公司会因为税法第 174 条款而减少招聘工程师吗？ [译]

去年十月，我们研究了由软件工程师创立的自助资金公司，并引起了广泛关注。很多自助资金的创始人在那期之后给我发来了消息。这些消息中，很多都是对所谓的“税法第 174 条款变更”表示不满。一位创始人这样说道：“你听说过美国税法第 174 条款近年的变更吗？这个变更使得自助资金的软件公司难以为继。简单来说，所有研发相关的成本，包括软件开发人力成本，都不能立即计为费用。这些成本必须资本化，然后在 5 年内摊销 — 若是在美国境外完成的工作，摊销期甚至要 15 年。我不得不说，这个变化太荒谬了。我所接触的每个人都有同样的看法。我想知道，你在和其他自助资金公司的交流中有无遇到过此类话题？”为此我进行了调查，《华尔街日报》和其他一些新闻机构从去年三月开始已经报道了这一变更。但联系我的创始人们表达了一个观点：公众对这个税改可能造成的巨大问题意识不足。去年四月，Ben Thompson 在 Stratechery 报道了这一变化，他也对受影响公司对这项法规知之甚少感到惊讶：“我很惊讶，在科技行业内很少有人知道这个问题，至少在我私下进行的对话中是这样，尽管初创企业可能是受影响最严重的。”

January 15, 2024

引领语言智能：从思维链推理到语言智能体的探索指南 [译]

大语言模型 (LLMs) 在语言智能领域取得了重大进展，尤其在多项复杂推理任务上展现出了卓越的实证性能。理论上的证明也表明了它们在语言处理中的高级认知能力和涌现推理能力。在处理复杂推理任务时，大语言模型 (LLMs) 的关键在于它们采用了引人注目的思维链 (CoT) 推理技术，这种技术要求它们在推导答案的过程中构建中间步骤。CoT 推理不仅在提升推理性能上表现出色，也在增强可解释性、可控性和灵活性方面有显著贡献。鉴于这些优势，近期的研究将 CoT 推理方法应用于自主语言智能体的开发，使这些智能体能够熟练地遵循语言指令，在不同环境中执行任务。这篇综述文章全面探讨了这一领域的关键研究方向，包括：(i) CoT 技术的基础原理，重点解释其有效性的原因；(ii) CoT 的范式转变；及 (iii) 使用 CoT 方法增强的语言智能体的新兴趋势。未来研究的方向包括探索智能体的泛化能力、效率、定制化、规模扩展和安全问题。我们希望通过这篇文章，使读者全面了解 CoT 推理和语言智能体这些研究领域，并理解它们之间的联系。本文适合各个层次的读者，无论是希望全面了解 CoT 推理和语言智能体的新手，还是对这些领域的基础原理感兴趣、想参与最新讨论的资深研究者。

January 15, 2024

技术领导者需要知道的 5 个关于生成式 AI 的残酷真相 [译]

生成式 AI (Generative AI) 已经无处不在。各行各业的组织正迫切要求他们的团队加入这场风潮 — 有 77% 的商业领导担心他们已经错过了利用生成式 AI 的机遇。数据团队正在努力应对这一挑战。但是，打造一个真正能促进商业增长的生成式 AI 模型并非易事。长期来看，仅依靠快速接入 OpenAI API 是远远不够的。我们谈论的是生成式 AI，但你的竞争优势在哪里？为什么用户会选择你而不是 ChatGPT？

January 14, 2024

我试验了高级 AI 提示词的效果，结论：它们并不值得 [译]

为了验证高级 ChatGPT 提示词是否物有所值，我们投入了约 80 美元购买了五个此类提示词，并在市场团队成员中进行了盲测。简而言之：它们并不值得。

January 14, 2024

大语言模型在长上下文中的信息检索应用 [译]

大语言模型的上下文窗口扩展最近变得非常流行。而长期以来，结合信息检索和大语言模型的方法也受到关注。这引发了几个问题：*i) 在下游任务中，到底是信息检索增强更好，还是长上下文窗口更有优势？* *ii) 能否将这两种方法结合，以吸取各自的长处？* 我们通过研究两种领先的预训练大语言模型——43B GPT 和 LLaMA2-70B，来探讨这些问题。有趣的是，我们发现，即使是使用简单的信息检索增强，在长上下文任务中具有 4K 上下文窗口的大语言模型也能达到与经过特别优化处理、具有 16K 上下文窗口的大语言模型相媲美的表现，而且所需的计算资源更少。更为重要的是，我们证明了信息检索技术能显著提升大语言模型的性能，无论其上下文窗口的大小如何。我们最优秀的模型——结合了信息检索技术的 LLaMA2-70B，并拥有 32K 的上下文窗口，在包括问答和基于查询的摘要在内的七项长上下文任务上，其平均得分超越了 GPT-3.5-turbo-16k 和 Davinci003。与此同时，这个模型在生成速度上也比它的非检索版 LLaMA2-70B-32k 快得多。我们的研究为那些在信息检索增强与大语言模型长上下文扩展之间做选择的从业者提供了宝贵的洞见。

January 14, 2024

在实际应用中进行主题建模 —— 利用 LangChain 把从临时性 Jupyter 笔记本转变为实际生产的模块化服务 [译]

January 14, 2024

打造一个完全本地化的大语言模型 (LLM) 语音助手来管理我的智能家居 [译]

经历过 Siri 和 Google 助手之后，我发现尽管它们能够控制各种设备，但却无法进行个性化定制，并且不可避免地依赖于云服务。出于对新知识的渴望*以及*想在生活中使用一些酷炫的东西，我下定决心，要追求更高的目标。

January 14, 2024

科学与工程助力更优秀的文本生成 [译]

当前的文本生成技术，例如 ChatGPT，存在诸多问题：不够可靠、使用起来复杂、功能有限，而且开发与运行成本极高。这些问题源于它们的底层技术。但有可能通过全新的方法来彻底解决这些问题。这会是件好事，还是坏事呢？

January 14, 2024

构建全球通用机器人大脑的宏伟项目 [译]

生成式 AI 革命的显著成果体现在 ChatGPT、Midjourney 等工具上。这一革命的核心，是基于这样一个简单的思路：使用一个庞大的神经网络，用互联网上海量的数据进行训练，然后用它来响应广泛的用户需求。大型语言模型（LLM）可以回答问题、编写代码、创作诗歌，而图像生成系统则能够创造出逼真的洞穴壁画或当代艺术作品。那么，为什么这些令人惊叹的 AI 技术还没有转化为像科幻小说中那样有用且广泛应用的机器人？为什么还没有能够整理桌面、折叠衣服、做早餐的机器人呢？

January 13, 2024

在构建检索增强型生成系统时的七大挑战 [译]

随着软件工程师不断探索将语义搜索功能整合入应用程序，一种被称为检索增强型生成（Retrieval Augmented Generation, RAG）的策略应运而生。这种策略主要是找到与查询内容语义相符的文档，然后借助大语言模型（Large Language Model, LLM），比如 ChatGPT，来提取精准答案。RAG 系统的目标包括：a) 减少由大语言模型产生的不切实际的回答，b) 为生成的回答添加来源和参考链接，以及 c) 降低对文档元数据标注的依赖。但是，这一系统也存在其局限性，这些局限性源于信息检索技术本身及对大语言模型的依赖。本文中，我们将分享从三个不同领域（研究、教育和生物医学）的案例研究中得出的 RAG 系统的失败经验。我们总结了这些经验教训，并提出在设计 RAG 系统时应考虑的七大挑战。本研究的两个主要发现是：1) RAG 系统的有效性验证只能在实际运行中进行，2) RAG 系统的健壮性是随着时间逐渐发展而非一开始就固有的。最后，我们为软件工程界提出了一些关于 RAG 系统的潜在研究方向。

January 13, 2024

大语言模型能取代编译器吗？ [译]

我和 Kevlin Henney 最近讨论了一个问题：将来的自动代码生成工具，比如升级版的 GitHub Copilot，是否有可能取代现有的高级编程语言。我们具体想知道的是，ChatGPT N（N 很大）是否能跳过用高级语言编写代码的步骤，直接生成像今天的编译器那样的可执行机器代码？

January 12, 2024

专访：凯文·凯利，多面才子，未来学思想领袖 [译]

Elon Musk 是一个充满争议的人物。我的目的，如同往常，是为了在喧嚣、复杂或难以理解的话题中增添一些细致见解和清晰信号。不论你对 Elon 怎样看，我认为推动讨论走向更深入、更有意义的交流是非常有价值的，同时希望这不会给我带来太多风险。问题在于，市面上 99% 的批评都出于恶意且不准确，导致大多数人缺乏理解 Elon 行动动机和目的的必要背景。这是个问题，因为 Elon 是一位颇具影响力和远见的领导者，他的公司在传递变革性技术的过程中扮演着越来越重要的角色。

January 12, 2024

探究推理步骤长度对大语言模型的影响 [译]

在增强大型语言模型（LLMs）推理能力的过程中，“思维链”（Chain of Thought，简称 CoT）扮演着关键角色。但是，CoT 效果与其推理步骤的长度之间的具体联系还不太明确。为了弄清楚这一点，我们开展了一系列实证实验。我们的实验主要围绕在 CoT 示范中对推理步骤进行扩展或压缩，同时保证其他所有因素不变。我们的研究发现了几个重要点。首先，结果显示，即使不在提示信息中加入新内容，增加推理步骤也能显著提升 LLMs 在各种数据集上的推理表现。相反，减少推理步骤即便保留了核心信息，也会明显削弱模型的推理能力。这一点强调了 CoT 中推理步骤数量的重要性，并为在解决复杂问题时更有效地利用大语言模型提供了实用的指导。其次，我们还研究了 CoT 的效果与示范中使用的推理理由之间的关系。出乎意料的是，即便是错误的推理理由，只要保持了足够的推理步骤长度，也能取得不错的效果。最后，我们发现，增加推理步骤的益处取决于任务的性质：简单任务需要较少的推理步骤，而在处理更复杂的任务时，更长的推理过程则会带来显著的优势。

January 12, 2024

你唯一需要精通的事情 [译]

有一篇关于斯多葛主义的小文章，自我读过以后，对我的生活产生了深远的影响。可能是我成年之后第一次，我觉得自己没有浪费太多时间。我感觉自己已经做好了迎接挑战的准备。

January 12, 2024

哪些信号表明该离开公司寻找新的工作机会了... [译]

当公司停止发展，创始人离职，人事部门开始主导大局，或者高层更关心房产而非产品时...那就意味着，你该寻找新的工作机会了。

January 11, 2024