翻译

翻译的一些我觉得不错的科技文章。

Sam Altman 在斯坦福创业者思维领导研讨会上的对话 [译]

Sam Altman 在与斯坦福大学兼职讲师拉维 - 贝拉尼（Ravi Belani）的对话中，阿尔特曼为有抱负的人工智能创业者提供了建议，并分享了他对人工智能工具和人工通用智能的机遇与风险的见解。

May 2, 2024

提示工程的基本理念以及如何将这些理念应用于提升大语言模型的性能 [译]

大语言模型的接口：大语言模型广受欢迎的一个重要原因在于，其文本到文本的接口极其简单，用户可以轻松使用。在早期，使用深度学习解决一个任务通常需要对模型进行微调，通过数据训练使其掌握解决该任务的方法。而且，这些模型大都只专注于单一任务。但是，大语言模型具备了通过文本提示解决多种问题的能力，这种在上下文中的学习能力使得原本复杂的问题解决方式转变为自然语言的形式！

May 2, 2024

每家大语言模型公司都在挑战搜索技术：未来的大语言模型检索系统展望 [译]

搜索技术是计算机科学中极具挑战性的领域之一，仅有少数产品如 Google、Amazon 和 Instagram 能够做到出色。直至不久前，大多数产品并不依赖高效的搜索功能——它并非用户体验的关键部分。然而，随着大语言模型及其检索系统的迅猛发展，每个大语言模型公司都迫切需要将顶尖的搜索功能融入产品中，以确保其正常运作。面对这种新兴的需求，新一代 AI 公司将如何解决搜索问题？检索功能是大语言模型系统不可或缺的组成部分，这一点未来也不会改变。

May 2, 2024

Perplexity 产品开发的新模式 [译]

Perplexity 的联合创始人兼产品负责人 Johnny Ho 分享了他如何借助 AI 技术领导团队，如同指挥黏菌一般，构建他们的 AI 公司，以及更多前沿策略

May 2, 2024

提高提示一致性的结构化生成方法 [译]

最近，Hugging Face 的 *Leaderboards and Evals* 研究团队进行了一系列小实验，揭示了评估结果对提示格式微小变化的极高敏感性。对于特定任务，即使是很小的提示变动也会导致结果大不相同，这并非我们所希望看到的：相同信息输入的模型，其输出应保持一致性。我们与 *Dottxt* 的合作伙伴探讨了这一问题，他们提出了一个新思路：是否有办法提升不同提示格式之间的一致性？现在，让我们来详细探讨这一点。

May 1, 2024

Rabbit R1: 几乎无法评测 [译]

这就是 Rabbit R1，它是一个装在盒子里的 AI，可以说是时代的象征。这个设备和 Humane AI Pin 有许多相似之处，不论是好是坏。不过，它也有两个所谓的独特之处，这些特点使它与 Humane AI Pin 区别开来。不管怎样，我们需要讨论一下这个问题。如果你觉得听起来熟悉，随时打断我，看看这个。

April 29, 2024

我们得聊聊 Rabbit R1 这款设备... [译]

这个视频主要介绍和点评了一款名为 Rabbit R1 的人工智能硬件助手。作者认为，作为一款售价 200 美元的消费级产品，R1 在设计和功能上还存在诸多不足之处，如滚轮交互体验欠佳、屏幕和音频表现一般、电池续航短等。同时，作者质疑 R1 这类 AI 硬件助手的实用价值，认为类似功能完全可以通过手机上的软件应用来实现。展望未来，作者预测一旦科技巨头们在自家移动操作系统中原生集成类似的 AI 助手功能，第三方的 AI 硬件设备将難以与之竞争。作者呼吁，硬件厂商在发布产品前应该给予评测者和消费者足够的时间去全面体验，不要盲目追赶所谓的"发布窗口期"。与其囿于硬件形态，不如把更多精力投入到底层 AI 技术的研发中来。

April 28, 2024

7 个帮助最小化 RAG 模型风险的指标 [译]

今天我们要学习如何使用关键指标评估 RAG。

April 28, 2024

Ilya——塑造世界的人工智能科学家 [译]

如今，AI 是一项伟大的科技，因为 AI 将解决我们现在面临的所有问题。它能解决就业问题，能治疗疾病，能消除贫困，但同时它也会带来新的问题。假新闻将会愈演愈烈，网络攻击将变得更加严重，我们将面临全自动的 AI 武器的问题。我认为 AI 有潜力创造出无比稳定的独裁统治。

April 27, 2024

实际使用 SORA [译]

2024 年 2 月，我们首次报道了 OpenAI 发布的 SORA，当时我们将其形容为视频领域的 DALL·E。SORA 是一个生成时间更长、内容更连贯的视频的扩散模型。OpenAI 通过使模型能预见多帧内容，成功解决了视频主体即便短暂消失也能保持连贯性的技术难题。目前，SORA 能够一次性生成长达一分钟的完整视频。OpenAI 还表示，未来可能进一步扩展视频的长度，甚至实现两段视频的无缝连接。

April 26, 2024

No Priors 第 61 集 | 采访 OpenAI 的 Sora 团队负责人 Aditya Ramesh、Tim Brooks 和 Bill Peebles [译]

嗨，亲爱的听众们。欢迎收听"No Priors"的另一期节目。今天，我们有幸与 OpenAI 的 Sora 团队进行交谈，Sora 是一种新的生成式视频模型，能够接受一段文本提示词，然后返回一段视频剪辑高清、视觉连贯的，长达一分钟。Sora 也引起了人们的思考，即这些大规模的视频模型是否是世界模拟器，同时它把可扩展的 Transformer 架构应用到了视频领域。我们今天的嘉宾就是 Sora 的团队成员们。Aditya Ramesh、Tim Brooks 和 Bill Peebles。欢迎来到"No Priors"，各位。

April 25, 2024

台积电在美国郊区建造芯片工厂的艰辛历程 [译]

工期延误以及台湾和美国同事之间的紧张关系正在困扰着这家芯片巨头在凤凰城的扩张。

April 24, 2024

Meta 宣布推出 Llama 3 [译]

Meta 宣布推出 Llama 3 的介绍视频文稿，里面介绍了很多 Llama 3 的细节。

April 23, 2024

从一个卡车司机到 38 岁成为 Ruby on Rails 开发者 [译]

从这篇文章讲述了 Pedro David Garcia Lopez 的转变故事，他在 38 岁高龄从卡车司机转职成为了一个 Ruby on Rails 开发者，挑战了业界对年龄的固有偏见完全是无稽之谈！Pedro 的经历在 LinkedIn 上激励了我。

April 23, 2024

硅谷女孩采访 Perplexity 创始人 Aravind [译]

遇见阿拉温德，这位来自印度的创新者，他辞去 OpenAI 的工作，决心要挑战 Google - 和玛丽娜·莫吉尔科的深入对话。新一代搜索引擎将会是什么样？让我们和阿拉温德·斯利尼瓦斯一起发现，他从印度来到美国，带着 AI 的力量来革新在线搜索体验。

April 21, 2024

DREAM: 分布式 RAG 实验框架 [译]

使用 Ray, LlamaIndex, Ragas, MLFlow 和 MinIO 在 Kubernetes 上的分布式 RAG 实验蓝图

April 20, 2024

RAG 在长上下文大语言模型 (LLM) 中的应用探讨 [译]

这是@rlancemartin 最近在几个聚会上关于在长上下文 LLM 时代使用 RAG 的讲座。随着上下文窗口增至超过 100 万 Token，很多人质疑 RAG 是否已经过时。我们结合几个最新的项目成果来分析这个问题。我们讨论了长上下文 LLM 在事实推理和信息检索方

April 18, 2024

介绍 Meta Llama 3：迄今为止最强大的开源大语言模型 [译]

今天，我们正在介绍 Meta Llama 3，我们最先进的开源大语言模型 (LLM) 的下一代。Llama 3 模型很快将在 AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM, 和 Snowflake 上可用，并得到 AMD, AWS, Dell, Intel, NVIDIA, 和 Qualcomm 提供的硬件平台的支持。

April 18, 2024

第 2 章：技术性能 —— 2024 年人工智能指数报告 [译]

本章的技术性能部分为您呈现了 2023 年 AI 的全面进展。起始于对 AI 技术性能的高层次概述，本文档记录了 AI 的逐步发展。接着，本章深入分析了当前在多个方面的 AI 能力，包括语言处理、编程、计算机视觉（图像和视频分析）、推理、音频处理、自治智能体、机器人以及强化学习 (reinforcement learning)。此外，本章还重点介绍了过去一年里 AI 研究的重大突破，讨论了如何通过提示、优化和微调来提升大语言模型的性能，并最终探讨了 AI 系统对环境的影响。

April 17, 2024

Chapter 2: Technical Performance | 2024 AI Index Report

Overview The technical performance section of this year’s AI Index offers a comprehensive overview of AI advancements in 2023. It starts with a high-level overview of AI technical performance, tracing its broad evolution over time. The chapter then examines the current state of a wide range of AI capabilities, including language processing, coding, computer vision (image and video analysis), reasoning, audio processing, autonomous agents, robotics, and reinforcement learning. It also shines a spotlight on notable AI research breakthroughs from the past year, exploring methods for improving LLMs through prompting, optimization, and fine-tuning, and wraps up with an exploration of AI systems’ environmental footprint.

April 16, 2024

Chapter 1: Research and Development | 2024 AI Index Report

The figures below present the global count of English- and Chinese-language AI publications from 2010 to 2022, categorized by type of affiliation and cross-sector collaborations. Additionally, this section details publication data for AI journal articles and conference papers.

April 16, 2024

第 1 章：AI 研发 —— 2024 年人工智能指数报告 [译]

这份报告全面分析了 2023 年人工智能 (AI) 领域的进展，涵盖了技术进步、经济影响、政策制定和公众舆论等方面。

April 16, 2024

2024 年人工智能指数报告 —— 由斯坦福大学人工智能研究院发布 [译]

这份报告全面分析了 2023 年人工智能 (AI) 领域的进展，涵盖了技术进步、经济影响、政策制定和公众舆论等方面。

April 16, 2024

规划是 AI 智能体的一种核心设计模式[译]

规划是 AI 智能体的一种核心设计模式，其中我们利用大语言模型 (LLM) 自主选择一系列步骤，以完成一个较大的任务。比如，如果我们指派一个智能体去网上研究某个主题，我们可能就会用 LLM 帮助它将这个大任务拆分成若干小任务，例如具体研究几个子主题、整合研究成果、以及撰写报告。

April 15, 2024

美国芯片制造的重大失误 [译]

ASML 正在推动一项可能是当前世界上最关键的技术——极紫外光刻技术 (extreme ultraviolet lithography machines)。如果没有这些价值两亿美元的 EUV 设备及其制造的半导体，人工智能革命就不会发生，全球经济也将开始陷入停滞。这些设备主要在荷兰生产，并销售给台湾的台积电和韩国的三星，而 Intel 却迟迟未能参与。在此同时，无论是在唐纳德·特朗普还是乔·拜登的任期内，美国政府都在努力不让这些设备落入中国手中。

April 14, 2024

福布斯采访 Perplexity 创始人：Perplexity 让你在互联网上找到更好的答案 [译]

Notion 是一款由人工智能驱动的生产力工具，正在向 Google Docs 和 Microsoft Office 发起挑战。该公司在 2024 年的《福布斯》AI 50 强榜单中脱颖而出，其流行程度的快速上升也得到了社交媒体上大量 Notion 教程的证实。

April 14, 2024

福布斯采访 Notion 创始人：用“乐高”式创新挑战 Google Docs 和 Microsoft Office [译]

April 14, 2024

价值 100 亿美元的 Notion 欲构建您的全能 AI 应用 [译]

Notion 的联合创始人 Ivan Zhao 凭借其优雅的生产力应用程序在硅谷投资者和广大用户中赢得了极大的关注，该应用一度火爆到服务器都承受不住了。现在，这家盈利的创业公司的 CEO 看到了一个突破机会，他计划抓住 AI 的先机并大胆进攻，挑战微软和谷歌在职场的主导地位。

April 13, 2024

访谈记录：Ezra Klein 采访 Dario Amodei [译]

Ezra Klein 每周二和周五会带来一场讨论重大议题的对话，例如今天他与 Dario Amodei 的对话。

April 13, 2024

揭穿号称首位人工智能软件工程师 Devin 能在 Upwork 接活的谎言！[译]

近期，自称“首位 AI 软件工程师”的 Devin 被推出。公司不实地宣称他们的视频展示了 Devin 完成并从 Upwork 获得自由职业报酬的情况，然而视频实际上并未显示这些内容。

April 13, 2024

Ray Kurzweil 与 Geoff Hinton 关于未来 AI 发展的辩论 [译]

在 2024 年 Abundance360 峰会期间录制的这一集中，Ray、Geoffrey 和 Peter 展开了一场关于 AI 是否能具备自我意识、意识的本质是什么以及 AI 是否应有权利的辩论。美国发明家及未来学家 Ray Kurzweil 是人工智能 (artificial intelligence) 的先驱，他在光学字符识别 (OCR)、文本到语音、语音识别技术上作出了巨大的贡献。他撰写了多本关于 AI 与技术未来的书籍，获得了国家技术与创新奖章 (National Medal of Technology and Innovation) 等多项荣誉。在 Google，Kurzweil 致力于机器学习和语言处理技术，推动技术进步和人类潜能的提升。被誉为“深度学习之父”的 Geoffrey Hinton 是一位英国 - 加拿大的认知心理学家和计算机科学家，他在人工神经网络、深度学习 (deep learning) 和机器学习领域的开创性研究极大地推进了图像和语音识别等复杂任务的算法发展。推荐阅读 Ray 的最新作《奇点更近了：当我们与 AI 合并》。

April 12, 2024

如何设置 Mixtral-8x22B | 基础模型提示入门 [译]

Mixtral 8x22B 已经面市，这是首次推出一款可以商业使用的开源 GPT-4 类型模型。然而，它并非一个指令优化型模型，而是一个基础模型。这意味着我们需要用全新的方式来进行提示。虽然这更具挑战性，但并非无法实现。

April 12, 2024

软件工程中的心理健康问题 [译]

今天，我想探讨一个我们在该领域讨论不足的问题：软件工程师的心理健康，尤其是那些承担领导职责的人。作为技术联合创始人，我亲身经历了焦虑的困扰。这种感受虽然常伴随我们的职业生涯，但并未列入工作职责之中。

April 12, 2024

浅显易懂地介绍 llm.c [译]

当我们训练像 ChatGPT 这样的大语言模型时，需要处理大量的代码和复杂过程。

April 11, 2024

马斯克访谈 —— 尼古拉·坦根采访，谈 AI、特斯拉、中国电动汽车、Twitter（X）、SpaceX、中国电动汽车、企业文化与管理、火星殖民[译]

马斯克访谈 —— 尼古拉·坦根采访，谈 AI、特斯拉、中国电动汽车、Twitter（X）、SpaceX、中国电动汽车、企业文化与管理、火星殖民

April 11, 2024

AI 生成代码的生命周期 [译]

不管是编写代码、撰写文本、制作图像，还是其它应用，生成式 AI 对众多用户来说都如同一个充满神秘的黑盒。一般而言，用户只需简单地访问网站、安装应用或添加扩展，便可以直接体验到 AI 工具带来的便捷。但是，您是否好奇过这个黑盒背后的运作原理呢？本文旨在揭开我们的代码 AI 助手 Cody —— 它能深入理解您的整个代码库 —— 在代码 AI 生成过程中所涉及的奥秘。虽然使用大语言模型（LLM）来回应代码 AI 生成请求看似简单，但要在涵盖广泛用例、编程语言、工作流以及其他多变因素的生产环境中实现，确保既满足高质量完成的标准又能保证开发者的满意，却是一项极其复杂的挑战。本文将不仅探讨大语言模型的重要性，还将详述如何将其扩展为一个包含多个预处理和后处理步骤的全功能 AI 工程系统，讨论上下文的作用及其获取方法等多个方面，一起来深入了解代码 AI 生成的完整生命周期吧！

April 10, 2024

马斯克的最新演讲，揭示 SpaceX 登陆火星宏伟蓝图，开创人类多行星文明新纪元 [译]

在星际基地，埃隆·马斯克就公司将人类送往火星、开启多行星生命之旅的计划提供了最新进展。火星是开始实现人类多行星生存的最佳目的地。

April 7, 2024

通过模拟一切视频生成将带我们走向通用人工智能，终有一天你可以在视频模型上运行 ChatGPT [译]

这是一段题为“Video generation will lead to AGI by simulating everything”的演讲稿，由 OpenAI 的 Tim Brooks 和 Bill Peebles

April 7, 2024

SGI（美国硅图公司）的兴衰史 —— 一位叛逆的年轻人如何短暂地征服世界的故事 [译]

James Henry Clark 1944 年 3 月 23 日出生于德州平原城，他的家境并不富裕。父亲酗酒且无法长期维持工作，母亲则在当地一位医生的诊所工作，月入约 225 美元（折合 2024 年约 2605 美元）。Clark 幼年时父母就离异了，即便按照通胀调整后的标准，他母亲的工资似乎尚可，实际上她在扣除所得税和社保后仅得到 175.50 美元（约 2032 美元），这是她和三个孩子的唯一生活来源。Clark 本人则是个颇为叛逆的少年，高中时期的一些“壮举”包括在乐队巴士上点燃烟雾弹、偷带臭鼬进舞会、对英语老师大喊“去地狱”，酗酒及参与飙车比赛。考虑到那个年代，饮酒往往伴随着接连不断的吸烟。

April 7, 2024

MidJourney、DeepL、ElevenLabs 与 HeyGen 的共同之处（除了拥有其独特的团队结构和爆炸性增长！） [译]

一种在媒体和私下里经常被重复的观点认为，对于利用人工智能（AI），现有的大公司而非新兴初创企业，显得更加得心应手。这种思维方式认为，AI 更多是一种强化现有企业地位的持续技术，而不是一种能够为新入场者赋能的颠覆性力量。这种看法在一定程度上是有道理的，尤其是对于那些致力于提升员工完成其*现有*工作效率的初创企业——不妨看看 Adobe 和 Notion，它们如何以闪电般的速度融入 AI 功能。传统观点认为，初创公司需要在大公司弄清楚如何创新之前解决分销问题。但对许多应用场景而言，现有公司的创新似乎只需一次 OpenAI API 的调用即可实现。然而，这样的论调过于简化了实际情况。我们现在见证了一批 B2B AI 公司，他们通过借鉴消费者世界中的经典策略——以更低的成本提供远超十倍的体验——而快速增长其收入。

April 7, 2024

蔡崇信访谈 —— 从阿里巴巴到 NBA 的跨界人生[译]

在这次访谈中，阿里巴巴联合创始人蔡崇信与主持人尼古拉畅聊了他的成长历程、职业发展以及个人见解。蔡崇信 13 岁从台湾移居美国，通过参与体育活动克服语言障碍，融入新环境。他的父亲虽然严厉，但对他产生了深远影响。加入阿里巴巴之前，蔡崇信在瑞典华伦贝格家族的投资公司工作，学习投资基础知识。1999 年，他应朋友之邀去杭州见马云，被马云的愿景和魅力所吸引，加入了阿里巴巴。公司早期的办公环境虽然简陋，但团队充满激情与凝聚力。阿里巴巴的发展历程中遇到过许多挑战，如 2005 年雅虎的投资、淘宝的盈利模式创新、竞争压力和组织架构调整等。新冠疫情和监管压力也对公司产生了影响。面对挑战，蔡崇信强调要勇于承认错误，及时调整战略。对于中国经济和消费者，蔡崇信指出，尽管房地产市场下滑和就业不确定性影响了消费者信心，但中国作为制造业强国，拥有巨大的潜力。在人工智能领域，阿里巴巴重视云计算和电商业务与 AI 的结合，但也面临美国芯片出口限制的影响。中美在 AI 领域存在差距，但中国正在努力赶上。在地缘政治方面，蔡崇信强调遵守法规、促进全球贸易的重要性，同时也意识到在美国开展业务面临数据隐私和网络安全方面的顾虑。他认为西方对中国存在一些误解，不应低估中国人民的能力和潜力。谈到企业文化和领导力时，蔡崇信分享了阿里巴巴"快乐工作，认真生活"的理念，强调领导者应给予即时反馈、保持谦逊，鼓励创新。在个人生活方面，蔡崇信购买 NBA 布鲁克林篮网队，看到了体育与商业的共通原则。他珍惜与家人共度的时光，阅读间谍小说是他的一大兴趣。最后，蔡崇信给年轻人的建议是，要发展专业技能，成为某一领域的专家；同时学习多项技能，如数据科学、心理学和编程。具备专业技能和多样化技能，是在现今世界取得成功的关键。

April 7, 2024

Torvalds 畅谈人工智能对编程的影响 [译]

Torvalds 认为 LLM 可以帮助程序员编写代码，发现明显的错误，但他并不认为这是一场革命性的变化。Torvalds 希望 LLM 能够帮助审查代码和维护子系统，因为它们擅长发现愚蠢但难以察觉的错误。Torvalds 认为 LLM 的价值远远超过 "增强版的自动纠错",它们可以成为帮助程序员更好地工作的工具。他对 LLM 的未来持乐观态度。

April 6, 2024

全速前行：2024 年的机器学习、人工智能与数据（MAD）领域展望 [译]

这是我们第十次发布关于数据、分析、机器学习和人工智能生态的年度综述。覆盖这个领域十多年来，现在的局势比以往任何时候都更加令人兴奋和充满前景。多年来我们跟踪的所有主流趋势和细分领域正汇聚在一起：大量数据已被数字化；通过现代化工具，我们可以快速且经济地存储、处理和分析这些数据；更重要的是，这些数据现在能够供给性能更强的 ML/AI 模型使用，这些模型能够理解数据、识别模式、基于数据进行预测，甚至现在能够创造文本、代码、图像、声音和视频。

April 5, 2024

我们已经迈入了通用人工智能的时代 [译]

尽管现如今最尖端的 AI 模型还存在不少缺点，但几十年后，人们定会将它们视作通用人工智能的开山之作。

April 5, 2024

15 个 ChatGPT 学术写作神器提示 [译]

别再对着空白页束手无策了！这里有 15 个灵感满满的 ChatGPT 提示，助你寻找研究灵感、构建强有力的论据、撰写清晰简洁的文章，突破创作瓶颈，提升学术写作效率。

April 3, 2024

在浏览器中直接使用 OCR 技术处理 PDF 和图片 [译]

这周，我参加了斯坦福大学举办的大规模故事发现数据新闻学术会议。在这样的会议上，如何从 PDF 和图片中有效提取数据始终是一个热门议题。

April 3, 2024

多样本越狱 [译]

Claude 2.1 在处理高达 20 万 Token 的庞大上下文时，检索特定句子的能力令人瞩目。我们通过实验发现，利用精心设计的提示技巧，可以引导 Claude 更准确地回忆出相关信息。

April 2, 2024

OpenAI 向 NTIA 提交的开放模型权重意见 [译]

OpenAI 坚信，通过建立、广泛部署和应用 AI，我们可以改善人们的生活，并开辟一个更加美好的未来。这一进程依托于不断的创新与市场竞争的自由。在这些宽泛原则下，推动 AI 前景的路径多种多样。OpenAI 是最先尝试解决如何公平分配基础模型带来前所未有利益的 AI 开发者之一，我们通过分享这段历史背景，旨在为 NTIA 的评议提供参考。

April 2, 2024

丹尼尔的故事 [译]

欢迎来到四月酷日！这是一个与愚人节相似但却截然不同的日子——我们不是制造尴尬笑话，而是创作与平时不一样的、真正有价值的内容。比如，去年我就分享了一篇关于互联网上最古怪市场的文章。而今年，我则是踏上了一条全新的探索之路。

April 2, 2024

什么是 GPT？通过图形化的方式来理解 Transformer 中的注意力机制 [译]

深入浅出地解释 Transformer 和大语言模型 (LLMs) 中心机制——注意力机制（Attention）。

April 2, 2024

什么是 GPT？通过图形化的方式来理解 Transformer 架构 [译]

GPT 是 Generative Pre-trained Transformer 的缩写。首个单词较为直接，它们是用来生成新文本的机器人。"Pre-trained" 指的是模型经历了从大量数据中学习的过程，这个词暗示了该模型还有进一步在特定任务中进行额外训练和微调的可能。然而，最后一个词，才是真正重要的部分。Transformer 是一种特定类型的神经网络，一个机器学习模型，它是现今 AI 高速发展的核心创新。我希望通过这个视频和接下来的章节，以一种便于理解的方式，阐述 Transformer 内部实际发生的过程。我们将逐步探索流经它的数据。

April 2, 2024

从 20 年前的愚人节开始的电子邮件革命：Gmail 时代回眸 [译]

Google 的联合创始人拉里·佩奇和谢尔盖·布林，对恶作剧情有独钟，他们在创立公司不久后的每年愚人节，总是推出令人啼笑皆非的想法。例如，有一年 Google 发布了一则招聘启事，寻找月球上的哥白尼研究中心的研究员。另外一年，他们还宣布打算在搜索引擎中推出一项能“嗅觉搜索”的创新功能。这些搞笑的创意年复一年地上演，让人们逐渐将其视作 Google 惯有的恶作剧，笑对这些离奇的创意。正是基于这样的背景，佩奇和布林在 20 年前的愚人节，推出了一个让人难以置信的产品。那就是 Gmail，一种免费邮箱服务，每个账户提供 1GB 的巨大存储空间。

April 1, 2024

在 AI 淘金潮中，企业究竟富得有多少？ [译]

Nvidia 和 Microsoft 只是冰山一角

April 1, 2024

GitHub 如何成为代码托管的领头羊，超越 SourceForge [译]

自高中起，我便开始编程。我还隐约记得，曾与一位朋友共同利用 TortoiseSVN 分享代码，开发了一款安卓游戏。大学期间，我学会了从 GitHub 克隆仓库以获取计算机科学作业。之后，在实习期间，我开始使用 GitHub 审核和合并合并请求（PR）。像我这样在过去十年内步入职业生涯的大多数开发者，可能都有着类似的经历——不论是参与开源项目还是公司私有团队，GitHub 都成了源代码和代码更改的代名词。

April 1, 2024

八位 Google 员工开创了现代 AI 的新纪元，揭秘他们的故事 [译]

他们因缘际会，对一项创意产生了浓厚的兴趣，并共同撰写了“Transformers”论文——这是近代史上最具里程碑意义的技术革新。

April 1, 2024

探索合成语音的挑战与机遇 [译]

我们将分享一次 Voice Engine 小型试验项目的经验教训，这是一款能够创建定制语音的模型。

March 29, 2024

吴恩达：AI 智能体工作流引领人工智能新趋势 [译]

我期待与大家分享我在 AI 智能体方面的发现，我认为这是一个令人兴奋的趋势，所有涉及 AI 开发的人都应该关注。同时，我也对所有即将介绍的"未来趋势"充满期待。

March 28, 2024

AI 与训练 AI 替代自己的工人的矛盾 [译]

随着企业引进人工智能（AI）以提升工作效率，一个不适感的矛盾出现了：员工往往需要培训那些未来可能会取代他们的系统。AI 伦理倡导者 Madison Mohns 分享了三个领导原则，旨在既拥抱技术进步，又重视同事的福祉——为构建一个人工智能能够增强人类潜力的未来而铺路。

March 25, 2024

揭秘内部：OpenAI 的 Sora 模型如何运作 [译]

在这篇博客文章中，我们将深入剖析 Sora 模型背后的一些技术细节。我们还将探讨我们对这些视频模型可能产生的影响的看法。最后，我们将讨论我们对于用于训练 Sora 等模型所需计算资源的想法，并预测了训练计算与推理相比的情况，这对于预估未来 GPU 需求具有实质的参考价值。

March 25, 2024

Sora：初体验 [译]

我们从创意界得到了极具价值的反馈，这对我们模型的完善大有裨益。

March 25, 2024

在开放世界中的通用智能体 [译]

Jim Fan 在 NVIDIA GTC 2024 上的演讲：《在开放世界中的通用智能体》

March 23, 2024

Perplexity 的创始人 Aravind Srinivas 与 Stripe 的 David Singleton 炉边谈话 [译]

这段 Perplexity 的创始人 Aravind Srinivas 与 Stripe 的 David Singleton 炉边谈话的视频非常值得一看，Perplexity 很坦诚的分享了 Perplexity 的创业历程、内部运作、招人、从其他大公司学到的经验以及未来展望等话题。

March 23, 2024

李飞飞对话英伟达首席科学家：人工智能的高速革命及其对人类的影响 [译]

如果说去年的 GTC 炉边谈话，黄仁勋与 OpenAI 首席科学家 Illya 进行的是一场对技术未来的漫谈，那今年这场炉边谈话就是李飞飞对人类未来的呼吁。

March 22, 2024

生成式 AI 的未来 [译]

我对低代码持怀疑态度。

March 22, 2024

未曾踏足的路径 [译]

目前，开发者们正经历双重的心理压力。一方面，持续不断的裁员让整个行业在较短时间内失去了更多的岗位，这种情况自二十多年前的互联网泡沫以来前所未有。那些曾经门庭若市的资深开发者现在却连一个回应都难以获得。而随着 Devin 的推出，AI 带来的威胁突然显得更加紧迫。

March 20, 2024

Sam Altman- OpenAI、GPT-5、Sora、Board Saga、Elon Musk、Ilya、Power & AGI | Lex Fridman 播客 [译]

本文是 Lex Fridman 播客的一期节选，主题是 OpenAI 的 CEO Sam Altman 与 Lex 的对话。Sam Altman 是 OpenAI 的 CEO，该公司是 GPT-4 的背后推手，ChatGPT, Sora, 也许有一天，会成为建立通用人工智能的那家公司。这是 Lex Friedman 播客。

March 18, 2024

软件开发的未来展望 [译]

当大语言模型 (LLMs) 能够创作出图像、文本和代码时，它们在创意领域引发了极大的关注。起初，这些创作令人啼笑皆非，比如画出手部奇怪的人物、产生错误的事实和代码的幻觉。然而，随着时间的推移，情况正在逐步且稳定地改善。在这些模型诞生之前，人们常常反对将这些任务自动化，认为机器无法进行创造性思维。但现在，这一论点正变得越来越站不住脚。那么，我们的下一步该往哪里走？

March 18, 2024

Nicolai 对微软 CEO Satya Nadella 的访谈 [译]

在这次独家采访中，我们有幸与微软 CEO Satya Nadella 进行对话。微软，作为全球市值最高的公司，其领导者的思维方式和对未来的见解无疑对我们所有人都有着重要的启示。Nadella 在采访中分享了他对科技行业未来、AI 的角色、以及个人成长和领导力的深刻见解。以下是这次富有启发性对话的整理稿。

March 16, 2024

创业指南 [译]

本指南特别适合初步了解初创企业领域的朋友们。对于那些已经阅读过 YC 合伙人大量著作的人来说，这里的内容可能并不陌生——我们的目标是把它们汇聚于此。

March 14, 2024

开发者们正面临前所未有的压力 [译]

March 13, 2024

WhisperKit [译]

Whisper 项目已经让我们看到了一个不远的未来：快速、免费并且几乎没有错误的翻译和转录技术无处不在。这一进步激励了许多开发者在保证最大性能的同时，以最少的阻力改进并部署这一技术。

March 12, 2024

实验性的辅助“元”提示 [译]

March 11, 2024

技术细节：简单说“不是高深莫测”（单调与 bors 的历程）[译]

我去年编写了一个程序，名字叫做 bors，现在来聊聊它以及它的一些前身的故事。这篇技术分享可能会让大多数人觉得乏味至极，但如果你的饭碗是靠编程挣的，那么我建议你不妨花一点时间看看。

March 9, 2024

聊天 GPT 与语气：如何避免发出机器人的声音 [译]

许多作家借助 ChatGPT 或其它 AI 聊天机器人来调整和优化他们的文风。然而，AI 在传递微妙的情感上仍显笨拙**。一些 AI 用户已经分享了几个小技巧，这些技巧可以帮助产生更优质的文本，并解决 AI 面临的问题。** 但实际效果如何呢？我进行的研究表明，利用已有的文本并请求多种回复，可以让输出更加自然。而使用特定的语气词则效果不明显。

March 9, 2024

微服务的“死亡千刃” [译]

软件行业正在重新领悟一个老教训：复杂性是致命的

March 8, 2024

谷歌的恐惧文化 [译]

深入谷歌 DEI 思维模式的内核，探究了 Gemini 失败的根源

March 7, 2024

人工智能应该开放吗？ [译]

如果 OpenAI 想要通过牺牲人类免受恶意 AI 的安全，以获得更好的防止人们试图控制 AI 的安全，那么他们需要提出比我迄今为止看到的任何东西都更有力的理由，以证明后者的风险有多么严重。

March 6, 2024

OpenAI 和 Elon Musk [译]

我们一直致力于实现 OpenAI 的使命。OpenAI 的使命是确保全人类能从人工通用智能 (AGI) 中受益，这不仅意味着我们要构建既安全又有益的 AGI，也意味着我们要努力创造广泛分布的利益。现在，我们将分享我们如何实现这个使命的理解，以及我们与 Elon 的关系的一些事实。我们打算驳回 Elon 的所有主张。

March 5, 2024

“提示注入”与“破解”并不是一回事 [译]

我注意到很多人在讨论“破解”时误用了“提示注入”这个术语。这种误用已经变得如此普遍，以至于我怀疑我们是否还能纠正回来。语言的含义（特别是新近创造的术语）源于人们的使用习惯。尽管如此，我还是想尝试澄清这一点，因为我相信这两者之间的区别至关重要。

March 5, 2024

探索 Claude 的新纪元 [译]

在今天，我们兴奋地宣布 Claude 3 模型系列的问世，这一系列模型在多项认知任务上重设了行业的新高标准。这个家族包括了三款顶尖模型，它们按能力高低排列：Claude 3 Haiku、Claude 3 Sonnet 以及 Claude 3 Opus。每一款模型都在前者的基础上提升了性能，使得用户能够根据他们的具体需求，找到智能水平、响应速度和成本之间的完美平衡。

March 4, 2024

商业报道记者指南 [译]

本文揭示了我搜集到的关于 OpenAI 计划（经过调整）于 2027 年打造达到人类水平的通用人工智能（AGI）的信息。虽然不是所有的信息都容易证实，但希望足够的证据能够让你信服。

March 4, 2024

揭秘 OpenAI 至 2027 年打造通用人工智能的蓝图 [译]

March 3, 2024

Sora：探索大型视觉模型的前世今生、技术内核及未来趋势 [译]

Sora，一款由 OpenAI 在 2024 年 2 月推出的创新性文转视频生成式 AI 模型，能够依据文字说明，创作出既真实又富有想象力的场景视频，展现了其在模拟现实世界方面的巨大潜能。本文基于公开技术文档和逆向工程分析，全面审视了 Sora 背后的技术背景、应用场景、当前面临的挑战以及文转视频 AI 技术的未来发展方向。文章首先回顾了 Sora 的开发历程，探索了支撑这一“数字世界构建者”的关键技术。接着，我们详细探讨了 Sora 在电影制作、教育、市场营销等多个领域内的应用潜力及其可能带来的影响。文章还深入讨论了为实现 Sora 的广泛应用需克服的主要挑战，例如保证视频生成的安全性和公正性。最后，我们展望了 Sora 乃至整个视频生成模型技术未来的发展趋势，以及这些技术进步如何开创人机互动的新方式，进而提升视频创作的效率和创新性。图 1：Sora —— AI 视觉生成的重大突破。

February 29, 2024

为什么随着年龄增长，我们感觉时间似乎流逝得更快 [译]

36 岁的一年似乎比我小时候甚至十几岁的时候要短得多。这似乎是宇宙间的不公——我们的寿命更短了，而每一年过得也更快了。

February 27, 2024

谷歌 Deepmind 发布首个生成式交互环境模型 Genie [译]

我非常激动地分享 @Google DeepMind 开放创新团队的最新进展 🚀。我们推出了 Genie 🧞，这是一个从互联网视频中学习而来的创新世界模型，能够根据图像提示创造出无限种可操作的 2D 世界。

February 26, 2024

Gemini 与 Google 的文化观 [译]

Google，乃至更广泛的科技公司界，对于偏见的指控向来敏感，这种态度也延伸至图像生成领域。我理解这种在描绘假设场景时的谨慎态度。然而，很多图像反映的是真实历史。

February 26, 2024

V-JEPA：迈向 Yann LeCun 先进机器智能（AMI）愿景的新里程碑 [译]

我们人类对周遭世界的认知大多来源于观察——尤其是在生命的早期阶段。就拿牛顿的第三定律来说：甚至婴儿或是猫，在将物品从桌上推下观察其落下后，都能直观感受到“物体上抛必将下落”的道理。这种认知不需长时间的教导或阅读海量书籍就能获得。你的内部世界模型——基于对世界的心理构建的理解——帮你预测了这一切，并且极其高效。“V-JEPA 是让机器更实际理解世界、实现更广泛推理与规划能力的一大步。”Meta 的副总裁兼首席 AI 科学家 Yann LeCun 表示，他在 2022 年首次提出了 Joint Embedding Predictive Architectures（JEPA）概念。“我们旨在打造能够像人类一样学习、通过构建内部世界模型来适应和有效规划，以完成复杂任务的先进机器智能。”

February 22, 2024

Gemma：推出全新的顶尖开放模型 [译]

Gemma 承载着对负责任 AI 开发的承诺，它采用了与 Gemini 模型相同的研究成果和技术基础。

February 21, 2024

探索 Sora：视频制作的魔法 [译]

Sora 的视频质量似乎是不可能的，所以我深入研究了它的工作原理它使用了扩散（从噪声开始，细化到期望的视频）和 Transformer 架构（处理连续的视频帧）。

February 20, 2024

新手如何为演讲制作精美的幻灯片 [译]

在多年的会议演讲经历中，我发现自己喜欢设计幻灯片，为每个话题创造新的视觉主题，这不仅令人兴奋，也成为了我投入准备演讲的动力。许多人询问我关于技巧和推荐工具，因此，在这篇指南中，我想分享一些我的经验心得，并介绍**三个简单步骤**，帮助你在接下来的会议季为你的演讲幻灯片增色添彩！

February 20, 2024

AI 像水一般普遍 [译]

水对我们而言，是生命之源、无所不在且看似毫无差异。AI，特别是生成式 AI 应用，亦复如此。

February 19, 2024

Sora 的工作原理（及其意义） [译]

OpenAI 的新型文本到视频模型为电影制作开启了新篇章

February 16, 2024

视频生成模型：构建虚拟世界的模拟器 [译]

我们致力于在视频数据上开展生成模型的大规模训练。具体来说，我们针对不同时长、分辨率和宽高比的视频及图像，联合训练了基于文本条件的扩散模型。我们采用了一种 Transformer 架构，这种架构能够处理视频和图像潜在编码的时空片段。我们的最大型号模型，Sora，能生成高质量的一分钟视频。我们的研究显示，扩展视频生成模型的规模是向着创建能够模拟物理世界的通用工具迈出的有前途的一步。

February 15, 2024

AI 或许真的能助力中产阶级重塑辉煌 [译]

人工智能（AI）并不一定会夺走我们的工作。相反，它为我们提供了一个机遇，那就是将专业知识推广至更广泛的劳动者群体。

February 15, 2024

直截了当：展示给我提示符。 [译]

通过截获 API 调用，迅速掌握难以解读的大语言模型框架。

February 15, 2024

大语言模型提示工程综述：技巧与应用领域 [译]

在扩展大语言模型 (LLM) 及视觉 - 语言模型 (VLM) 能力方面，提示工程已成为关键技术。它通过特定任务的指令，即提示，提升模型效能，无需更改模型核心参数。这些提示能够通过给定的指令直接引导预训练模型完成下游任务，从而实现模型行为的精确调控。这些提示既可以是指导模型的自然语言说明，也可以是激发相关知识的向量表示。提示工程作为一个新兴领域，在多种场景下展现了其强大的应用潜力，包括问答系统、常识推理等。尽管如此，这一领域的方法和技术仍缺乏系统性的整理和理解。本文通过系统性概述提示工程的最新进展，并按应用领域进行分类，旨在填补这一空白。我们对每种提示方法进行了详细总结，包括其方法论、应用案例、相关模型及数据集。同时，我们探讨了各方法的优缺点，并提供了一个包含数据集、模型及关键技术点的分类图和表格。通过这一系统性分析，我们能够更深入地理解这个快速发展的领域，并指出未来研究的方向和挑战。

February 14, 2024

如何使用 ChatGPT Api 和 Node.js 对 Youtube 视频内容进行摘要 [译]

本期，我将介绍一个教程，告诉你如何利用 Node.js 构建一个系统，该系统能够通过 Youtube 视频链接，利用 OpenAI 提供的 completions api（也就是 ChatGPT 所基于的 API）来生成视频内容的摘要。

February 14, 2024

“提示工程师”：一个即将过时的职业 [译]

关于未来职业的讨论已经铺天盖地，我也曾深入探讨过从机器人管家到气候难民等多个领域。而在 AI 创造的众多工作中，最近一年多来，“提示工程师”这一职业引起了广泛关注。

February 13, 2024

OpenAI 的最终挑战 [译]

关于《纽约时报》与 OpenAI 版权诉讼结果的思考

February 13, 2024

关键人才是发展的瓶颈 [译]

“这家公司缺乏焦点”这句话让我感到困惑。公司不是应该通过增加员工来扩大其业务范围，进而提高专注度吗？事实上，这是有道理的：例如，谷歌有超过 100 个产品，远超任何初创公司的产品数量。但从另一个角度看，鉴于谷歌拥有约 20 万员工，100 个产品似乎又显得不足。以 Instagram 为例，它最初只有不到 13 名员工就成功推出了产品。按照这个效率，谷歌理论上应该能推出更多的产品。那么，是什么导致了这种差异？大型科技公司为什么不能推出更多的产品呢？

February 12, 2024

在使用 Vision Pro 40 小时后的感悟 [译]

我正坐在夏威夷一座 10,000 英尺的高山之巅，面前是一块 30 英尺的巨屏，同时也在奥斯汀一家咖啡馆里的桌旁。我敢说，周围的人肯定在偷拍我，然后把照片发给朋友，让他们一起笑我是个怪人。最近这一周，我的生活变得不可思议。我的奇幻之旅始于 30 年前的 1990 年，那时候我的父母带我去波士顿的海港世界贸易中心参观一场名为“虚拟现实展”的活动。我站在一个小圆台上，工作人员给了我一个塑料枪，又戴上了一个笨重的头盔。瞬间，我仿佛穿越到了一个卡通世界，穿着军装，手里拿着真枪。台旁的另一个人也以卡通形象出现，同样手持枪械。在一阵笨拙的挥舞和射击后，我被工作人员请出，为下一个人让出位置。

February 12, 2024

如何作为软件工程师涉足机器人技术 [译]

我一直在网站服务和移动应用开发领域工作，但这最终变得有些单调。回想起高中时代，我曾是焊接俱乐部的一员，那时起我就有种想挑战更高难度问题的渴望。两年前，我开始在阿姆斯特丹寻觅机遇，最终加入了 Monumental。如今，我在这里致力于利用机器人技术自动化建筑施工，首先从砖石工作开始。当系统顺利运行，亲眼见证一堵墙慢慢建成时，那份成就感是难以言喻的。相比之下，看到别人忙于加密货币或金融科技的项目时，我总感觉如果我去做那些事情，肯定会感到极度无聊。

February 12, 2024

为什么软件工程师喜欢木工 [译]

事实证明，木工的精髓与软件工程并无太大差异：在软件工程中最美妙的时刻莫过于构建你自己的工具，这是一种充满目的的工作。

February 12, 2024

谷歌工程师：AI 对我们的业务构成严重风险 [译]

谷歌通过分析用户与搜索结果页面的互动数据——例如点击某个结果、返回再点击其他结果——来优化其搜索结果的排名。多年来，这种方法帮助谷歌在搜索相关性上保持领先，因为相比其他搜索引擎，谷歌拥有更丰富的用户互动数据。但在 2018 年末，谷歌工程师们意识到，随着语言模型的发展，它们最终能够仅凭网页的文本内容，而无需任何用户反馈，就理解网页的含义。这一发现表明，即使是一个小型的创业公司也有可能挑战谷歌在搜索领域 20 年的领先优势。谷歌资深软件工程师 Eric Lehman 在观察到谷歌的 BERT 语言模型在处理搜索结果页面上的“网页答案”时取得的初步成果后，写了一封电子邮件，警告 AI 技术可能对公司构成重大威胁。

February 12, 2024

成为众人喜爱的聊天达人 [译]

我们真的有学过如何进行良好的交谈吗？事实上，并没有。似乎人们总期望我们能自然地学会这门技艺...难怪很多人的沟通技巧并不尽如人意。如何才能成为那种人们乐于交谈的人呢？为了回答这个问题，我整理了大量的研究和专家访谈，让我们一起把这些知识转化为实际可行的技巧。

February 10, 2024

如何避免在求职薪资谈判中失误 [译]

我将教你成为一位超级谈判高手。（或者至少成为一个有些古怪但能力出众的亿万富翁谈判家，听起来是不是有点酷？）认真说，这篇文章将深入讲解整个谈判流程，并且详细讨论如何成功谈判工作报价的最后四条规则。

February 6, 2024

构建产品副驾驶（Copilot）的痛点 [译]

这篇文章是我们论文《构建你自己的产品副驾驶（Copilot）：挑战、机遇与需求》的非正式总结。

February 6, 2024

我听过的最棒的调试故事 [译]

一个有意思的 80 年代调试磁带驱动器故障的小故事

February 5, 2024

RAPTOR：树状组织的递归抽象检索技术 [译]

通过检索增强的语言模型，我们能更灵活地跟上世界的变化，并融入更广泛的知识。但现有的大多数方法只能从资料库中取得短小连贯的文本片段，这限制了对文档整体情境的深入了解。我们提出了一个创新的做法：通过递归地嵌入、分类和概括文本块，我们从底层向上构建了一个分层总结的树状结构。在进行推理时，RAPTOR 模型能够从这棵树中检索信息，使我们能够在不同层次上整合长篇文档的信息。通过控制实验，我们发现，相比传统的检索增强语言模型，在多个任务上采用递归概括检索的方法显著提高了性能。特别是在需要复杂多步推理的问答任务上，我们的方法取得了前所未有的效果。举个例子，结合 RAPTOR 的检索能力和 GPT-4 的强大计算，我们在 QuALITY 问答基准测试上实现了 20% 的准确率提升。

February 5, 2024

RAG 系统开发中的 12 大痛点及解决方案 [译]

如何克服检索增强生成中的关键难题

February 4, 2024

马克 - 扎克伯格解释 Meta 为什么要开源其人工智能 [译]

2023 年第四季度财报电话会议

February 1, 2024

现代 AI 技术架构：企业 AI 未来设计的关键原则 [译]

我们将深入了解构建企业级 RAG (Retrieval-Augmented Generation) 系统的复杂世界。网络上虽然不乏关于简易 RAG 系统的文章，但要构建一个坚固的企业级解决方案，过程却充满未知。许多开发者甚至不知道构建 RAG 系统时最关键的决策是什么...这篇博客不只是理论探讨，更是一个实践指南，旨在助您一臂之力！我们将从保障安全的关键措施到查询重写如何影响用户体验，提供实用的洞见和实际案例。无论您是资深开发者还是技术领袖，都请准备好深入探索先进的企业级 RAG 系统的世界！

February 1, 2024

利用 ChatGPT 在技术面试中作弊到底有多容易？我们做了个实验来探究 [译]

ChatGPT 正在逐步改变我们熟悉的工作模式。无论是协助小企业处理行政工作，还是为网页开发者编写 React（React）组件，它的实用性不言而喻。在 interviewing.io，我们对 ChatGPT 如何改变技术面试的方式进行了深入思考。一个关键问题是：ChatGPT 会不会让面试作弊变得更加容易？想要了解答案，不妨看看这段 45 秒的视频。视频里，一位工程师利用 ChatGPT 精准回答了面试官的问题。

January 31, 2024

大语言模型是否“贪婪”？激励提示效果的实验分析（$0 至 $100 万）[译]

给 GPT-4 Turbo 提供小费以期获得更完美的回答，这种做法真的有效吗？目前对此话题的研究还相当有限。我们对一些编程相关的提示进行了初步实验，发现给予一定的小费可能确实有效，但小费的数额似乎非常关键。例如，如果小费很少（比如只有 $0.1），GPT-4 Turbo 的表现反而会变差。在我们的实验中，提供 $0.1 和 $100 万美元的小费，性能改善幅度分别是 -27% 到 +57%。但是，为了验证这一观点，还需要对不同类型的提示进行更多实验，并且这些实验需要有可靠的基础数据作为支撑。

January 31, 2024

零利率时代的终结：对软件工程师而言新常态意味着什么 [译]

经历了超过十年的零利率，科技行业即将迎来巨变。利率上升将如何影响软件工程师的工作、发展以及职业规划？你需要怎样为即将到来的变化做好准备？

January 31, 2024

Apple Vision Pro 评测：这款顶尖头显仅是对未来的初步探索 [译]

无论是工作、做饭、滑雪还是休闲放松——我体验了一周 Apple 的最新混合现实头显，探索它的实际用途。

January 30, 2024

Apple Vision Pro 评测：初见惊艳，后觉平常 [译]

Apple Vision Pro 是迄今最佳的消费级头戴设备，但这恰恰是它的问题所在。新推出的 Apple Vision Pro 承载着巨大期望，它标志着苹果正式进入面部穿戴式计算机的领域。苹果宣称，售价起始于 3,499 美元的 Vision Pro，开启了一种名为“空间计算”的新篇章，这一概念实际上是指在你四周运行各种应用程序。苹果对此的广告宣传也毫不保留：展示人们在各种场合都戴着 Vision Pro——工作时、洗衣时、与孩子玩耍时。其雄心勃勃的目标是在现实世界中叠加应用和信息，以此增强现实感。

January 30, 2024

从历史伟大研发实验室获得的经验教训 [译]

关于最初的电气和杰出应用研发实验室，其历史分析能给 Answer.AI 带来什么启示，以及他们可能面临的风险

January 30, 2024

如果你觉得自己不够聪明，也缺乏才华，该如何行动 [译]

这篇博客是为那些渴望做出重要成就或对工作有所贡献，却觉得自己不够聪明或缺乏才能的人而写的。

January 30, 2024

在 Copilot 的协助下编程白皮书——2023 年的数据显示了代码质量面临的挑战 [译]

2023 年是 GitHub Copilot 大放异彩的一年。在短短不到两年的时间里，这款 AI 编程助手已从一个初步的原型迅速成为众多开发者和企业中不可或缺的重要工具 [1]。它的迅猛发展开启了编写代码的新纪元。GitHub 已经发布了数份关于 AI 如何影响软件开发的增长和影响的研究。他们的一项重要发现是，开发者在使用 Copilot 时，编码速度提升了“55%”。面对大量由 LLM 生成的代码，我们不禁要问：这些代码在质量和可维护性上与人工编写的代码相比如何？它们是不是更像经验丰富的高级开发者的精心作品，还是更接近短期合同工的零散拼凑？为此，GitClear 收集了从 2020 年 1 月到 2023 年 12 月之间的 153 百万行代码变更记录 [A1]。这是目前已知最大的用于分析代码质量差异的高度结构化代码变更数据集 [A2]。我们发现了一些关于代码可维护性的令人担忧的趋势。代码变更率 —— 指在编写后不到两周就被修改或撤销的代码行所占的比例 —— 预计在 2024 年将是 2021 年 AI 出现之前的两倍。我们还发现，“新增代码”和“复制/粘贴代码”的比例相比于“更新的”、“删除的”和“移动的”代码在上升。从这个角度看，2023 年生成的代码更像是一位临时的贡献者，容易打破代码库的“不重复原则”（DRY-ness）。我们以一些针对管理者如何在这种逆流中保持代码高质量的建议作为本文的总结。

January 29, 2024

makeMoE：从零开始打造一个稀疏混合专家语言模型 [译]

本文将带您一步步实现一个稀疏混合专家语言模型。这个项目受到了 Andrej Karpathy 的 'makemore' 项目的启发，并在很大程度上基于它，借鉴了许多可重用的组件。与 'makemore' 类似，'makeMoE' 也是一种自回归的字符级语言模型，但它采用了所谓的稀疏混合专家架构。文章的后续部分将详细介绍这种架构的关键要素及其实现方式。我希望您通过阅读本文并实践代码，能对整个系统的工作原理有一个直观的了解。

January 29, 2024

让 AI 来评估你的简历 [译]

最坏情况能有多糟？

January 29, 2024

他人即地狱：大型科技公司的绩效管理 [译]

本文讨论了大型科技公司中的绩效管理问题，特别是与解雇和奖励决策相关的复杂过程。作者指出，尽管普遍认为大型科技公司想要营造一种残酷的竞争环境，但在资金充足的快速成长公司里，解雇平庸员工并非内在动力。绩效管理过程对管理者造成压力，且可能伤害士气、增加法律风险，并导致机构知识的流失。文章还提到了员工对公平的执着，以及管理者如何处理下属之间的比较和感知不公。早期，绩效管理通常由经理决定，但这导致了一些问题，例如偏袒和严厉的评价不一。谷歌在其早期尝试了基于同事评价的绩效管理系统，这种模式逐渐被其他科技公司采纳。然而，这种方法并未带来预期的益处。大多数员工的反馈都是积极且平庸的，真正的差劲表现者或社交技能不佳者成为例外。为了解决这个问题，管理者不得不“解读”反馈以进行排名，用于决定解雇、晋升和奖金。尽管看似由同事驱动，实际上大部分重要决策仍由经理做出。文章最后指出，这种由谷歌发起的绩效管理流程并没有比它试图取代的系统表现得更好。它只是将经理层面的偏袒指控转换为更大的阴谋论，而且对于维持高水平的晋升标准所付出的代价也很高。

January 29, 2024

使用 AI 学习编程时，切记还需独立思考 [译]

计算机科学教师和软件专家对机器学习辅助工具的建议

January 28, 2024

构建企业级 RAG 系统的高级指南 [译]

January 27, 2024

WebVoyager：借助强大多模态模型，开创全新的网络智能体 [译]

随着大语言模型 (LLMs) 的突飞猛进，一个以真实世界中的自动化应用为核心的新时代已经来临。这一时代的特点是推动了基于网络的先进智能体的发展。目前市面上的网络智能体大多只能处理单一输入模式，并且它们的性能通常仅在简化的网络模拟环境或是静态的网络快照中得到评估，这大大限制了它们在实际应用中的有效性。为了解决这一问题，我们推出了 WebVoyager：一个创新的、由大型多模态模型 (LMM) 驱动的网络智能体。WebVoyager 能够通过与现实世界中的网站交互，全面完成用户的各项指令。此外，我们还提出了一种新的评估协议，用于应对开放式网络智能体任务自动评估中的种种挑战。我们利用 GPT4V 的强大多模态理解能力，从 15 个广泛使用的网站中收集真实世界任务，作为衡量我们智能体性能的新基准。测试结果显示，WebVoyager 的任务完成率高达 55.7%，明显优于 GPT4 (含所有工具) 以及仅文本模式的 WebVoyager，这充分证明了它在实际应用中的出色能力。我们的自动评估方法与人类评判的一致性高达 85.3%，为网络智能体在真实世界环境中的进一步发展奠定了坚实的基础。

January 27, 2024

AI 时代下，用户体验面临的复杂性挑战 [译]

2023 年标志着计算技术新纪元的开始。迄今为止，生成式 AI 主要关注于技术层面的发展。同时，大多数 AI 产品仍然在使用最初模型提供商设计的聊天界面，就像早期个人电脑时代的命令行界面，这对用户提出了较高的要求。

January 27, 2024

AI 不仅仅是一个功能 [译]

从 Blockbuster 的失败中学到的整合 AI 的智慧，以及为何光靠✨（闪光表情符号）不够。

January 26, 2024

自动驾驶：通用人工智能（AGI）的案例研究 [译]

随着大语言模型（LLMs）的进展，最近人们越来越多地讨论通用人工智能（AGI），包括它的发展趋势和可能的面貌。这些讨论既有乐观的期待，也有对未来充满担忧的声音。但遗憾的是，这些讨论往往过于抽象，导致大家在讨论中各说各话，难以达成共识。因此，我一直在寻找具体的例子和历史先例来更实际地探讨这个话题。当被问及我对 AGI 的看法时，我通常会举自动驾驶为例。在这篇文章中，我想解释这样做的原因。

January 25, 2024

借助 NEAT（非运动性活动热量消耗）的方法，不去健身房也能变得更健康 [译]

在日常生活中融入运动，比如骑车通勤或做家务，是一种巧妙的燃脂方式。这就是所谓的 NEAT（非运动性活动热量消耗）的理念。

January 24, 2024

Loro 富文本 CRDT 的介绍 [译]

React 服务组件为 React 引入了专属于服务端的强大功能。我在 Next.js 13 和 14 的应用中实践了这一新范式，接下来是我对其的真实评价。之前我一直在犹豫是否要发表这篇文章，因为 React 社区过去对待批评的态度让我有所顾虑。但最近，我认为分享我的看法变得尤为重要，特别是在我发现大多数现有批评要么记录不充分，要么基于对此技术的不熟悉。写下这篇文章，我是站在一个非常重视用户体验的角度。虽然我也关注开发者的体验，但我始终认为用户体验是最重要的。

January 24, 2024

MemGPT：将大语言模型转变为操作系统 [译]

大语言模型（LLM）已经在人工智能领域带来了革命性的变化。然而，它们的应用受限于处理信息的上下文窗口较小，这在执行长对话和文档分析等任务时尤其成问题。为了突破这一限制，我们提出了一种名为虚拟上下文管理的新技术。这种技术借鉴了传统操作系统中层次化内存系统的理念，能够通过在不同速度的内存间转移数据，从而扩展大语言模型处理信息的能力。基于这种技术，我们开发了 MemGPT（Memory-GPT），这是一个智能系统，它能够有效地在大语言模型本身有限的上下文窗口内提供更广泛的上下文信息。此外，MemGPT 还采用中断机制，以优化系统与用户间的交互控制流。我们在两个重要领域对这种受操作系统启发的设计进行了评估：一是文档分析，在这一领域，MemGPT 能够处理远超大语言模型本身上下文限制的庞大文档；二是多回合对话，在这里，MemGPT 能够构建出能够记忆、反思并在与用户长期互动中不断进化的对话智能体。

January 24, 2024

彼得·林奇：懂得放手的智慧 [译]

“我记得那天站在雨中\[观看我女儿的足球比赛]，为她加油助威，心里想着，‘我希望能有更多这样的时刻。’”

January 23, 2024

成功人士共有的秘诀，亿万富翁 CEO 揭秘：“这是我决策的法宝” [译]

你有没有遇过那种似乎总能预知事情结局的人？他们并不是能预见未来的通灵者。其实，他们的秘诀在于洞察生活中的规律，这正是许多成功人士的共同技能，亿万富翁迈克尔·鲁宾就是这样的人。

January 23, 2024

职场忠诚之终结 [译]

探究当前工作环境的失衡 —— 以及其可能的解决之道

January 22, 2024

两个一文不名的学生怎样将一个想法变成珠宝行业每月 3 万美元的成功故事 [译]

大家好，我是 Joosep Seitam。今天我要跟各位创业者分享一个故事：就是我如何从一个大胆的想法出发，在短短 8 个月内，让我在珠宝行业的月收入达到了 3 万美元。我和我的合伙人 Martin Kardi 一起创办了一家专门销售镀金榴石嘻哈珠宝的公司。我们的产品主要针对居住在美国的非裔群体。我们销售的是一种非常特别的珠宝，即嘻哈风格的珠宝。仅仅 8 个月，我们就通过搜索引擎优化（SEO）的方式，将公司收入提升到了每月 3 万美元。在这个过程中，我们的网站每月自然访问量已经超过了 1 万次。这是两年前的我和 Martin，那时我们一贫如洗，对未来一无所知……

January 22, 2024

我每天是如何使用 ChatGPT 的（从科学家和开发者的视角） [译]

我每天在专业和个人生活中都使用大语言模型，我发现它们是极好的工具——它们不仅提高了我的工作效率，更让我在使用技术时感到愉快和满足，经常让我会心一笑。如果它们对我有帮助，那它们就不可能是无用的（除非我的经验毫无价值，那么你也就没必要读这篇文章了）。而那些怀着好意参与这类讨论的人会问我，“那么，你是怎么使用这些工具的呢？”因此，我查看了我过去一个月的 ChatGPT 使用记录，并将在这里列举一些用途。

January 22, 2024

利用 AI 教学哈佛 CS50 课程 —— 在计算机科学教育中的生成式人工智能应用 [译]

2023 年夏，我们在哈佛大学的 CS50 课程中引入了一套 AI 软件工具。这些工具最初面向大约 70 名夏季课程的学生，随后向数千名线上学生开放，并在同年秋季扩展到校园的数百名学生。遵循课程政策，我们鼓励学生使用这些专为课程设计的工具，同时限制了他们使用 ChatGPT、GitHub Copilot 以及新版 Bing 等商业 AI 软件。我们的目标是通过软件实现接近 1:1 教师对学生的比例，使每位学生都能随时拥有一位以教学为导向的学科专家助手。这些工具的设计目的是引导学生探索解决方案，而非直接给出答案。学生对这些工具的反响积极，他们表示这就像拥有了一位“个人导师”。我们的研究发现，将 AI 有策略地融入教育环境可以通过提供持续的个性化支持，提升学习体验，并帮助教育者解决更复杂的教学难题。在本文中，我们将详细讲述 AI 工具如何在 CS50 课程中提升教学和学习效果，主要涉及代码片段解释、代码风格改善，以及对课程讨论论坛上的课程内容和行政问题的精准回应。此外，我们还将分享我们的方法论、实施细节，以及对那些考虑在教育领域应用这些工具或 AI 技术的人的建议。

January 21, 2024

聊天机器人性能革新：探索三大 RAG 性能提升策略 [译]

在我们深入 RAG 聊天机器人系列的最后几章之前，许多逐步构建聊天机器人的读者可能遇到了一些疑问。比如，在不追求快速反应、而更看重准确回答的情况下，比如医疗类聊天机器人，我们应该如何做？今天，我们要介绍三种不同的技术，它们专注于在特定技能上提升聊天机器器人的整体性能。重要的是，本节我们将不采用任何开源库或工具。这一选择是刻意为之，主要是为了关注性能优化这一核心议题。尽管这些技术对于聊天机器人的功能来说是可选的，但它们对于对性能有特别要求的用户和企业而言却非常关键。在本次讨论中，我会通过代码片段来详细说明每种技术。所有这些代码片段都可以轻松地融入之前文章中的代码，使得实施过程变得无比简单。如果您觉得这些示例对您的机器人项目有帮助，请随意使用。以一个为最终用户提供棋盘游戏信息的聊天机器人为例，我们来具体看看这些技术是如何应用的。

January 21, 2024

你的职业生涯衰退或许比你想的更早到来 [译]

“其实并不是没人再需要你。”这番话出自我身后的一位年长女士之口，当时我们正乘坐从洛杉矶飞往华盛顿特区的深夜航班。飞机里暗淡且静谧。她旁边的男士小声回应，声音几乎听不清，大意是“我宁愿已经死了。”她再次开口：“别那么说。”我原本无意偷听，但他们的对话不禁引起了我的极大兴趣。我脑海中开始描绘这位男士的形象，想象他是一位默默无闻却终身勤勉工作的人，怀揣着未曾实现的梦想——或许是未获得的学位，未追求的职业生涯，未创办的公司。当飞机降落、灯光亮起，我终于见到了那位绝望的男士。让我震惊的是，他是我认识的——一位世界知名的人物。那时他已经 80 多岁，曾因多年前的勇气、爱国精神和成就而被众人爱戴。他从我身后走过飞机走道时，其他乘客纷纷带着敬意向他致意。当他站在驾驶舱门口时，飞行员拦住他说：“先生，我从小就非常敬佩您。”就在几分钟前还渴望死亡的老人，在得到过去荣耀的认可时，脸上露出了自豪的笑容。

January 21, 2024

谷歌的文化转变 [译]

在过去几个月中，我尝试了三次撰写这篇文章；这是个复杂的话题。公众总是乐于看到大公司，特别是那些自负的硅谷科技公司被批评，他们喜欢看“失宠”的故事。但我并不想抹黑谷歌。尽管如此，谷歌依然是一个出色的工作环境，远胜过大多数其他公司，并且依然在创造惊人的成就。我的目的是想分享谷歌发生的一些独特而美好的事情，希望这些美好能在未来的某个地方重现。毫无疑问，谷歌早期的日子是非常特别的。我特意保存了一封电子邮件长达 18 年，直到我离开公司那天，因为我知道它会是一段有趣的历史对比。这封邮件主要描述了一些表面的差异，比如免费的美食。但这并不是谷歌员工来上班的主要原因。我想深入探讨的是谷歌文化中更深层次、更有意义的方面。

January 21, 2024

知识密集型自然语言处理任务的检索增强生成技术研究 [译]

在自然语言处理领域，大型预训练语言模型因能存储大量事实知识而备受关注，尤其是在针对具体任务进行细致调整后，它们的表现尤为出色。不过，这些模型在获取和准确使用知识方面仍有所不足，特别是在那些需要大量知识的任务上，它们的效果还不如专为特定任务设计的系统。此外，如何为这些模型的决策提供依据，以及如何更新它们所掌握的世界知识，仍是目前研究中的难题。迄今，研究人员已经探索了在提取型任务中应用具有可微分存取机制的非参数记忆的预训练模型。本研究则是针对检索增强生成（Retrieval-Augmented Generation, RAG）的通用调整方法进行探讨。这种方法结合了预训练的参数记忆（如 seq2seq 模型）和非参数记忆（例如，通过预训练神经网络检索器访问的 Wikipedia 的密集向量索引）。我们对比了两种 RAG 方法：一种是在整个生成过程中使用相同的检索内容，另一种则在生成的每个部分可能使用不同的内容。我们对这些模型在多种知识密集型任务上进行了细致的调整和评估，在几个开放领域的问答任务上取得了领先成绩，超过了传统的 seq2seq 模型和专门为特定任务设计的检索 - 提取系统。在语言生成任务中，我们发现 RAG 模型能产生更具体、多样化且符合事实的语言，相比之下，传统的只依赖参数的 seq2seq 模型则显得逊色。

January 19, 2024

AlphaCodium：引领代码生成新境界，从提示工程到流程工程 [译]

代码生成的难题与普通的自然语言处理不同 —— 它们涉及严格遵循目标编程语言的语法规则、识别正常和边界情况、关注问题规范中的众多细节，并应对代码特有的其他问题和需求。因此，自然语言生成领域的许多常用优化技巧对代码生成任务来说可能并不适用。在这项研究中，我们提出了一种全新的代码生成方法，名为 AlphaCodium —— 一种基于测试、分阶段、专注于代码的迭代处理流程。这种方法显著提升了大语言模型 (LLM) 在处理代码问题上的能力。我们在一个具有挑战性的代码生成数据集 CodeContests 上进行了 AlphaCodium 的测试，这个数据集包含了来自 Codeforces 等平台的竞赛编程题目。我们的方法在这些测试中始终保持着显著的性能提升。例如，在验证数据集上，使用 AlphaCodium 流程后，GPT-4 的准确率（pass@5）从单一精心设计的直接提示的 19% 提升到了 44%。AlphaCodium 在性能上不仅超越了之前的研究成果，如 AlphaCode，而且所需的计算资源也大大减少。我们认为，在这项工作中形成的许多原则和最佳实践普遍适用于代码生成的各种任务。我们在最新开源的项目 AlphaCodium 中分享了我们针对 CodeContests 的 AlphaCodium 解决方案，并提供了完整的数据集评估和基准测试脚本，以便社区进一步研究和探索。

January 18, 2024

人工智能迎战数学奥林匹克的新挑战 [译]

高中数学奥林匹克选手们要注意了，AlphaGeometry 正在挑战你们在数学领域的成就。

January 17, 2024

大语言模型抽象简明指南 [译]

这里为您提供了一些建议和技巧，旨在提高大语言模型应用的精准度，并介绍了选择合适大语言模型的要点。

January 17, 2024

AlphaGeometry：一款具有奥林匹克水平的几何 AI 系统 [译]

在今日发表于《自然》杂志的论文中，我们介绍了 AlphaGeometry，这是一款能够解决复杂几何问题的 AI 系统，其能力已接近人类奥林匹克金牌选手的水平，标志着 AI 性能的一个重大突破。在对 30 个奥林匹克几何问题的基准测试中，AlphaGeometry 在规定的奥林匹克时间内解决了 25 个问题。相比之下，之前的最先进系统只解决了其中的 10 个问题，而平均水平的人类金牌选手能解决 25.9 个问题。

January 17, 2024

半人马与赛博格：在未来工作的前沿 [译]

作为生成式 AI 软件的典型代表，ChatGPT 模仿人类的效果非常惊人。它象征着研究领域的一个可能的新纪元，但同时也伴随着风险。

January 17, 2024

新员工为何通常比老员工薪资高 [译]

在我职业生涯中，最令我震惊的一刻是发现，我在标准普尔资本智能公司（S&P Capital IQ）工作时，一位新同事的薪资竟比我高。有一天，我随口问他：“你的薪水有多少？”当得知他比我多挣 40,000 美元时，我既感到不满，又嫉妒，更觉得自己不被重视。同等职位和经验，他怎会挣得比我多 40%？此后，我开始提早离开办公室，心想自己的薪酬并不公平。几个月后，我选择离开了公司。尽管公司试图以晋升和加薪挽留我，但我已感受到了深深的冒犯，伤害无法弥补。

January 16, 2024

Scrum 的问题所在 [译]

最新观点：Scrum 存在问题。

January 16, 2024

构建基于大语言模型的系统与产品的策略 [译]

“有些问题看起来易于构想和展示原型，但将其发展成实际产品却极为艰难。比如自动驾驶：展示一辆汽车在街区自动行驶很简单，但要把这一技术转化为成熟的产品却需要十年时间。”本文旨在探讨如何将大语言模型（LLMs）有效地融入系统和产品中。我们将汇集学术研究、行业资源及实践者的经验，提炼出一些关键的观点和做法。

January 16, 2024

我们将 10% 的资源投入偿还技术债务；这是我们的收获 [译]

为什么以及如何我们持续地投入团队的努力来解决技术债务？结果又如何呢？任何长期维护软件的人都会意识到，随着时间的推移，软件似乎逐渐“腐朽”。防止这种情况的发生，需要付出刻意的努力。本文我将分享一个团队如何成功应对这一挑战，并提供一些实际的操作建议。

January 16, 2024

引领语言智能：从思维链推理到语言智能体的探索指南 [译]

大语言模型 (LLMs) 在语言智能领域取得了重大进展，尤其在多项复杂推理任务上展现出了卓越的实证性能。理论上的证明也表明了它们在语言处理中的高级认知能力和涌现推理能力。在处理复杂推理任务时，大语言模型 (LLMs) 的关键在于它们采用了引人注目的思维链 (CoT) 推理技术，这种技术要求它们在推导答案的过程中构建中间步骤。CoT 推理不仅在提升推理性能上表现出色，也在增强可解释性、可控性和灵活性方面有显著贡献。鉴于这些优势，近期的研究将 CoT 推理方法应用于自主语言智能体的开发，使这些智能体能够熟练地遵循语言指令，在不同环境中执行任务。这篇综述文章全面探讨了这一领域的关键研究方向，包括：(i) CoT 技术的基础原理，重点解释其有效性的原因；(ii) CoT 的范式转变；及 (iii) 使用 CoT 方法增强的语言智能体的新兴趋势。未来研究的方向包括探索智能体的泛化能力、效率、定制化、规模扩展和安全问题。我们希望通过这篇文章，使读者全面了解 CoT 推理和语言智能体这些研究领域，并理解它们之间的联系。本文适合各个层次的读者，无论是希望全面了解 CoT 推理和语言智能体的新手，还是对这些领域的基础原理感兴趣、想参与最新讨论的资深研究者。

January 15, 2024

深入浅出：大语言模型的视觉解析 [译]

在先前的文章中，我们探讨了如何利用 ChatGPT 进行主题建模，并取得了显著成效。我们的任务是分析酒店连锁的客户评价，找出其中的主要议题。在之前的尝试中，我们运用了标准的 ChatGPT 完成 API 并亲自编写了原始提示。这种方式对于一些特定的分析研究非常有效。但如果你的团队正在积极地关注和分析客户评价，采取一些自动化措施是非常有益的。优秀的自动化不仅可以帮助你构建一个独立的流程，还能提供更便捷的体验（即便是不懂大语言模型和编程的团队成员也能轻松获取数据），同时还更加节省成本（你只需一次性向大语言模型发送所有文本并支付费用）。如果我们要构建一个可持续发展的、准备投入生产的服务，那么利用现有的框架来减少编写辅助代码的工作量，并实现更模块化的解决方案是非常值得的（例如，我们可以轻松地从一个大语言模型切换到另一个）。在本文中，我将介绍一个非常流行的大语言模型应用框架 — LangChain。我们还将详细了解如何评估模型的性能，这对于商业应用来说至关重要。

January 14, 2024

脉动观察：美国的公司会因为税法第 174 条款而减少招聘工程师吗？ [译]

去年十月，我们研究了由软件工程师创立的自助资金公司，并引起了广泛关注。很多自助资金的创始人在那期之后给我发来了消息。这些消息中，很多都是对所谓的“税法第 174 条款变更”表示不满。一位创始人这样说道：“你听说过美国税法第 174 条款近年的变更吗？这个变更使得自助资金的软件公司难以为继。简单来说，所有研发相关的成本，包括软件开发人力成本，都不能立即计为费用。这些成本必须资本化，然后在 5 年内摊销 — 若是在美国境外完成的工作，摊销期甚至要 15 年。我不得不说，这个变化太荒谬了。我所接触的每个人都有同样的看法。我想知道，你在和其他自助资金公司的交流中有无遇到过此类话题？”为此我进行了调查，《华尔街日报》和其他一些新闻机构从去年三月开始已经报道了这一变更。但联系我的创始人们表达了一个观点：公众对这个税改可能造成的巨大问题意识不足。去年四月，Ben Thompson 在 Stratechery 报道了这一变化，他也对受影响公司对这项法规知之甚少感到惊讶：“我很惊讶，在科技行业内很少有人知道这个问题，至少在我私下进行的对话中是这样，尽管初创企业可能是受影响最严重的。”

January 14, 2024

大语言模型在长上下文中的信息检索应用 [译]

大语言模型的上下文窗口扩展最近变得非常流行。而长期以来，结合信息检索和大语言模型的方法也受到关注。这引发了几个问题：*i) 在下游任务中，到底是信息检索增强更好，还是长上下文窗口更有优势？* *ii) 能否将这两种方法结合，以吸取各自的长处？* 我们通过研究两种领先的预训练大语言模型——43B GPT 和 LLaMA2-70B，来探讨这些问题。有趣的是，我们发现，即使是使用简单的信息检索增强，在长上下文任务中具有 4K 上下文窗口的大语言模型也能达到与经过特别优化处理、具有 16K 上下文窗口的大语言模型相媲美的表现，而且所需的计算资源更少。更为重要的是，我们证明了信息检索技术能显著提升大语言模型的性能，无论其上下文窗口的大小如何。我们最优秀的模型——结合了信息检索技术的 LLaMA2-70B，并拥有 32K 的上下文窗口，在包括问答和基于查询的摘要在内的七项长上下文任务上，其平均得分超越了 GPT-3.5-turbo-16k 和 Davinci003。与此同时，这个模型在生成速度上也比它的非检索版 LLaMA2-70B-32k 快得多。我们的研究为那些在信息检索增强与大语言模型长上下文扩展之间做选择的从业者提供了宝贵的洞见。

January 14, 2024

January 6, 2024

当我们回顾过去一年，我们的视角转向 2024 年开发者生产力的发展趋势，这包括平台工程的创新、AI 的辅助作用以及对这些因素的量化评估。

January 5, 2024

软件工程师的薪酬来源可以分为三大类预算。这些预算不仅决定了你日常的工作性质，还会影响你的职业发展路径。我认为，这就像是一条商业界的自然法则。这种模式的形成并不需要任何人有意识地去选择。

January 4, 2024

到目前为止，AI 在科学领域最大的成就莫过于 AlphaFold 2 系统。这是一个深度学习系统，它在解决一个基础科学难题上取得了巨大进步：从蛋白质的氨基酸序列预测其三维结构。这一重大突破促进了分子生物学领域深度学习革命的持续进行。这不仅对分子生物学家来说意义重大，而且我认为它对整个科学领域都极具意义，因为它是一个具体的实例，展示了人工智能如何影响科学发现。在这个简短的报告中，我将探讨几个问题：如何验证这样的系统？它们能否帮助我们找到人类科学家可以学习的普遍原则？一个优秀的理论或解释应该包含哪些内容？本次讲座主要关注现有成果和近期发展，而非长远未来。然而，我希望它能帮助我们更好地理解未来的长期走向，以及 AI 系统所带来的好处和风险。

December 30, 2023

AI 论战的荒谬（并且，不，AI 不会在类似于计算机般的时间尺度上进行递归自我完善） [译]

December 29, 2023

如何高效管理远程团队中的初级开发者 [译]

初级软件开发人员 (junior software developers) 正面临一个充满挑战的就业市场。远程工作的广泛普及、大量裁员以及人工智能 (AI) 的崛起为这一行业的新入行者带来了不少难题。以下内容介绍了如何帮助这些初入行的新人在职场上茁壮成长。

December 29, 2023

“无发明，无创新”：美国钢铁公司的历史 [译]

上周，美国钢铁公司宣布将被日本的日本制钢公司收购。这一转折点让我们有机会回顾一下这家曾是美国乃至世界上最大、最重要的公司是如何逐渐走向衰落的。在收购消息公布之前，美国钢铁的市值大约为 80 亿美元，连进入《财富》杂志的 500 强都不够（排在大约第 690 位，比 Texas Roadhouse 连锁餐厅还要低）1。自成立以来，这家公司的市场份额和影响力一直在缓慢但稳定地下降。1901 年成立时，它不仅是世界上最大的公司，还生产了美国近三分之二的钢铁。而今天，它的钢铁产量只占美国的 12%，大约只有 1955 年的三分之一，而且雇员人数与在线宠物用品零售商 Chewy 相当。这家曾经的工业巨头是怎样一步步走向衰落的呢？让我们来探究一下。

December 29, 2023

December 23, 2023

如何加速大语言模型的运行 [译]

December 23, 2023

人工智能预测生活事件 [译]

通过分析居住、教育、收入、健康及工作条件的注册数据，人工智能可以高精度预测生活中的各种事件。

December 22, 2023

利用 AI 技术，MIT 研究人员发现新一类抗生素候选物 [译]

麻省理工学院研究人员应用一种名为深度学习的人工智能技术，成功发现了一系列能够杀灭导致美国每年超过 10,000 人死亡的耐药性细菌的化合物。

December 22, 2023

人工智能，2023 年文化的新霸主 [译]

2023 年的事件向我们揭示了这样一个事实：A.I. 不必非常先进就能引发巨大的波澜。

December 22, 2023

面向大语言模型的检索增强生成技术：综述 [译]

在这篇综述中，我们关注的是面向大语言模型（Large Language Model）的检索增强生成技术。这项技术通过结合检索机制，增强了大语言模型在处理复杂查询和生成更准确信息方面的能力。我们从同济大学和复旦大学的相关研究团队出发，综合分析了该领域的最新进展和未来趋势。

December 22, 2023

AppAgent: 像人类用户一样操作手机的多模态智能体 [译]

大语言模型 (LLMs) 的最新进展催生了一类能够执行复杂任务的智能代理。本文提出了一种基于大语言模型的多模态代理框架，专为智能手机应用而设计。我们的框架允许智能体通过简化的动作范围，如点击和滑动，来操作智能手机应用，仿佛它是一个人类用户。这种创新方法免除了访问系统后端的需要，使其能够适用于多种不同的应用。我们的智能体采用了一种创新的学习方法：它可以通过自我探索或观察人类的操作来学习如何导航和使用新的应用程序。通过这个过程，它建立了一个知识库，用于在不同应用中执行复杂任务。为了证明我们智能体的实用性，我们在 10 个不同的应用中进行了 50 项任务的测试，涵盖了社交媒体、电子邮件、地图、购物和高级图像编辑等领域。测试结果证明了我们的智能体在处理多种高级任务方面的高效能。

December 22, 2023

Midjourney V6：提升提示词的结构和表达能力 [译]

Midjourney 的创始人 David Holz 提出了一种新的提示方法。V6 对提示的敏感度大大提高。建议避免使用“获奖、超现实、4k、8k”等表述，而应确保请求明确。如果你希望得到更直接、更中立且更现实的输出结果，最好将 --style raw 设置为默认。（原文中直言不讳地将 4k、8k 等描述称为“无用”提示。"V6 对你的提示非常敏感。避免使用‘无用’的表述，如‘获奖、超现实、4k、8k’"）

December 22, 2023

2024 年软件工程 KPIs 的问题及其解决之道 [译]

成为一名工程领导者，你不可避免地会面临一个挑战：必须提供关于团队健康、生产力和产出的度量指标。在初创公司里，这通常是 CEO 提出的要求——“我们需要一个清晰的进展衡量方式”。这个要求看似合理，毕竟工程部门也应该像销售团队一样被问责。

December 22, 2023

CEO 与他的三个秘密信封 [译]

一家陷入困境的公司聘请了一位新 CEO。在即将离职的 CEO 私下与他见面时，递给他三个编号的信封，并告诉他：“如果遇到大麻烦，就翻开这些信封。”

December 22, 2023

AI 代理中间件：不完美的临时解决方案 [译]

现有的监控、模型路由和提示管理架构尚不足以应对挑战。让我们来谈谈现在的情况。在大语言模型的操作流程中，正逐渐出现一个新概念：AI 代理中间件。

December 21, 2023

认识“Coscientist”，你的 AI 实验室伙伴 [译]

一款基于人工智能的系统成功地规划并实施了真实世界的化学实验，显示出帮助人类科学家更快、更多地发现新知识的潜力

December 21, 2023

Gemini 语言能力深度剖析 [译]

Google 最近发布的 Gemini 系列模型首次全面展示了在多种任务上能与 OpenAI 的 GPT（生成式预训练转换器）系列相匹敌的性能。本文深入探讨了 Gemini 的语言处理能力，并做出两项重要贡献。首先，我们提供了一个第三方的客观比较，分析了 OpenAI 的 GPT 与 Google 的 Gemini 模型的能力，这一比较包括可复现的代码和完全透明的结果。其次，我们深入分析了实验结果，找出了两种模型类别的优势所在。我们针对 10 个数据集进行了分析，测试了包括推理、回答知识性问题、解决数学问题、进行语言翻译、代码生成和作为遵循指令的 AI 智能体等多种语言能力。通过这项分析，我们发现 Gemini Pro 的准确度虽接近，但略低于对应的 GPT 3.5 Turbo，在我们所评估的所有任务中均是如此。我们还提供了一些导致这种次优表现的原因，包括在处理多位数字的数学推理上的不足、对多项选择题答案排序的敏感性、过于严格的内容过滤等问题。同时，我们也发现了 Gemini 在某些方面的高效表现，例如生成非英语内容以及处理更长、更复杂的推理链条。

December 21, 2023

数学队——及其他你为了进入斯坦福而做出的疯狂之举 [译]

我清晰地记得被普林斯顿大学拒绝的那一刻。那时我正在数学队的训练中，爸爸打来电话。他告诉我，提前录取通知已经到了。他没有提及信封的大小 - 大信封意味着被录取，小信封则代表被拒绝 - 我努力不去揣测他语气中的意味。我让他马上来接我。当他在回家路上想停下来加油时，我情绪失控地对他发脾气。回到家，我打开了那个小信封，似乎早就知道会是这样。我匆匆看过前几行 - 对此我们感到遗憾，申请者群体极为出色等等 - 我咒骂一声，拿起刀子猛刺进我的梳妆台。然后，我对着枕头尖叫。其实，并不是我非去普林斯顿不可，只是我渴望这一切早点结束。

December 21, 2023

构建“Mistral 7B 微调优化版”：最优秀的 7B 微调模型 [译]

自 9 月份推出以来，Mistral 7B 已成为我们向客户推荐最多的模型。今天，我们兴奋地宣布一个更加强大的版本：Mistral 7B 微调优化版。

December 21, 2023

在本地运行 Mixtral 8x7 与 LlamaIndex [译]

在 LlamaIndex，我们是开源软件的忠实支持者，因此像 Mixtral 这样开放的模型和具有灵活授权的项目正合我们心意。我们收到了不少关于如何将 Mixtral 与 LlamaIndex 结合使用的咨询，因此本文将指导你如何在本地完全独立地运行这一模型。

December 21, 2023

代码并非技术债 [译]

代码是一种资产，技术债则是指软件 _及其内部模型_ 与实际问题和我们的心理模型不相符，或者是内部接口并未能尽可能减少假设的情况。

December 21, 2023

未来属于 Rust —— LLM 使编程语言学习曲线变平 [译]

现在，得益于大语言模型（LLMs）的发展，这个陡峭学习曲线的问题已经变得容易解决了。无论是 Rust、Haskell 还是其他任何语言，借助大语言模型的帮助，现在学习起来都更加容易。事实上，如果你在学习难懂的材料时没有利用大语言模型（LLMs）的帮助，那么你的学习方式可能不是最佳的。至少这是我个人的看法。让我来解释一下。

December 21, 2023

我从未设定过目标 [译]

我们大多数人之所以大多时候不开心，是因为我们设定的目标是基于当前的自我，而不是设定目标时未来的自我。

December 21, 2023

OpenAI 首席科学家创造 ChatGPT 的同时，对 AI 安全心存忧虑 [译]

这篇文章选自《自然》杂志的年度特辑《Nature's 10》，该特辑由杂志编辑精选，聚焦科学领域的重大进展及其贡献者。

December 20, 2023

为何有科学家不用 ChatGPT？他们这样说 [译]

许多研究者发现，AI 聊天机器人在写作、编程和收集信息等方面颇有帮助。然而，还有一些人却选择远离这一风潮。

December 20, 2023

Yann LeCun 对 AI 安全论证的五大失误 [译]

Yann LeCun，著名社交媒体公司 Meta 的首席 AI 科学家，坚信人工智能（AI）本质上是安全的，认为智能属性本身不会自动导致负面后果。他认为 AI 的对齐问题（Alignment）不是需要解决的难题，而仅仅是在发展过程中对系统进行细微调整。

December 20, 2023

通用型基础模型能否超越专用调整模型？医学领域的案例研究 [译]

像 GPT-4 这样的通用型基础模型在众多领域和任务中表现出惊人的能力。但人们普遍认为，除非经过专业知识的深度训练，这些模型无法达到专家级别的性能。例如，到目前为止，大多数针对医学能力基准的探索都采用了特定领域的训练，如 BioGPT 和 Med-PaLM 的研究。我们的研究延续了之前对 GPT-4 在医学领域的专业能力进行的探索，但我们并没有对其进行特别训练。不同于仅使用简单的提示来展示模型的即插即用能力，我们系统地探索了如何通过精妙的提示设计来提升模型性能。我们发现，创新的提示方法能够激发更深入的专家级能力，并证明 GPT-4 在医学问答数据集上轻松超越了以往的最佳成绩。我们研究的提示设计方法是通用的，无需特定领域知识，省去了专家定制内容的需求。在实验设计中，我们特别注意控制过拟合现象。研究的重点是我们推出的 Medprompt，它结合了多种提示策略。Medprompt 极大地提升了 GPT-4 的性能，在 MultiMedQA 套件的九个基准数据集上均取得了最佳成绩。该方法在调用模型次数少得多的情况下，大幅超过了如 Med-PaLM 2 这类先进的专业模型。在 MedQA 数据集（USMLE 考试）上，使用 Medprompt 的 GPT-4 相比以往使用专业模型取得的最好方法，错误率降低了 27%，首次实现了超过 90% 的分数。除了医学领域，我们还展示了 Medprompt 在其他领域的泛化能力，并通过在电气工程、机器学习、哲学、会计、法律、护理和临床心理学等领域的能力考试上的应用，证明了这一方法的广泛适用性。

December 20, 2023

推测性解码：实现 Whisper 推理速度提升两倍 [译]

Sanchit Gandhi 发表了一篇关于 Whisper 模型的最新研究进展。这是一个由 Open AI 开发的先进语音转录模型，能够在多种基准测试和不同的音频环境下展示出色的性能。其最新版本，名为 large-v3，已在开源语音转录模型领域名列前茅，特别是在英语转录方面表现卓越。这个模型还具备出色的多语言性能，在 Common Voice 15 的数据集中测试了 58 种语言，其中有 42 种语言的单词错误率低于 30%。

December 20, 2023

如何选择你的人生伴侣 [译]

这里为您提供了一些建议和技巧，旨在提高大语言模型应用的精准度，并介绍了选择合适大语言模型的要点。

December 20, 2023

深入了解大语言模型运维 (LLMOps) [译]

虽然关于通过 OpenAI、Anthropic、Google 等公司的 API 调用 LLM 来构建应用的文章层出不穷，但我选择了一条不同的道路，尝试仅使用本地模型和技术来构建网页应用，尤其是那些能在浏览器中运行的技术！

December 20, 2023

构建搜索引擎，而非向量数据库（Vector DB） [译]

在过去 12 个月中，我们见证了向量数据库（Vector DB）创业公司的迅猛增长。我此刻并不打算深入探讨它们各自的设计取舍。相反，我更想探讨和解释一些关于向量数据库的常见理解——它是什么、它的功能用途，以及在解决问题时，我们应如何恰当地利用向量数据库。

December 20, 2023

2023 年回顾：聚焦 ChatGPT 时代之后的发展及 2024 年展望 [译]

大语言模型 (LLM) 运营领域如何变革，以及为何尚未见到广泛应用的生成式 AI — 但 2024 年或有所改变。

December 19, 2023

2023 年：AI 改变互联网的一年 [译]

2023 年，许多人开始学习如何与机器人沟通、创造、作弊，并进行合作。

December 19, 2023

ReST 与 ReAct 的交汇：多步推理大语言模型 (LLM) 智能体的自我进化之路 [译]

在回答复杂的自然语言问题时，往往需要通过多步推理并结合外部信息。目前已有几种系统能够结合大语言模型 (LLM) 和知识检索来应对此类问题。但这些系统存在一些失败的案例，且由于与外部知识交互的过程不可导，我们无法直接对这些系统进行端到端的训练以解决这些问题。为了克服这些挑战，我们设计了一个能够理解和操控外部知识的 ReAct 风格 LLM 智能体。我们进一步通过一种类似 ReST 的方法对该智能体进行优化，这种方法通过迭代地训练前期的行为轨迹，并利用带有 AI 反馈的逐步扩大的强化学习，实现了持续的自我提高和自我简化。从一个初步设定的大型模型出发，仅经过两次迭代，我们成功打造了一个微调过的小型模型。这个小型模型在解决复杂组合问答问题上的表现可以媲美大型模型，但其参数量却少了两个数量级。

December 19, 2023

Google 真正的“登月项目”（Moonshot） [译]

Google 的各种“登月项目” ——无论是 Waymo 无人驾驶汽车，Google Fiber 光纤网络，Nest 智能家居，Project Wing 无人机配送，Verily 生命科学以及 Project Loon 网络气球等 (这个列表还会持续扩展)——其实在很大程度上，都通常看作是一些科学实验项目。它们主要是把 Google 搜索的盈利从股东手中导向了这些创新尝试。其中，Waymo 可能是最富潜力的，但即使它能获得成功，最后的结果仍然是一种远离 Google 的使命——“整理全球信息，让人们可以随时随地获取并有效利用”——的汽车服务。

December 19, 2023

VideoPoet: 能零样本生成视频的大语言模型 [译]

近期，一系列新兴的视频生成模型引起了广泛关注，它们在很多情况下展示了令人惊叹的画质。然而，在视频生成领域，如何有效制作连贯的大范围动作仍是一大难题。目前即便是最先进的模型，要么只能生成较小的动作，要么在制作较大动作时会出现明显的不自然瑕疵。

December 19, 2023

如何成就伟大？只需持续做好事情 [译]

多年来，我们每个人都经历了不少的成就与挫败。随着我个人经历的这些成就与失败越来越多，我开始思考，哪些经历真正可以称之为“伟大”以及其背后的原因。

December 19, 2023

一个永无止境的个人项目带来的启示 [译]

今年，我领悟到，完成一个仅为自己而做的个人项目几乎是不可能的挑战。不论你的创作是什么，使用哪种方式，真正明白自己到底想要什么、并且能够把它与那些自己期望拥有的欲望区分开来，是极其困难的。如果没有外界的压力，自己设定的“截止日期”基本上是没有实际意义的。而一旦开始某个项目，随着时间的推移和不断的投入，项目往往会不断扩大、发生变化，最终演变成完全不同的形态。同时，避免项目范围不断扩大也是一件难事。

December 19, 2023

跨界思考：大语言模型中创意幽默生成的新思维探索 [译]

我们构建了一个新的框架，这个框架可以帮助我们更好地理解通用人工智能（AGI）及其早期版本的能力和表现。这个框架详细划分了 AGI 的性能、适用范围和自我控制能力的不同层次。我们希望，这个框架能够像划分自动驾驶技术等级一样，为人们提供一种通用的语言，以便比较不同的 AGI 模型，评估它们可能带来的风险，并跟踪我们在实现 AGI 这一目标道路上的每一步进展。为了建立这个框架，我们审视了 AGI 的现有定义，并从中提炼出六大原则，以构建一个实用的 AGI 分类体系。这些原则强调重视 AGI 的实际能力，而不仅仅是其背后的技术机制；它们建议我们应当分开评估 AGI 的适用范围和性能水平；并且我们不应该只着眼于最终目标，而应该明确标记出通向 AGI 的每一个阶段。基于这些思路，我们根据 AGI 的能力深度（即性能）和广度（即适用范围）提出了“AGI 等级”，并且对当前系统如何符合这个分类体系进行了思考。我们还讨论了未来评估 AGI 行为和能力的基准测试所面临的挑战。最后，我们探讨了这些 AGI 的不同层次如何与实际部署时的自主性和风险管理相结合，并强调在部署高级 AI 系统时，选择合适的人机交互方式对于确保系统的负责任和安全使用至关重要。

December 18, 2023

如何借助 Ollama 在 M1 Mac 上运行 Mistral-7B [译]

想在你的 Macbook 上尝试运行 Mistral 7B 吗？这篇教程将一步步指导你如何做到！

December 18, 2023

在命令行中运行 Mistral 模型的多种方法 [译]

目前，Mistral AI 是最引人注目的 AI 研究实验室。他们最近发布了两种功能强大的小型大语言模型，这些模型遵循 Apache 2 协议授权，还有一个更大的模型可通过他们的 API 使用。

December 18, 2023

用 RAGAs（检索增强生成评估）评估 RAG（检索增强型生成）应用 [译]

探讨如何结合传统关键词搜索与现代向量搜索来获得更相关的搜索结果

December 18, 2023

ChatGPT 插件：利用图像和跨插件请求伪造技术进行数据泄露 [译]

本文揭示了恶意网站如何控制 ChatGPT 聊天会话，并窃取会话历史的方式。

December 18, 2023

利用间接提示注入技术从 Writer.com 窃取数据 [译]

这一漏洞可能导致攻击者利用内容生成时用到的语言模型，窃取用户私密文件。尽管已经向 Writer.com 报告了这一问题，但截至目前为止，由于 Writer.com 在披露后并未将其分类为安全漏洞，因此漏洞尚未得到修复（具体详情见文末“负责任披露”部分）。

December 18, 2023

顶尖 1% 工程师的七个简易习惯 [译]

我有幸与许多卓越的工程师合作过，他们既来自像 FAANG 这样的大型公司，也来自诸如创业公司这样的小型企业。他们让我领略到了传说中的“10 倍效能”工程师 - 他们确实存在！这些工程师中的一些已经创办了自己的公司，引领了像 Vercel 这样改变我们认知互联网的开发，或者在如今的大型科技公司里领导着价值数十亿美元的项目。在与他们的合作中，我发现他们在编程时都有一些共通的习惯。

December 18, 2023

工程行业中生产力的头号绊脚石 [译]

我遇到的三大生产力障碍及解决之道 + 🎁 附赠福利：多任务处理的弊端

December 18, 2023

大语言模型在帮助医生获取信息方面效果如何？[译]

斯坦福大学的专家们对 GPT-4 在辅助医生进行简便咨询方面的安全性和准确性进行了探究。

December 17, 2023

OpenAI 生产环境最佳实践官方指南 [译]

这份指南全面介绍了如何将产品原型发布到生产环境的最佳实践。不论你是资深的机器学习工程师还是刚入门的技术爱好者，这份指南都能为你提供在实际生产环境中成功应用该平台所需的各种工具和知识。内容涵盖从如何保护 API 访问安全到如何构建能应对高流量的架构。参考这份指南，可以帮助你更顺畅、高效地部署应用程序到生产环境。

December 17, 2023

如何用计算思维看待人工智能、宇宙与万物 [译]

人类的语言、数学和逻辑，这些都是我们解读世界的工具。在当今世纪，出现了一种新的、更加强大的工具：计算。在过去近 50 年中，我有幸基于这个计算概念，建立起一座越来越高的科学技术之塔。今天我想和大家分享，这一路走来，我们发现了什么。

December 16, 2023

OpenAI 官方提示工程指南 [译]

这份指南旨在分享如何更有效地利用像如 GPT-4 这样的大语言模型（有时候也叫 GPT 模型）来获得更好的结果。介绍的方法可以相互结合，以发挥更大的作用。我们鼓励你进行实验，寻找最适合你的技巧。

December 16, 2023

探讨人工智能对经济的影响 [译]

人工智能对经济的影响将受到其技术发展和实施的速度与有效性的双重影响。我们在这里分享我们对这个日渐丰富的研究领域的理解和我们如何实时跟踪这一发展趋势。

December 15, 2023

大语言模型真的需要这么多层吗？ [译]

研究表明，移除 70% 的注意力头和 20% 的前馈网络对上下文学习影响甚微，这暗示大语言模型或许训练得不够充分。

December 15, 2023

FunSearch：利用大语言模型在数学科学领域探索新奇发现 [译]

通过搜索编写在计算机代码中的“函数”，FunSearch 利用大语言模型 (LLMs) 首次在数学科学的未解之谜中取得突破

December 15, 2023

提示工程指南 [译]

发掘大语言模型 (LLMs) 的巨大潜能！🚀

December 15, 2023

提升软件工程效率的小技巧：留点悬念，让工作更流畅 [译]

4 个改变我工作效率的编程习惯

December 15, 2023

2024 年科技领域的重大创新思想 [译]

智能能源网格、语音先行的伴侣应用、可编程药品、针对儿童的 AI 工具。我们向 a16z 的超过 40 位合作伙伴征询了他们认为将在 2024 年成为创新动力的重要理念。

December 14, 2023

AI 时代的商业市场新风貌 [译]

在不断演进的市场商业模式中，每一种新兴平台都在重新定义交易的方式和地点。互联网时代，我们从传统的分类广告和布告栏转向了亚马逊（Amazon）、eBay 和克雷格列表（Craigslist）这样的网站；而移动互联网时代，则催生了 DoorDash、优步（Uber）和 Instacart 这样的应用程序。现在，生成式 AI（Generative AI）技术的兴起预示着市场将迎来又一次革新。它不仅将改变商品和服务的销售方式，更重要的是，它也将改变这些商品和服务的制造方式。

December 14, 2023

如何避免 12 大软件架构常见误区 [译]

December 11, 2023

December 8, 2023

针对 Claude 2.1 的长篇幅提示技巧 [译]

December 7, 2023

我们是如何利用大语言模型 (LLM) 改进 GitHub Copilot 的探索之旅 [译]

深入了解我们如何使用生成式 AI 模型进行创新实验，从而拓宽 GitHub Copilot 在开发者整个生命周期中的应用。

December 7, 2023

为忙碌人士准备的大语言模型（LLM）速览 [译]

这篇博客的灵感完全来自 Andrej Karpathy 在 YouTube 上的视频“忙碌人士的大语言模型速览”。在我看来，这是对大语言模型的最精彩解释。对于更喜欢阅读而不是观看的朋友，这篇文章是你的理想之选。

December 7, 2023

12 种调整策略指南：为生产环境打造高效的 RAG 应用 [译]

如何通过这些“超参数”和调整策略优化你的检索增强生成（RAG）流程

December 7, 2023

检索增强生成（RAG）：从理论到 LangChain 实践 [译]

从学术论文的理论到利用 OpenAI、Weaviate 和 LangChain 的 Python 应用实现

December 7, 2023

AI 之后软件开发领域的 3 个预测 [译]

必须采用多模型战略，新兴 AI 基础设施的发展，以及大语言模型（LLM）作为新的抽象层次。

December 6, 2023

AI 工程师的崛起 [译]

新兴技能的出现催生了一个新职称：要掌握这些技能，我们需要超越简单的命令行编程，转而开发软件。

December 6, 2023

Gemini 介绍：我们的超级 AI 模型 [译]

让 AI 更贴近每个人的生活

December 6, 2023

谷歌如何简化代码审查流程，实现 97% 开发者满意度 [译]

很多离开谷歌的工程师表示，他们最怀念的内部工具之一是 Critique，谷歌的代码审查工具。探究谷歌的代码审查工具（Critique）：AI 助力的创新与最新统计

December 6, 2023

“Emoji”一词的由来 [译]

“emoji”这个词与情绪并无直接关联。很多人误以为“emoji”一词源自“emotion”（情感），其实这只是个巧合。它实际上来自于日语中的“絵”（图片，发音 _eh_）加上“文字”（字母或字符，_mōji_）。简而言之，这个词指的是一种图画文字。尽管这个词本身与“情感”这个词在词源上并无关联，但我们使用 emoji 的方式却能深刻反映我们的自我特性以及我们如何与他人建立联系。

December 6, 2023

人工智能是伟大的均衡器 [译]

未来，个性化的 AI 助手将可以在设备上离线运行，将衍生出很多出人意料的创新

December 5, 2023

构建更佳大语言模型（LLM）应用的四大要诀 [译]

这里为您提供了一些建议和技巧，旨在提高大语言模型应用的精准度，并介绍了选择合适大语言模型的要点。

December 5, 2023

提示工程、RAGs 与微调的对比 [译]

提示工程、RAGs 与微调的对比是每位搭建基于大语言模型（LLM）应用的 AI 工程师都面临的关键选择。

December 5, 2023

RAG 与 GPT-4 的上下文窗口比较：准确性、成本和响应速度 [译]

在大语言模型应用阶段，重点是让回答变得非常具体，无论是针对数据集、用户、使用场景，还是特定的调用请求。

December 5, 2023

ChatGPT 一周年回顾：谁在使用它，用途有哪些，为什么受欢迎？ [译]

仅仅一年时间，ChatGPT 已经深入科学研究的各个领域。七位科学家分享了他们关于这个聊天机器人正确与错误用法的认识与体会。

December 4, 2023

局外人/边缘人（Outsider）思维与人工智能时代 [译]

在我们的分析领域，不同背景的人才聚集一堂。这已经是众所周知的事实，以至于我们往往对此视而不见。有些人对此感到遗憾，比如会想：“如果我能早些投身于分析领域，了解得更多就好了。”也有人会调整自己的简历，试图营造一种与事实不尽相符的职业连贯性。

December 4, 2023

构建企业级大语言模型应用的秘诀：GitHub Copilot 的实践之路 [译]

GitHub Copilot 是目前最成功的大语言模型应用之一，可以帮程序员自动生成可用的代码，已经有超过一百万付费用户。GitHub Copilot 开发团队分享了构建这个产品时的经验教训。整个产品的开发历时三年，尽力了三个阶段：发现、实现和扩展。这三个阶段对于其他产品的研发也非常具有借鉴价值。

December 4, 2023

构建企业级大语言模型应用的秘诀：GitHub Copilot 的实践之路 [译]

GitHub Copilot 团队分享了如何打造一个既能满足个人用户也能满足企业用户需求的大语言模型（LLM）应用程序的心得。若你希望利用大语言模型 (LLM) 打造并扩展你的应用程序，这篇文章将是你的不二之选。

December 4, 2023

多面性：大语言模型的语言回音室 [译]

我花了许多时间仔细研究大语言模型（LLM）的输出。有一点引起了我的注意：LLM 生成的文章似乎有一种特殊的…感觉。这种感觉很难用言语描述，但在大语言模型发展的初期，你可以很明显地感觉到自己在阅读一个 AI 生成的文章。

December 4, 2023

令人难以置信！用这项新技术在仅有 4GB GPU 的设备上运行 70B 大语言模型推理 [译]

通常，大语言模型需要大量的 GPU 内存才能运行。但是，有没有可能仅用单个 GPU 来进行推理计算呢？如果可以，最少需要多少 GPU 内存呢？

December 4, 2023

智能的进化之路 [译]

AI 并非来自外星，而是我们自己的一部分。

December 3, 2023

战争与和平 (WarAgent)：基于大语言模型的世界大战多智能体模拟 [译]

我们能否在历史的十字路口避免战争？这个问题一直受到个人、学者、政策制定者和组织的关注。在这项研究中，我们试图基于人工智能（AI）和大语言模型（LLMs）的最新进展来回答这个问题。我们提出 WarAgent，一个基于 LLM 的多智能体 AI 系统，用于模拟历史国际冲突中参与国家的决策及其后果，包括第一次世界大战（WWI）、第二次世界大战（WWII）和中国古代的战国时期（WSP）。通过评估模拟的有效性，我们检验了尖端 AI 系统在研究诸如国际冲突这样的复杂集体人类行为的能力及其局限性。在这些模拟中，智能体之间的新兴互动也为检验导致战争的触发因素和条件提供了新视角。我们的发现提供了基于数据和 AI 增强的洞察，可以重新定义我们解决冲突和维持和平的策略。其影响超越了历史分析，提供了一个利用 AI 理解人类历史并可能预防未来国际冲突的蓝图。

December 3, 2023

软件开发加速的秘诀：小步快跑 [译]

小步快跑，助你在软件开发中加速前行。

December 3, 2023

如工程师般探究复杂性——以 Ladybird 浏览器为例 [译]

要掌握复杂性的精髓，最佳策略往往是拆解后再重建。这正是一群志愿者，在一位前 Safari 开发者的带领下所做的事情。他们从零开始打造了一个成熟的操作系统 SerenityOS，和一个网络浏览器 Ladybird（这意味着：他们没有复用任何现有模块，比如读取 JPEG 文件的模块）。他们如同真正的工程师一般，出于_乐趣_而投入这项工作。听起来不错，但你可能会怀疑，用这种方式能构建出一个具备所有复杂功能的网络浏览器吗？这正是一个探索工程师如何面对复杂性的故事。

December 3, 2023

童话故事的策略规划：系统化的战略布局 [译]

传统的童话故事结构与我们的思维方式不谋而合，它能有效地指导我们进行战略问题分析，并制定出每个人都能明白的计划。

December 3, 2023

当 AI 无需联网，一切皆有可能 [译]

未来，个性化的 AI 助手将可以在设备上离线运行，将衍生出很多出人意料的创新

December 2, 2023

通用型基础模型是否能在医疗领域胜过专门的调优策略？一个医学案例研究 [译]

像 GPT-4 这样的通用基础模型，在众多领域和任务中展现出了惊人的能力。然而，通常人们认为，如果不进行针对特定知识领域的密集训练，这些模型无法达到专家级别的能力。例如，目前大多数在医学能力基准上的研究都依赖于特定领域的训练，就像 BioGPT 和 Med-PaLM 的尝试一样。我们的研究则是在没有特殊训练的情况下，继续探究 GPT-4 在医学挑战基准测试中的专家级能力。我们不仅仅是为了展示模型开箱即用的能力而使用简单的提示，而是系统地探索了提示工程来提高性能。我们发现，创新的提示方法可以释放出更深层次的专家能力，并且证明 GPT-4 轻松超越了医学问答数据集上之前的领先成绩。我们探索的提示工程方法是通用的，不依赖于特定的领域知识，这消除了对专家策划内容的依赖。我们的实验设计严格控制了在提示工程过程中的过拟合问题。作为研究的一个高潮，我们推出了 Medprompt，它结合了多种提示策略。Medprompt 大大提高了 GPT-4 的性能，在 MultiMedQA 套件的全部九个基准数据集上均达到了最先进的水平。这种方法使用远少于 Med-PaLM 2 等最新专家模型的模型调用次数，取得了巨大的优势。使用 Medprompt 指导下的 GPT-4，在 MedQA 数据集（USMLE 考试）上的错误率比迄今为止使用专家模型的最佳方法降低了 27%，并首次突破了 90% 的分数。超出医学领域的挑战，我们展示了 Medprompt 在其他领域的广泛适用性，通过在电气工程、机器学习、哲学、会计、法律、护理和临床心理学等多个领域的能力考试上的研究，证明了这种方法的广泛适用性。

December 2, 2023

创造技术杠杆：提升工作流程与增强产品能力 [译]

十多年前，我记下了几段笔记，标题是“建立技术杠杆”，此后我几乎把它忘在脑后。这些笔记记录的是我和 Kevin Scott 在 LinkedIn 担任 SVP 工程师期间的一次会议。那时，我们正在硅谷努力说服潜在买家收购 Digg 的过程中。直到今天早上，当我试图为这篇讨论相同主题的文章起名时，我才想起了那篇文章。

December 2, 2023

伟大的产品工程周期 [译]

December 2, 2023

如何成功地与你的雇主建立良好关系 [译]

将工作比作恋爱是一种激动人心的体验！进入职场，我们满怀期待，寄望一切顺利。但有时，我们会发现自己只是机械地维持着职场关系，不知道如何摆脱，甚至不确定是否能够摆脱，或者摆脱后是否能找到更好的机会。也许我们放弃的正是生命中最好的机遇。或许现在的工作还不错，但我们总想知道外面是否还有更好的可能。又或者，你已经是那位幸运儿，找到了自己的理想职位。约会是令人兴奋的吗？更确切地说，它充满了迷惑。面对未来，我们该如何做出最佳选择呢？我的建议是：跟随内心。

December 2, 2023

如何为数据图表挑选更加悦目的颜色 [译]

我希望你能在选择颜色时更加自信。即使你对颜色毫无感觉，这篇文章也会尝试帮助你找到合适的颜色。我们将探讨在实际应用中常见的颜色错误以及如何避免这些错误。

December 1, 2023

每位经理必须掌握的 10 种领导艺术 [译]

本指南深入剖析了最常见的领导风格，以清晰、直接的方式分析了它们的优点与不足。您将得到一个实用且全面的概述，帮助您不仅了解这些风格本身，还能理解它们在实际情况中的应用方式。无论您已是领导，希望提升领导方法，或是初入领导岗位，这份指南都将为您提供有价值的见解，助您有效应对领导挑战。

November 30, 2023

PyTorch 加速生成式 AI 第二部分：高速 GPT [译]

本篇博客是关于使用纯 PyTorch 加速生成式 AI 模型的系列文章的第二部分，由 PyTorch 团队撰写。我们在这里分享了 PyTorch 的最新性能特性，并通过实际案例，展示了如何最大限度地提升 PyTorch 的性能。在系列的第一篇文章中，我们演示了如何仅用 PyTorch 将“Segment Anything”加速超过 8 倍。本文将聚焦于大语言模型（LLM）的优化技术。

November 30, 2023

生成式 AI 与微波炉 [译]

正如我一位同事上周晚餐时所说，现在的 GenAI 就像青少年的性行为：人人都在谈论，但没人真正懂得怎么做，大家都以为别人在做，于是每个人都声称自己在做。

November 30, 2023

如何从 ChatGPT 中提取其训练数据 [译]

我们最近发布了一篇论文，展示了如何仅花费约两百美元就能从 ChatGPT 中提取数兆字节的训练数据。语言模型如 ChatGPT，是基于从公共互联网收集的数据进行训练的。我们的研究表明，通过对模型进行查询，我们实际上能够获取它训练时使用的一些具体数据。我们估计，如果增加查询模型的投入，能够从中提取大约一千兆字节的 ChatGPT 训练数据集。

November 29, 2023

前谷歌员工眼中的开发工具指南[译]

我曾在谷歌短暂工作过，尽管时光荏苒，但那段经历让我对谷歌的内部开发工具印象深刻。谷歌的开发工具在很多方面可谓世界领先。他们不仅在扩展自己的软件系统方面走在前沿，还在大规模高效软件开发方面颇有建树。谷歌处理了代码库规模、代码发现、组织知识共享和多服务部署等问题，这些在大多数公司看来都是高难度挑战。（参考资料：[《谷歌的软件工程》](https://www.amazon.com/Software-Engineering-Google-Lessons-Programming/dp/1492082791)。）

November 29, 2023

我那价值 5 亿美元的火星探测车失误：一个失败的故事 [译]

2003 年 2 月的一个晚上，我在加州帕萨迪纳的 NASA 喷气推进实验室 (JPL) 里，一切如常。我穿上了洁净室的专用服装，通过了 179 号大楼的高湾 1 气闸室。这里自 60 年代的月球任务 Ranger 系列以来，就是 NASA 许多历史性星际航天器的诞生地。经过无数工程师、技术人员和科学家多年的辛勤劳动，距离 Spirit 火星探测车运往佛罗里达州卡纳维拉尔角发射场，与它的“兄弟”Opportunity 一同踏上旅程，只剩下两周的时间了。

November 29, 2023

历史上的一次大的因为用户界面导致的灾难 [译]

我想花点时间探讨历史上的一大用户界面灾难：1988 年 7 月 3 日，美军海军导弹巡洋舰 USS Vincennes (CG-49) 在波斯湾上空误击伊朗航空 655 号航班，机上 290 人全部遇难。

November 29, 2023

五种与你不喜欢的人高效合作的方法 [译]

工作中不仅有艰巨的任务和职业挫折这样的压力源，更具挑战的是，有时你不得不与那些你不喜欢、不合得来或让你感到烦恼的人一起工作。

November 29, 2023

如何阅读一篇学术论文 [译]

研究人员常常需要花费大量时间来阅读学术论文，但这一技能很少有教授传授，导致许多努力白费。本文提出了一个既实用又高效的方法——三遍阅读法，用于阅读学术论文，并介绍了如何利用这种方法进行文献调研。

November 28, 2023

黄仁勋领导的 Nvidia 如何推动 AI 革命 [译]

这家公司的 CEO，黄仁勋，把所有筹码压在了一种全新的芯片上。如今 Nvidia 已跻身世界最大公司之列，他的下一步会怎样？

November 28, 2023

大部分 AI 创业公司的未来不乐观 [译]

我见过不少初创公司，他们只是简单地整合几个生成式 AI API，做点提示工程，然后加个前端界面。有些产品做得挺精致，功能也不错。但这些公司大多走不远，要么就是普通公司（并非 Paul Graham 定义下的典型初创公司），要么就消失了。显然，如果你能在一个周末搭建出这样的项目，别人也能。假设你编码能力超群，是位杰出的程序员奇才！其他人或许需要花几个周末……但最终还是会有人做出类似的东西。

November 28, 2023

神啊，救救我们，让我们试着理解人工智能的“单义性” [译]

你可能听说过，人工智能就像一个“黑匣子”，神秘莫测。没有人确切知道它的运作机制。研究者们构建了一种类似神经组织的奇异结构，每当这个结构稍微朝着他们期望的人工智能方向进展一点，就给予它一些“奖励”。通过这样不断的微调，最终它成长为研究者心中理想的人工智能形态。但究竟这个过程中发生了什么，似乎只有上帝才知道。

November 27, 2023

用我的 Telegram 消息微调大语言模型：一段经验分享 [译]

对大部分认识我的人来说，我大多数时间像是一个文本处理程序。既然输入输出都这么简单，一个模型能不能取代我呢？为了实现这一点，模型不只需要模仿我的写作风格，还得对我有深入了解。而我的 Telegram 使用记录是最好的信息源，我每天都用它，它几乎记录了我所有的想法和行动。

November 27, 2023

Andrej Karpathy 大语言模型视频入门的精选阅读清单 [译]

本文介绍了 Branches，这是我们开发的一款工具，用于构建和展示先进的大语言模型（LLMs）推理和规划算法的原型。我们利用 Branches 来解决为 HumanEval 生成 Python 代码的挑战。

November 27, 2023

在你找到金矿之前，别急着建造矿井 [译]

我听过最恰当的关于创业公司的比喻是，它们就像是淘金之旅。这并非因为其中蕴含的冒险精神、团队间的情谊，或是最终等待着的财富。而是因为淘金之旅分为两个截然不同的阶段：首先，你得寻找到黄金；其次，才能建造矿井。创业公司的真正任务在于前者——Steve Blank 甚至更进一步，将创业公司定义为正处于这一阶段的公司：只有当它找到黄金（或者说，一个“可复制的商业模式”）之后，它才转变为一家普通的商业公司。

November 27, 2023

为何加入 Y Combinator 不是个好主意 [译]

YC 看似是个合理的选择。他们提供资金帮助你创业，并承诺让你接触一个能在创业过程中提供帮助的社区。作为回报，他们仅索取一小部分股权。听起来似乎还不错，不是吗？

November 27, 2023

技术写作入门 [译]

技术写作无处不在——从你新买的智能手机的使用手册，到药瓶上的安全指导，都是技术写作的体现。技术写作的最大魅力在于，它能将复杂的技术信息以清晰、简洁的方式呈现出来。

November 27, 2023

Cloudflare 作为 AI 领域的新动向：与 CEO Matthew Prince 的专访 [译]

我最近在伦敦采访了 Cloudflare 的首席执行官 Matthew Prince，我们讨论了人工智能、边缘计算和开发者体验 (DX) 等领域的最新趋势。他提到了一些颇具洞见的点——例如，他指出，由于 GPU 短缺，AI 公司现在更加倾向于多云解决方案。因为随着技术拓扑结构变得越来越复杂，AI 问题已经演变成了一个分布式计算和网络的挑战。

November 25, 2023

行动产生信息 [译]

这个问题的提法从极为正面的“谁会不想带领一个团队呢？”到极为负面的“有谁会愿意去管理一个团队呢？”应有尽有。所以我决定写篇文章，列举一些不当经理的理由。

November 25, 2023

超线性回报 [译]

在商业领域，绩效的超线性回报尤为明显。有人认为这是资本主义的弊端，认为改变规则就能改变这一现象。但实际上，绩效的超线性回报是世界的一种本质特征，而非我们人为制定规则的副产品。我们在名誉、权力、军事胜利、知识甚至对人类的贡献等方面都能观察到这一模式。在这些领域，成功者往往会越来越成功。

November 25, 2023

Q* 假设：思维树推理、过程奖励模型，以及如何大幅提升合成数据的能力 [译]

紧急专题：要弄懂 Q*，我们需要的信息其实就在我们身边，只是网络流行语更比现实生活有趣。

November 24, 2023

我使用 Claude AI 编写原创、完整、类似人类风格文章的尝试 [译]

利用像 Claude 这样的 AI 工具，你可以撰写篇幅较长的文章。通过分段撰写，你似乎能保持自己的风格和思路，同时引导 AI。但是，我的实践表明，用 AI 写作比我预期的要难。我可以做到差不多，但由于 AI 工具的训练方式，它们最终更倾向于解释而非辩论，这可能会让个人随笔失去很多趣味。

November 24, 2023

现代大语言模型应用架构 [译]

本文将介绍构建您首个大语言模型应用所需了解的一切，以及您今天就能开始探索的潜在问题领域。

November 24, 2023

苦涩的教训 [译]

只有两种模式能够随着计算能力的增加而无限扩展，那就是学习和搜索。构建 AI 系统时，不应将我们的发现内置其中，而应让 AI 系统能够像我们一样进行发现。这是 AI 领域仍需学习并克服的重要教训。

November 23, 2023

我是如何成为机器学习的实践者 [译]

我于 2005 年 10 月加入谷歌，18 年后，我递交了辞呈。上周，我结束了在谷歌的最后一段日子。

November 23, 2023

回望我在谷歌的 18 年 [译]

我于 2005 年 10 月加入谷歌，18 年后，我递交了辞呈。上周，我结束了在谷歌的最后一段日子。

November 23, 2023

语言模型中的语言代理树搜索：实现推理、行动与规划的统一 [译]

大语言模型 (LLMs) 已经在各种决策任务上取得了卓越的成绩，但它们通常只执行简单的行为，并没有真正作为自主代理得到广泛应用。我们提出了一种名为 LATS (语言代理树搜索) 的新框架，它将 LLMs 在规划、行动和推理方面的功能有效结合起来。LATS 框架的创新之处在于，它借鉴了强化学习中的蒙特卡洛树搜索技术，将 LLMs 当作代理使用，同时充当价值函数和优化器的角色，通过这种方式大幅提升决策质量。最关键的是，LATS 利用外部环境提供的反馈，实现了一种更为周全和灵活的问题解决方式，这一点超越了现有方法的限制。我们在不同领域进行的实验评估证明了 LATS 的有效性，无论是在编程、HotPotQA 还是 WebShop 任务上，LATS 都显示出了其推理和行动能力。特别值得一提的是，在 HumanEval 编程任务上，配合 GPT-4 的 LATS 达到了 94.4% 的成功率，在 WebShop 网页浏览任务上，配合 GPT-3.5 实现了平均 75.9 的得分，这些成果都突显了我们方法的高效性和广泛适用性。

November 9, 2023

通向通用人工智能的里程碑：评估进展的新框架 [译]

November 8, 2023

思维树：利用大语言模型进行深度问题解决 [译]

语言模型正日益成为处理各类任务不可或缺的工具，但它们在推理时仍旧受限于按顺序逐个标记处理信息的方式。这就导致了在需要探究、战略规划或是初步决策至关重要的任务中，它们的效果可能会打折扣。为了突破这些限制，我们提出了一个新的语言模型推理框架——“思维树”（ToT），这是对现有“思维链”提示方法的一种扩展。它让语言模型能够在连贯的文本单元（我们称之为“思维”）中进行探索，这些“思维”是解题过程中的关键中间步骤。ToT 使得语言模型能够通过权衡多种不同的推理路径和自我评估决策来做出更加深思熟虑的选择，并且能在必要时展望未来或者回顾过去，以作出最佳的全局性决策。我们的实验显示，ToT 显著提升了语言模型在三个需要复杂规划或搜索的新型任务上的解题能力：24 点游戏、创意写作和迷你填字谜。举个例子，在 24 点游戏中，尽管使用“思维链”提示的 GPT-4 只解决了 4% 的问题，而我们的方法却达到了 74% 的高成功率。

November 7, 2023

大语言模型遭受的对抗性攻击 [译]

ChatGPT 的问世极大推动了大语言模型在现实世界的应用步伐。我们（包括我在 OpenAI 的同仁们，向他们表示敬意）在模型调整过程中投入巨大努力，确保默认的安全性行为（比如，通过 RLHF）。不过，对抗性攻击或一些特定的提示可能会诱使模型产生一些意料之外的回应。

November 7, 2023

随着人们越来越关注如何让大语言模型（LLMs）与人类的价值观保持一致，人们发现这些模型很容易受到“破解”攻击的威胁，这种攻击会诱使语言模型绕开其安全保护措施。因此，识别并解决这些潜在漏洞对于防止模型被滥用至关重要。为了实现这一目标，我们提出了一种名为“提示自动迭代细化”（PAIR）的算法，这种算法能够仅通过黑盒方式与大语言模型通信，生成语义破解。PAIR 算法的设计灵感来源于社会工程攻击，它能够利用一个“攻击者”语言模型自动对另一个目标语言模型进行破解，无需人工干预。通过这种方式，攻击者模型会反复向目标模型发起查询，不断更新和精细调整破解方案。根据我们的实验证明，PAIR 在大多数情况下能够在不到二十次的查询中成功破解目标模型，效率比现有算法高出许多个数量级。此外，无论是在开源还是闭源的大语言模型上，PAIR 都展现出了极高的破解成功率和良好的迁移性能，其中就包括了 GPT-3.5/4、Vicuna 和 PaLM-2 这样的模型。

October 31, 2023

为何你不应该成为经理的 17 个理由 [译]

October 31, 2023

Musk 收购一年后，X（原 Twitter）的各项指标都在下滑 [译]

如果 Elon Musk 的目的是提升自己社交媒体主页的访问量，他完全有更经济、更简便的方法。在他用 440 亿美元收购 Twitter（近期更名为 X）快一年的时间里，我们唯一能看到的正面表现就是他个人主页 twitter.com/elonmusk/ 的访问量有所增加。

October 31, 2023

CODEFUSION：代码生成领域的创新预训练模型 [译]

试想一个只能修改他们最新写的那一行代码的程序员，他们需要反复从头开始写代码，直到写对为止——这听起来是不是很费劲？传统的自然语言转代码的自回归模型也面临着类似的困境，一旦生成了代码，就很难再回头修改。为此，我们推出了 CODEFUSION，这是一个突破性的预训练扩散代码生成模型。它能够在自然语言的引导下，反复优化整段代码，直到生成高质量的程序代码。我们在 Bash、Python 以及 Microsoft Excel 的条件格式规则转换任务上对 CODEFUSION 进行了全面测试。测试结果令人振奋：尽管 CODEFUSION 只有 75M 的参数，但它在 top-1 准确率上与最先进且参数量高达 350M–175B 的自回归系统不相上下，而在 top-3 和 top-5 准确率上更是超越对手，彰显了它在保证代码质量的同时，还能提供丰富多样的代码生成选项的卓越能力。

October 30, 2023

利用语言模型挖掘人类偏好 [译]

语言模型（LMs）能够通过标注好的示例或者自然语言的提示来指引完成特定任务。但是，找到合适的示例或者编写有效的提示可能非常具有挑战性，特别是在那些涉及到不常见的边缘情况、需要准确表达模糊偏好，或者要求对语言模型行为有精确认识的任务中。我们提出了一种思路：利用语言模型*自身*来引导任务设定的过程。

October 30, 2023

GPT-4 不懂自己哪里错了：对解决问题时迭代提示法的深入分析 [译]

大家对大语言模型（LLMs）到底能否具备推理能力一直有很大的争议。虽然一开始人们非常乐观，认为模型的规模越大，推理能力就会自然而然地显现出来，但众多反例的出现，从简单的乘法运算到计划问题，都让这种乐观心态受到了挑战。尽管如此，许多人仍然坚信大语言模型能够对自己的答案进行自我批判，并通过迭代的方式不断完善解决方案。这种信仰似乎是建立在这样一个前提上：验证一个答案的正确性应该比产生答案更为简单。这是计算复杂性领域的一个经典观点，但如果 LLMs 主要进行的是近似检索的活动，那么这个观点对它们来说应该是不相关的。

October 29, 2023

PromptAgent：借助语言模型进行策略性规划，达到专家级的提示优化 [译]

我们引入了 PromptAgent，这是一种能够独立创建出与专家亲手打造的提示同样优质的优化方法。PromptAgent 把提示优化当作一个策略规划问题来处理，并运用了一种植根于蒙特卡罗树搜索的算法，巧妙地规划并探索专家级提示的可能性。

October 27, 2023

退一步，看得更远：通过抽象引发大语言模型中的推理 [译]

我们为大家介绍了一个称为“退一步提示法（Step-Back Prompting）”的新技巧，能让语言模型通过抽象思考，从具体信息中找到核心观念和基础原理。凭借这些核心观念和原理，语言模型在逻辑推理上的表现得到了显著的提升。

October 26, 2023

深入分析 GPTs 在机器翻译中的上下文学习[译]

October 25, 2023

2023 年最佳发明 [译]

改变我们生活方式的 200 项创新

October 25, 2023

如何通过“链式验证”降低大语言模型的“幻觉” [译]

大语言模型偶尔会生成看似真实但实际上是错误的信息，这种情况被称为“幻觉”。我们研究了模型如何自我纠错。我们提出了一个名为“链式验证 (CoVe)”的方法：模型首先给出初步回答，然后制定问题来核实答案，并确保每个问题的回答不受其他回答的影响，最后输出经过核实的答案。实验结果显示，这种方法有效地减少了在不同任务中产生的误导性信息。

October 16, 2023

多模态和多模态大模型 (LMM)[译]

以前，我们的机器学习模型一般都只处理一种类型的数据，比如只处理文本、图像或音频。但是，想想我们人类的大脑。我们不仅仅读写文字，还可以看图、看视频，听音乐，还能够辨识各种不同的声音。所以，为了让 AI 更接近真实世界，处理多种类型的数据显得非常重要。

October 15, 2023

AI 研究岗位的市场现状（以及我所经历的）[译]

工作岗位虽然众多，但找到真正适合自己的位置依然困难重重。

October 12, 2023

探究 10 倍效能工程师的神话与杰出工程师的真实面貌 [译]

虽然作为开发者，我们总在追求技术上的进步，但同样重要的"软技能"也不能被忽略。我读了大约 40 本这样的书，现在想和你们分享一些最有价值的经验，帮助我们在技术和管理领域更上一层楼。

October 10, 2023

帮你成为更优秀开发者的软技能书单[译]

October 10, 2023

小语种成功“破解”了 GPT-4 的限制[译]

AI 安全培训和大语言模型（LLMs）的红队实验是为了预防生成不安全内容。然而，我们发现，由于安全训练数据在不同语言之间的不平衡，这些安全机制在跨语言应用时存在脆弱性。我们证明，通过将危险的英语输入转换为使用率较低的语言，就可以成功规遍 GPT-4 的安全屏障。

October 6, 2023

大语言模型的类比推理能力[译]

“思维链”（CoT）提示法让语言模型在各类推理任务上表现优异，但是，这通常需要对推理过程的实例进行标记。在这个研究中，我们推出了一种新颖的提示技巧，名为“类推提示法”，旨在自动引领大语言模型进行推理。

October 3, 2023

多模态大模型（LMMs）的曙光：初探 GPT-4V(ision)[译]

多模态大模型（LMMs）不仅拥有大语言模型（LLMs）的特点，还拓宽了其多感官技能，例如视觉理解，从而实现了更强的通用智能。本文深入探索并分析了最新的 GPT-4V(ision) 模型，旨在加深我们对 LMMs 的认识。我们的分析重点是 GPT-4V 能够完成的各种有趣任务，通过一系列精心设计的测试样本，来检验 GPT-4V 能力的质量和通用性，以及它所支持的输入和工作方式，还有有效启动模型的方法。在探索 GPT-4V 的过程中，我们整理了一系列涉及多个领域和任务的定性样本。这些样本的观察结果表明，GPT-4V 能够处理任意混合的多模态输入，并且其功能的通用性使其成为一个强大的多模态通用系统。此外，GPT-4V 独特的识别输入图像上绘制的视觉标记的能力，为发展新的人机交互方式，比如视觉参考提示，提供了可能。报告最后深入讨论了基于 GPT-4V 系统的新兴应用场景和未来研究方向。我们希望这一初步的探索能够启发未来关于多模态任务制定的下一代研究，发掘和强化 LMMs 以解决现实世界问题的新方法，以及对多模态基础模型有更深的理解。

October 2, 2023

基于大语言模型的智能代理[译]

利用大语言模型（LLM）作为核心驱动的智能代理是一个极富创意的概念。有一些令人印象深刻的概念验证示例，比如 AutoGPT、GPT-Engineer 和 BabyAGI，都为我们展示了巨大的可能性。LLM 不仅可以创作流畅的文本、故事、散文和代码，更重要的是，它可以成为解决各种问题的强大工具。

July 23, 2023

高效大语言模型推理 [译]

近来，我频繁地探究如何高效地运用大语言模型 (LLM)。设想这样一个场景：你的老板对你说：“嘿，Finbarr，我们快破产了，因为我们把所有投资者的钱都花在了支持我们那个 300 亿参数、模仿 John Kenneth Galbraith 风格说唱的模型的 GPU 上。我们该怎么办？”

January 4, 2023

2024 AI 预测 [译]

既有亮点也有挑战 —— 并伴随着诸多炒作。伴随着假期的结束，我们满载热情回归，为大家带来 2024 年的最新观点！

January 4, 2023