智能的进化之路 [译]
AI 并非来自外星,而是我们自己的一部分。
December 3, 2023
View ArticleAI 并非来自外星,而是我们自己的一部分。
December 3, 2023
View Article将工作比作恋爱是一种激动人心的体验!进入职场,我们满怀期待,寄望一切顺利。但有时,我们会发现自己只是机械地维持着职场关系,不知道如何摆脱,甚至不确定是否能够摆脱,或者摆脱后是否能找到更好的机会。也许我们放弃的正是生命中最好的机遇。或许现在的工作还不错,但我们总想知道外面是否还有更好的可能。又或者,你已经是那位幸运儿,找到了自己的理想职位。约会是令人兴奋的吗?更确切地说,它充满了迷惑。面对未来,我们该如何做出最佳选择呢?我的建议是:跟随内心。
December 2, 2023
View Article目前,我主要的工作是兼任部分时间的 CTO 服务。坦白说,在进行创新的同时担任这个角色对我来说颇有挑战。同时兼顾这两者非常艰难,所以我暂时放下创新者的角色,专注于规划发展路线图和招聘事宜。招聘其实是一个挑战,需要精准识别不同职位和所需资源。
December 2, 2023
View Article十多年前,我记下了几段笔记,标题是“建立技术杠杆”,此后我几乎把它忘在脑后。这些笔记记录的是我和 Kevin Scott 在 LinkedIn 担任 SVP 工程师期间的一次会议。那时,我们正在硅谷努力说服潜在买家收购 Digg 的过程中。直到今天早上,当我试图为这篇讨论相同主题的文章起名时,我才想起了那篇文章。
December 2, 2023
View Article像 GPT-4 这样的通用基础模型,在众多领域和任务中展现出了惊人的能力。然而,通常人们认为,如果不进行针对特定知识领域的密集训练,这些模型无法达到专家级别的能力。例如,目前大多数在医学能力基准上的研究都依赖于特定领域的训练,就像 BioGPT 和 Med-PaLM 的尝试一样。我们的研究则是在没有特殊训练的情况下,继续探究 GPT-4 在医学挑战基准测试中的专家级能力。我们不仅仅是为了展示模型开箱即用的能力而使用简单的提示,而是系统地探索了提示工程来提高性能。我们发现,创新的提示方法可以释放出更深层次的专家能力,并且证明 GPT-4 轻松超越了医学问答数据集上之前的领先成绩。我们探索的提示工程方法是通用的,不依赖于特定的领域知识,这消除了对专家策划内容的依赖。我们的实验设计严格控制了在提示工程过程中的过拟合问题。作为研究的一个高潮,我们推出了 Medprompt,它结合了多种提示策略。Medprompt 大大提高了 GPT-4 的性能,在 MultiMedQA 套件的全部九个基准数据集上均达到了最先进的水平。这种方法使用远少于 Med-PaLM 2 等最新专家模型的模型调用次数,取得了巨大的优势。使用 Medprompt 指导下的 GPT-4,在 MedQA 数据集(USMLE 考试)上的错误率比迄今为止使用专家模型的最佳方法降低了 27%,并首次突破了 90% 的分数。超出医学领域的挑战,我们展示了 Medprompt 在其他领域的广泛适用性,通过在电气工程、机器学习、哲学、会计、法律、护理和临床心理学等多个领域的能力考试上的研究,证明了这种方法的广泛适用性。
December 2, 2023
View Article未来,个性化的 AI 助手将可以在设备上离线运行,将衍生出很多出人意料的创新
December 2, 2023
View Article我希望你能在选择颜色时更加自信。即使你对颜色毫无感觉,这篇文章也会尝试帮助你找到合适的颜色。我们将探讨在实际应用中常见的颜色错误以及如何避免这些错误。
December 1, 2023
View Article正如我一位同事上周晚餐时所说,现在的 GenAI 就像青少年的性行为:人人都在谈论,但没人真正懂得怎么做,大家都以为别人在做,于是每个人都声称自己在做。
November 30, 2023
View Article本篇博客是关于使用纯 PyTorch 加速生成式 AI 模型的系列文章的第二部分,由 PyTorch 团队撰写。我们在这里分享了 PyTorch 的最新性能特性,并通过实际案例,展示了如何最大限度地提升 PyTorch 的性能。在系列的第一篇文章中,我们演示了如何仅用 PyTorch 将“Segment Anything”加速超过 8 倍。本文将聚焦于大语言模型(LLM)的优化技术。
November 30, 2023
View Article本指南深入剖析了最常见的领导风格,以清晰、直接的方式分析了它们的优点与不足。您将得到一个实用且全面的概述,帮助您不仅了解这些风格本身,还能理解它们在实际情况中的应用方式。无论您已是领导,希望提升领导方法,或是初入领导岗位,这份指南都将为您提供有价值的见解,助您有效应对领导挑战。
November 30, 2023
View Article工作中不仅有艰巨的任务和职业挫折这样的压力源,更具挑战的是,有时你不得不与那些你不喜欢、不合得来或让你感到烦恼的人一起工作。
November 29, 2023
View Article我想花点时间探讨历史上的一大用户界面灾难:1988 年 7 月 3 日,美军海军导弹巡洋舰 USS Vincennes (CG-49) 在波斯湾上空误击伊朗航空 655 号航班,机上 290 人全部遇难。
November 29, 2023
View Article2003 年 2 月的一个晚上,我在加州帕萨迪纳的 NASA 喷气推进实验室 (JPL) 里,一切如常。我穿上了洁净室的专用服装,通过了 179 号大楼的高湾 1 气闸室。这里自 60 年代的月球任务 Ranger 系列以来,就是 NASA 许多历史性星际航天器的诞生地。经过无数工程师、技术人员和科学家多年的辛勤劳动,距离 Spirit 火星探测车运往佛罗里达州卡纳维拉尔角发射场,与它的“兄弟”Opportunity 一同踏上旅程,只剩下两周的时间了。
November 29, 2023
View Article我曾在谷歌短暂工作过,尽管时光荏苒,但那段经历让我对谷歌的内部开发工具印象深刻。谷歌的开发工具在很多方面可谓世界领先。他们不仅在扩展自己的软件系统方面走在前沿,还在大规模高效软件开发方面颇有建树。谷歌处理了代码库规模、代码发现、组织知识共享和多服务部署等问题,这些在大多数公司看来都是高难度挑战。(参考资料:[《谷歌的软件工程》](https://www.amazon.com/Software-Engineering-Google-Lessons-Programming/dp/1492082791)。)
November 29, 2023
View Article我们最近发布了一篇论文,展示了如何仅花费约两百美元就能从 ChatGPT 中提取数兆字节的训练数据。语言模型如 ChatGPT,是基于从公共互联网收集的数据进行训练的。我们的研究表明,通过对模型进行查询,我们实际上能够获取它训练时使用的一些具体数据。我们估计,如果增加查询模型的投入,能够从中提取大约一千兆字节的 ChatGPT 训练数据集。
November 29, 2023
View Article我见过不少初创公司,他们只是简单地整合几个生成式 AI API,做点提示工程,然后加个前端界面。有些产品做得挺精致,功能也不错。但这些公司大多走不远,要么就是普通公司(并非 Paul Graham 定义下的典型初创公司),要么就消失了。显然,如果你能在一个周末搭建出这样的项目,别人也能。假设你编码能力超群,是位杰出的程序员奇才!其他人或许需要花几个周末……但最终还是会有人做出类似的东西。
November 28, 2023
View Article这家公司的 CEO,黄仁勋,把所有筹码压在了一种全新的芯片上。如今 Nvidia 已跻身世界最大公司之列,他的下一步会怎样?
November 28, 2023
View Article研究人员常常需要花费大量时间来阅读学术论文,但这一技能很少有教授传授,导致许多努力白费。本文提出了一个既实用又高效的方法——三遍阅读法,用于阅读学术论文,并介绍了如何利用这种方法进行文献调研。
November 28, 2023
View Article技术写作无处不在——从你新买的智能手机的使用手册,到药瓶上的安全指导,都是技术写作的体现。技术写作的最大魅力在于,它能将复杂的技术信息以清晰、简洁的方式呈现出来。
November 27, 2023
View ArticleYC 看似是个合理的选择。他们提供资金帮助你创业,并承诺让你接触一个能在创业过程中提供帮助的社区。作为回报,他们仅索取一小部分股权。听起来似乎还不错,不是吗?
November 27, 2023
View Article我听过最恰当的关于创业公司的比喻是,它们就像是淘金之旅。这并非因为其中蕴含的冒险精神、团队间的情谊,或是最终等待着的财富。而是因为淘金之旅分为两个截然不同的阶段:首先,你得寻找到黄金;其次,才能建造矿井。创业公司的真正任务在于前者——Steve Blank 甚至更进一步,将创业公司定义为正处于这一阶段的公司:只有当它找到黄金(或者说,一个“可复制的商业模式”)之后,它才转变为一家普通的商业公司。
November 27, 2023
View Article本文介绍了 Branches,这是我们开发的一款工具,用于构建和展示先进的大语言模型(LLMs)推理和规划算法的原型。我们利用 Branches 来解决为 HumanEval 生成 Python 代码的挑战。
November 27, 2023
View Article对大部分认识我的人来说,我大多数时间像是一个文本处理程序。既然输入输出都这么简单,一个模型能不能取代我呢?为了实现这一点,模型不只需要模仿我的写作风格,还得对我有深入了解。而我的 Telegram 使用记录是最好的信息源,我每天都用它,它几乎记录了我所有的想法和行动。
November 27, 2023
View Article你可能听说过,人工智能就像一个“黑匣子”,神秘莫测。没有人确切知道它的运作机制。研究者们构建了一种类似神经组织的奇异结构,每当这个结构稍微朝着他们期望的人工智能方向进展一点,就给予它一些“奖励”。通过这样不断的微调,最终它成长为研究者心中理想的人工智能形态。但究竟这个过程中发生了什么,似乎只有上帝才知道。
November 27, 2023
View Article科普一下北美科技公司对工程技术角色的区分,比如 EM(Engineering Manager)、TPM (Technical Program Manager) 都代表什么意思,分工有什么不同?
November 27, 2023
View Article在商业领域,绩效的超线性回报尤为明显。有人认为这是资本主义的弊端,认为改变规则就能改变这一现象。但实际上,绩效的超线性回报是世界的一种本质特征,而非我们人为制定规则的副产品。我们在名誉、权力、军事胜利、知识甚至对人类的贡献等方面都能观察到这一模式。在这些领域,成功者往往会越来越成功。
November 25, 2023
View Article这个问题的提法从极为正面的“谁会不想带领一个团队呢?”到极为负面的“有谁会愿意去管理一个团队呢?”应有尽有。所以我决定写篇文章,列举一些不当经理的理由。
November 25, 2023
View Article我最近在伦敦采访了 Cloudflare 的首席执行官 Matthew Prince,我们讨论了人工智能、边缘计算和开发者体验 (DX) 等领域的最新趋势。他提到了一些颇具洞见的点——例如,他指出,由于 GPU 短缺,AI 公司现在更加倾向于多云解决方案。因为随着技术拓扑结构变得越来越复杂,AI 问题已经演变成了一个分布式计算和网络的挑战。
November 25, 2023
View Article本文将介绍构建您首个大语言模型应用所需了解的一切,以及您今天就能开始探索的潜在问题领域。
November 24, 2023
View Article利用像 Claude 这样的 AI 工具,你可以撰写篇幅较长的文章。通过分段撰写,你似乎能保持自己的风格和思路,同时引导 AI。但是,我的实践表明,用 AI 写作比我预期的要难。我可以做到差不多,但由于 AI 工具的训练方式,它们最终更倾向于解释而非辩论,这可能会让个人随笔失去很多趣味。
November 24, 2023
View Article紧急专题:要弄懂 Q*,我们需要的信息其实就在我们身边,只是网络流行语更比现实生活有趣。
November 24, 2023
View Article我于 2005 年 10 月加入谷歌,18 年后,我递交了辞呈。上周,我结束了在谷歌的最后一段日子。
November 23, 2023
View Article我于 2005 年 10 月加入谷歌,18 年后,我递交了辞呈。上周,我结束了在谷歌的最后一段日子。
November 23, 2023
View Article只有两种模式能够随着计算能力的增加而无限扩展,那就是学习和搜索。构建 AI 系统时,不应将我们的发现内置其中,而应让 AI 系统能够像我们一样进行发现。这是 AI 领域仍需学习并克服的重要教训。
November 23, 2023
View Article大语言模型 (LLMs) 已经在各种决策任务上取得了卓越的成绩,但它们通常只执行简单的行为,并没有真正作为自主代理得到广泛应用。我们提出了一种名为 LATS (语言代理树搜索) 的新框架,它将 LLMs 在规划、行动和推理方面的功能有效结合起来。LATS 框架的创新之处在于,它借鉴了强化学习中的蒙特卡洛树搜索技术,将 LLMs 当作代理使用,同时充当价值函数和优化器的角色,通过这种方式大幅提升决策质量。最关键的是,LATS 利用外部环境提供的反馈,实现了一种更为周全和灵活的问题解决方式,这一点超越了现有方法的限制。我们在不同领域进行的实验评估证明了 LATS 的有效性,无论是在编程、HotPotQA 还是 WebShop 任务上,LATS 都显示出了其推理和行动能力。特别值得一提的是,在 HumanEval 编程任务上,配合 GPT-4 的 LATS 达到了 94.4% 的成功率,在 WebShop 网页浏览任务上,配合 GPT-3.5 实现了平均 75.9 的得分,这些成果都突显了我们方法的高效性和广泛适用性。
November 9, 2023
View Article我常用 ChatGPT 翻译科技文章,我将它做成了一个“科技文章 GPT”。
November 9, 2023
View Article我们构建了一个新的框架,这个框架可以帮助我们更好地理解通用人工智能(AGI)及其早期版本的能力和表现。这个框架详细划分了 AGI 的性能、适用范围和自我控制能力的不同层次。我们希望,这个框架能够像划分自动驾驶技术等级一样,为人们提供一种通用的语言,以便比较不同的 AGI 模型,评估它们可能带来的风险,并跟踪我们在实现 AGI 这一目标道路上的每一步进展。为了建立这个框架,我们审视了 AGI 的现有定义,并从中提炼出六大原则,以构建一个实用的 AGI 分类体系。这些原则强调重视 AGI 的实际能力,而不仅仅是其背后的技术机制;它们建议我们应当分开评估 AGI 的适用范围和性能水平;并且我们不应该只着眼于最终目标,而应该明确标记出通向 AGI 的每一个阶段。基于这些思路,我们根据 AGI 的能力深度(即性能)和广度(即适用范围)提出了“AGI 等级”,并且对当前系统如何符合这个分类体系进行了思考。我们还讨论了未来评估 AGI 行为和能力的基准测试所面临的挑战。最后,我们探讨了这些 AGI 的不同层次如何与实际部署时的自主性和风险管理相结合,并强调在部署高级 AI 系统时,选择合适的人机交互方式对于确保系统的负责任和安全使用至关重要。
November 8, 2023
View Article这个笔记本演示了如何利用 GPT 的视觉能力来处理视频内容。
November 7, 2023
View Article本文介绍了 Branches,这是我们开发的一款工具,用于构建和展示先进的大语言模型(LLMs)推理和规划算法的原型。我们利用 Branches 来解决为 HumanEval 生成 Python 代码的挑战。
November 7, 2023
View ArticleChatGPT 的问世极大推动了大语言模型在现实世界的应用步伐。我们(包括我在 OpenAI 的同仁们,向他们表示敬意)在模型调整过程中投入巨大努力,确保默认的安全性行为(比如,通过 RLHF)。不过,对抗性攻击或一些特定的提示可能会诱使模型产生一些意料之外的回应。
November 7, 2023
View Article语言模型正日益成为处理各类任务不可或缺的工具,但它们在推理时仍旧受限于按顺序逐个标记处理信息的方式。这就导致了在需要探究、战略规划或是初步决策至关重要的任务中,它们的效果可能会打折扣。为了突破这些限制,我们提出了一个新的语言模型推理框架——“思维树”(ToT),这是对现有“思维链”提示方法的一种扩展。它让语言模型能够在连贯的文本单元(我们称之为“思维”)中进行探索,这些“思维”是解题过程中的关键中间步骤。ToT 使得语言模型能够通过权衡多种不同的推理路径和自我评估决策来做出更加深思熟虑的选择,并且能在必要时展望未来或者回顾过去,以作出最佳的全局性决策。我们的实验显示,ToT 显著提升了语言模型在三个需要复杂规划或搜索的新型任务上的解题能力:24 点游戏、创意写作和迷你填字谜。举个例子,在 24 点游戏中,尽管使用“思维链”提示的 GPT-4 只解决了 4% 的问题,而我们的方法却达到了 74% 的高成功率。
November 7, 2023
View Article现在,您可以自己打造专属的 ChatGPT 版本,它可以结合特定指令、额外知识和各种技能。
November 6, 2023
View ArticleAssistant API 使您能够在自己的应用中创建 AI 助理。这样的助理根据指令运作,能够结合模型、工具和知识库来解答用户的问题。目前,Assistant API 支持三种 工具:代码解释器(Code Interpreter)、信息检索(Retrieval)和函数调用(Function calling)。我们未来的计划是推出更多由 OpenAI 创建的工具,并让您能在我们的平台上使用您自己的工具。
November 6, 2023
View Article在打造检索增强型生成(RAG)系统时,检索器扮演着至关重要的角色。市场上有丰富的嵌入模型可供选择,诸如 OpenAI、CohereAI 和开源的句子转换器。同时,也有来自 CohereAI 和句子转换器的多种重新排列工具。但是,在这么多选择面前,我们该如何挑选出最佳组合,以达到最优的检索效能?我们该怎样判断哪种嵌入模型最契合我们的数据?或者哪一种重新排列工具能够最大限度地优化我们的成果?
November 5, 2023
View Article提示工程,也被称作情境内提示,是一种和大语言模型(LLM)沟通的策略,目的是在不更新模型底层数据的前提下,引导它按我们想要的方式行动。它是一门实验性质的科学,不同模型间提示方法的效果差别很大,所以这需要通过大量的实验和经验法则来探索。
November 5, 2023
View Article为了让语言模型具备推理能力,研究人员通常会通过特定提示或调整模型使其在给出最终答案前,先产出一连串的推理步骤。不过,人类虽然能够用自然语言有效推理,可能对于语言模型来说,使用一些非自然语言形式的中间运算步骤,推理会更加高效。在本项研究中,我们探索了一种不同于传统的推理方式:不是直接输出每个推理步骤,而是通过语言模型内部的隐藏状态进行隐式推理。这种隐式的推理步骤,是通过对一个接受过显式思维链推理训练的教师模型进行“知识蒸馏”得来的。不同于传统的“横向”逐字输出推理过程,我们的方法是“纵向”的,在模型不同层级的隐藏状态间进行推理。通过对多位数乘法任务和小学数学问题数据集的实验,我们发现这种方法能解决那些没有显式思维链条就无法解决的问题,并且其速度与直接给出答案而不进行任何推理的速度相当。
November 5, 2023
View Article在推理、语言理解以及数学问题解决等多个领域,大语言模型(LLMs)已经展现出惊人的能力,它们被认为是向人工通用智能(AGI)迈进的关键一步。但是,LLMs 对提示语的敏感性仍然是它们普及应用的一大难题。本文借鉴心理学的见解,提出了 EmotionPrompt,旨在通过加入情绪刺激来提升 LLMs 的表现。EmotionPrompt 的操作原则非常直接:就是在提示语中加入情绪因素。实验结果显示,在八个不同的任务中,EmotionPrompt 采用统一的提示模板,不仅在零次学习和少数次学习场景中都大幅度超越了传统提示和 Zero-shot-CoT,还在包括 ChatGPT、Vicuna-13b、Bloom 和 Flan-T5-large 等多种模型上都实现了这一成效。此外,EmotionPrompt 还显著提高了答案的真实度和信息量。我们相信,EmotionPrompt 为探索人与大语言模型互动的跨学科知识开辟了新的道路。
November 5, 2023
View Article2023 年即将过去,此刻不失为回首这一年人工智能领域研究成就、产业发展以及开源社区的盛况的好时机。
November 5, 2023
View Article在本文中,我们会详细介绍和评估一些语言模型的可解释性技术,其中不乏 Normal 的一些创新尝试(比如与概率机器学习相关的技术),它们都旨在提升 AI 系统的可靠性和推理能力。我们将尝试以浅显的方式介绍这些技术,同时指出在实际应用中,直觉有时候可能会带来误导。
November 4, 2023
View ArticleGPT-3 等大语言模型展现了它们在不需要特定训练数据的情况下适应新任务的惊人能力。这一能力在诸如叙事性问题解答的场景中特别有用,那里的任务种类繁多,而可供学习的数据却相对匮乏。在这项研究中,我们探讨了这些语言模型是否能将它们的零样本推理才能延伸到多媒体内容中的长篇多模态叙事,如戏剧、电影和动画,故事在其中发挥着核心作用。我们提出了一种名为“Long Story Short”的视频叙事问答框架,它首先把视频的故事概括为简短的情节,再检索与问题相关的视频片段。我们还建议采用 CLIPCheck 来提升视觉匹配的效果。我们的模型在长视频问答方面,相较于现有的最先进监督模型取得了显著的领先,展现了零样本问答技术的巨大潜力。
November 4, 2023
View Article