构建更佳大语言模型(LLM)应用的四大要诀 [译]
这里为您提供了一些建议和技巧,旨在提高大语言模型应用的精准度,并介绍了选择合适大语言模型的要点。
December 5, 2023
View Article翻译的一些我觉得不错的科技文章。
这里为您提供了一些建议和技巧,旨在提高大语言模型应用的精准度,并介绍了选择合适大语言模型的要点。
December 5, 2023
View Article未来,个性化的 AI 助手将可以在设备上离线运行,将衍生出很多出人意料的创新
December 5, 2023
View Article通常,大语言模型需要大量的 GPU 内存才能运行。但是,有没有可能仅用单个 GPU 来进行推理计算呢?如果可以,最少需要多少 GPU 内存呢?
December 4, 2023
View Article我花了许多时间仔细研究大语言模型(LLM)的输出。有一点引起了我的注意:LLM 生成的文章似乎有一种特殊的…感觉。这种感觉很难用言语描述,但在大语言模型发展的初期,你可以很明显地感觉到自己在阅读一个 AI 生成的文章。
December 4, 2023
View ArticleGitHub Copilot 团队分享了如何打造一个既能满足个人用户也能满足企业用户需求的大语言模型(LLM)应用程序的心得。若你希望利用大语言模型 (LLM) 打造并扩展你的应用程序,这篇文章将是你的不二之选。
December 4, 2023
View ArticleGitHub Copilot 是目前最成功的大语言模型应用之一,可以帮程序员自动生成可用的代码,已经有超过一百万付费用户。GitHub Copilot 开发团队分享了构建这个产品时的经验教训。整个产品的开发历时三年,尽力了三个阶段:发现、实现和扩展。这三个阶段对于其他产品的研发也非常具有借鉴价值。
December 4, 2023
View Article在我们的分析领域,不同背景的人才聚集一堂。这已经是众所周知的事实,以至于我们往往对此视而不见。有些人对此感到遗憾,比如会想:“如果我能早些投身于分析领域,了解得更多就好了。”也有人会调整自己的简历,试图营造一种与事实不尽相符的职业连贯性。
December 4, 2023
View Article仅仅一年时间,ChatGPT 已经深入科学研究的各个领域。七位科学家分享了他们关于这个聊天机器人正确与错误用法的认识与体会。
December 4, 2023
View Article传统的童话故事结构与我们的思维方式不谋而合,它能有效地指导我们进行战略问题分析,并制定出每个人都能明白的计划。
December 3, 2023
View Article要掌握复杂性的精髓,最佳策略往往是拆解后再重建。这正是一群志愿者,在一位前 Safari 开发者的带领下所做的事情。他们从零开始打造了一个成熟的操作系统 SerenityOS,和一个网络浏览器 Ladybird(这意味着:他们没有复用任何现有模块,比如读取 JPEG 文件的模块)。他们如同真正的工程师一般,出于_乐趣_而投入这项工作。听起来不错,但你可能会怀疑,用这种方式能构建出一个具备所有复杂功能的网络浏览器吗?这正是一个探索工程师如何面对复杂性的故事。
December 3, 2023
View Article小步快跑,助你在软件开发中加速前行。
December 3, 2023
View Article我们能否在历史的十字路口避免战争?这个问题一直受到个人、学者、政策制定者和组织的关注。在这项研究中,我们试图基于人工智能(AI)和大语言模型(LLMs)的最新进展来回答这个问题。我们提出 WarAgent,一个基于 LLM 的多智能体 AI 系统,用于模拟历史国际冲突中参与国家的决策及其后果,包括第一次世界大战(WWI)、第二次世界大战(WWII)和中国古代的战国时期(WSP)。通过评估模拟的有效性,我们检验了尖端 AI 系统在研究诸如国际冲突这样的复杂集体人类行为的能力及其局限性。在这些模拟中,智能体之间的新兴互动也为检验导致战争的触发因素和条件提供了新视角。我们的发现提供了基于数据和 AI 增强的洞察,可以重新定义我们解决冲突和维持和平的策略。其影响超越了历史分析,提供了一个利用 AI 理解人类历史并可能预防未来国际冲突的蓝图。
December 3, 2023
View ArticleAI 并非来自外星,而是我们自己的一部分。
December 3, 2023
View Article将工作比作恋爱是一种激动人心的体验!进入职场,我们满怀期待,寄望一切顺利。但有时,我们会发现自己只是机械地维持着职场关系,不知道如何摆脱,甚至不确定是否能够摆脱,或者摆脱后是否能找到更好的机会。也许我们放弃的正是生命中最好的机遇。或许现在的工作还不错,但我们总想知道外面是否还有更好的可能。又或者,你已经是那位幸运儿,找到了自己的理想职位。约会是令人兴奋的吗?更确切地说,它充满了迷惑。面对未来,我们该如何做出最佳选择呢?我的建议是:跟随内心。
December 2, 2023
View Article目前,我主要的工作是兼任部分时间的 CTO 服务。坦白说,在进行创新的同时担任这个角色对我来说颇有挑战。同时兼顾这两者非常艰难,所以我暂时放下创新者的角色,专注于规划发展路线图和招聘事宜。招聘其实是一个挑战,需要精准识别不同职位和所需资源。
December 2, 2023
View Article十多年前,我记下了几段笔记,标题是“建立技术杠杆”,此后我几乎把它忘在脑后。这些笔记记录的是我和 Kevin Scott 在 LinkedIn 担任 SVP 工程师期间的一次会议。那时,我们正在硅谷努力说服潜在买家收购 Digg 的过程中。直到今天早上,当我试图为这篇讨论相同主题的文章起名时,我才想起了那篇文章。
December 2, 2023
View Article像 GPT-4 这样的通用基础模型,在众多领域和任务中展现出了惊人的能力。然而,通常人们认为,如果不进行针对特定知识领域的密集训练,这些模型无法达到专家级别的能力。例如,目前大多数在医学能力基准上的研究都依赖于特定领域的训练,就像 BioGPT 和 Med-PaLM 的尝试一样。我们的研究则是在没有特殊训练的情况下,继续探究 GPT-4 在医学挑战基准测试中的专家级能力。我们不仅仅是为了展示模型开箱即用的能力而使用简单的提示,而是系统地探索了提示工程来提高性能。我们发现,创新的提示方法可以释放出更深层次的专家能力,并且证明 GPT-4 轻松超越了医学问答数据集上之前的领先成绩。我们探索的提示工程方法是通用的,不依赖于特定的领域知识,这消除了对专家策划内容的依赖。我们的实验设计严格控制了在提示工程过程中的过拟合问题。作为研究的一个高潮,我们推出了 Medprompt,它结合了多种提示策略。Medprompt 大大提高了 GPT-4 的性能,在 MultiMedQA 套件的全部九个基准数据集上均达到了最先进的水平。这种方法使用远少于 Med-PaLM 2 等最新专家模型的模型调用次数,取得了巨大的优势。使用 Medprompt 指导下的 GPT-4,在 MedQA 数据集(USMLE 考试)上的错误率比迄今为止使用专家模型的最佳方法降低了 27%,并首次突破了 90% 的分数。超出医学领域的挑战,我们展示了 Medprompt 在其他领域的广泛适用性,通过在电气工程、机器学习、哲学、会计、法律、护理和临床心理学等多个领域的能力考试上的研究,证明了这种方法的广泛适用性。
December 2, 2023
View Article未来,个性化的 AI 助手将可以在设备上离线运行,将衍生出很多出人意料的创新
December 2, 2023
View Article我希望你能在选择颜色时更加自信。即使你对颜色毫无感觉,这篇文章也会尝试帮助你找到合适的颜色。我们将探讨在实际应用中常见的颜色错误以及如何避免这些错误。
December 1, 2023
View Article正如我一位同事上周晚餐时所说,现在的 GenAI 就像青少年的性行为:人人都在谈论,但没人真正懂得怎么做,大家都以为别人在做,于是每个人都声称自己在做。
November 30, 2023
View Article本篇博客是关于使用纯 PyTorch 加速生成式 AI 模型的系列文章的第二部分,由 PyTorch 团队撰写。我们在这里分享了 PyTorch 的最新性能特性,并通过实际案例,展示了如何最大限度地提升 PyTorch 的性能。在系列的第一篇文章中,我们演示了如何仅用 PyTorch 将“Segment Anything”加速超过 8 倍。本文将聚焦于大语言模型(LLM)的优化技术。
November 30, 2023
View Article本指南深入剖析了最常见的领导风格,以清晰、直接的方式分析了它们的优点与不足。您将得到一个实用且全面的概述,帮助您不仅了解这些风格本身,还能理解它们在实际情况中的应用方式。无论您已是领导,希望提升领导方法,或是初入领导岗位,这份指南都将为您提供有价值的见解,助您有效应对领导挑战。
November 30, 2023
View Article工作中不仅有艰巨的任务和职业挫折这样的压力源,更具挑战的是,有时你不得不与那些你不喜欢、不合得来或让你感到烦恼的人一起工作。
November 29, 2023
View Article我想花点时间探讨历史上的一大用户界面灾难:1988 年 7 月 3 日,美军海军导弹巡洋舰 USS Vincennes (CG-49) 在波斯湾上空误击伊朗航空 655 号航班,机上 290 人全部遇难。
November 29, 2023
View Article2003 年 2 月的一个晚上,我在加州帕萨迪纳的 NASA 喷气推进实验室 (JPL) 里,一切如常。我穿上了洁净室的专用服装,通过了 179 号大楼的高湾 1 气闸室。这里自 60 年代的月球任务 Ranger 系列以来,就是 NASA 许多历史性星际航天器的诞生地。经过无数工程师、技术人员和科学家多年的辛勤劳动,距离 Spirit 火星探测车运往佛罗里达州卡纳维拉尔角发射场,与它的“兄弟”Opportunity 一同踏上旅程,只剩下两周的时间了。
November 29, 2023
View Article我曾在谷歌短暂工作过,尽管时光荏苒,但那段经历让我对谷歌的内部开发工具印象深刻。谷歌的开发工具在很多方面可谓世界领先。他们不仅在扩展自己的软件系统方面走在前沿,还在大规模高效软件开发方面颇有建树。谷歌处理了代码库规模、代码发现、组织知识共享和多服务部署等问题,这些在大多数公司看来都是高难度挑战。(参考资料:[《谷歌的软件工程》](https://www.amazon.com/Software-Engineering-Google-Lessons-Programming/dp/1492082791)。)
November 29, 2023
View Article我们最近发布了一篇论文,展示了如何仅花费约两百美元就能从 ChatGPT 中提取数兆字节的训练数据。语言模型如 ChatGPT,是基于从公共互联网收集的数据进行训练的。我们的研究表明,通过对模型进行查询,我们实际上能够获取它训练时使用的一些具体数据。我们估计,如果增加查询模型的投入,能够从中提取大约一千兆字节的 ChatGPT 训练数据集。
November 29, 2023
View Article我见过不少初创公司,他们只是简单地整合几个生成式 AI API,做点提示工程,然后加个前端界面。有些产品做得挺精致,功能也不错。但这些公司大多走不远,要么就是普通公司(并非 Paul Graham 定义下的典型初创公司),要么就消失了。显然,如果你能在一个周末搭建出这样的项目,别人也能。假设你编码能力超群,是位杰出的程序员奇才!其他人或许需要花几个周末……但最终还是会有人做出类似的东西。
November 28, 2023
View Article这家公司的 CEO,黄仁勋,把所有筹码压在了一种全新的芯片上。如今 Nvidia 已跻身世界最大公司之列,他的下一步会怎样?
November 28, 2023
View Article研究人员常常需要花费大量时间来阅读学术论文,但这一技能很少有教授传授,导致许多努力白费。本文提出了一个既实用又高效的方法——三遍阅读法,用于阅读学术论文,并介绍了如何利用这种方法进行文献调研。
November 28, 2023
View Article技术写作无处不在——从你新买的智能手机的使用手册,到药瓶上的安全指导,都是技术写作的体现。技术写作的最大魅力在于,它能将复杂的技术信息以清晰、简洁的方式呈现出来。
November 27, 2023
View ArticleYC 看似是个合理的选择。他们提供资金帮助你创业,并承诺让你接触一个能在创业过程中提供帮助的社区。作为回报,他们仅索取一小部分股权。听起来似乎还不错,不是吗?
November 27, 2023
View Article我听过最恰当的关于创业公司的比喻是,它们就像是淘金之旅。这并非因为其中蕴含的冒险精神、团队间的情谊,或是最终等待着的财富。而是因为淘金之旅分为两个截然不同的阶段:首先,你得寻找到黄金;其次,才能建造矿井。创业公司的真正任务在于前者——Steve Blank 甚至更进一步,将创业公司定义为正处于这一阶段的公司:只有当它找到黄金(或者说,一个“可复制的商业模式”)之后,它才转变为一家普通的商业公司。
November 27, 2023
View Article本文介绍了 Branches,这是我们开发的一款工具,用于构建和展示先进的大语言模型(LLMs)推理和规划算法的原型。我们利用 Branches 来解决为 HumanEval 生成 Python 代码的挑战。
November 27, 2023
View Article对大部分认识我的人来说,我大多数时间像是一个文本处理程序。既然输入输出都这么简单,一个模型能不能取代我呢?为了实现这一点,模型不只需要模仿我的写作风格,还得对我有深入了解。而我的 Telegram 使用记录是最好的信息源,我每天都用它,它几乎记录了我所有的想法和行动。
November 27, 2023
View Article你可能听说过,人工智能就像一个“黑匣子”,神秘莫测。没有人确切知道它的运作机制。研究者们构建了一种类似神经组织的奇异结构,每当这个结构稍微朝着他们期望的人工智能方向进展一点,就给予它一些“奖励”。通过这样不断的微调,最终它成长为研究者心中理想的人工智能形态。但究竟这个过程中发生了什么,似乎只有上帝才知道。
November 27, 2023
View Article在商业领域,绩效的超线性回报尤为明显。有人认为这是资本主义的弊端,认为改变规则就能改变这一现象。但实际上,绩效的超线性回报是世界的一种本质特征,而非我们人为制定规则的副产品。我们在名誉、权力、军事胜利、知识甚至对人类的贡献等方面都能观察到这一模式。在这些领域,成功者往往会越来越成功。
November 25, 2023
View Article这个问题的提法从极为正面的“谁会不想带领一个团队呢?”到极为负面的“有谁会愿意去管理一个团队呢?”应有尽有。所以我决定写篇文章,列举一些不当经理的理由。
November 25, 2023
View Article我最近在伦敦采访了 Cloudflare 的首席执行官 Matthew Prince,我们讨论了人工智能、边缘计算和开发者体验 (DX) 等领域的最新趋势。他提到了一些颇具洞见的点——例如,他指出,由于 GPU 短缺,AI 公司现在更加倾向于多云解决方案。因为随着技术拓扑结构变得越来越复杂,AI 问题已经演变成了一个分布式计算和网络的挑战。
November 25, 2023
View Article本文将介绍构建您首个大语言模型应用所需了解的一切,以及您今天就能开始探索的潜在问题领域。
November 24, 2023
View Article利用像 Claude 这样的 AI 工具,你可以撰写篇幅较长的文章。通过分段撰写,你似乎能保持自己的风格和思路,同时引导 AI。但是,我的实践表明,用 AI 写作比我预期的要难。我可以做到差不多,但由于 AI 工具的训练方式,它们最终更倾向于解释而非辩论,这可能会让个人随笔失去很多趣味。
November 24, 2023
View Article紧急专题:要弄懂 Q*,我们需要的信息其实就在我们身边,只是网络流行语更比现实生活有趣。
November 24, 2023
View Article我于 2005 年 10 月加入谷歌,18 年后,我递交了辞呈。上周,我结束了在谷歌的最后一段日子。
November 23, 2023
View Article我于 2005 年 10 月加入谷歌,18 年后,我递交了辞呈。上周,我结束了在谷歌的最后一段日子。
November 23, 2023
View Article只有两种模式能够随着计算能力的增加而无限扩展,那就是学习和搜索。构建 AI 系统时,不应将我们的发现内置其中,而应让 AI 系统能够像我们一样进行发现。这是 AI 领域仍需学习并克服的重要教训。
November 23, 2023
View Article大语言模型 (LLMs) 已经在各种决策任务上取得了卓越的成绩,但它们通常只执行简单的行为,并没有真正作为自主代理得到广泛应用。我们提出了一种名为 LATS (语言代理树搜索) 的新框架,它将 LLMs 在规划、行动和推理方面的功能有效结合起来。LATS 框架的创新之处在于,它借鉴了强化学习中的蒙特卡洛树搜索技术,将 LLMs 当作代理使用,同时充当价值函数和优化器的角色,通过这种方式大幅提升决策质量。最关键的是,LATS 利用外部环境提供的反馈,实现了一种更为周全和灵活的问题解决方式,这一点超越了现有方法的限制。我们在不同领域进行的实验评估证明了 LATS 的有效性,无论是在编程、HotPotQA 还是 WebShop 任务上,LATS 都显示出了其推理和行动能力。特别值得一提的是,在 HumanEval 编程任务上,配合 GPT-4 的 LATS 达到了 94.4% 的成功率,在 WebShop 网页浏览任务上,配合 GPT-3.5 实现了平均 75.9 的得分,这些成果都突显了我们方法的高效性和广泛适用性。
November 9, 2023
View Article我们构建了一个新的框架,这个框架可以帮助我们更好地理解通用人工智能(AGI)及其早期版本的能力和表现。这个框架详细划分了 AGI 的性能、适用范围和自我控制能力的不同层次。我们希望,这个框架能够像划分自动驾驶技术等级一样,为人们提供一种通用的语言,以便比较不同的 AGI 模型,评估它们可能带来的风险,并跟踪我们在实现 AGI 这一目标道路上的每一步进展。为了建立这个框架,我们审视了 AGI 的现有定义,并从中提炼出六大原则,以构建一个实用的 AGI 分类体系。这些原则强调重视 AGI 的实际能力,而不仅仅是其背后的技术机制;它们建议我们应当分开评估 AGI 的适用范围和性能水平;并且我们不应该只着眼于最终目标,而应该明确标记出通向 AGI 的每一个阶段。基于这些思路,我们根据 AGI 的能力深度(即性能)和广度(即适用范围)提出了“AGI 等级”,并且对当前系统如何符合这个分类体系进行了思考。我们还讨论了未来评估 AGI 行为和能力的基准测试所面临的挑战。最后,我们探讨了这些 AGI 的不同层次如何与实际部署时的自主性和风险管理相结合,并强调在部署高级 AI 系统时,选择合适的人机交互方式对于确保系统的负责任和安全使用至关重要。
November 8, 2023
View Article这个笔记本演示了如何利用 GPT 的视觉能力来处理视频内容。
November 7, 2023
View Article本文介绍了 Branches,这是我们开发的一款工具,用于构建和展示先进的大语言模型(LLMs)推理和规划算法的原型。我们利用 Branches 来解决为 HumanEval 生成 Python 代码的挑战。
November 7, 2023
View ArticleChatGPT 的问世极大推动了大语言模型在现实世界的应用步伐。我们(包括我在 OpenAI 的同仁们,向他们表示敬意)在模型调整过程中投入巨大努力,确保默认的安全性行为(比如,通过 RLHF)。不过,对抗性攻击或一些特定的提示可能会诱使模型产生一些意料之外的回应。
November 7, 2023
View Article