直截了当:展示给我提示符。 [译]
通过截获 API 调用,迅速掌握难以解读的大语言模型框架。
February 15, 2024
View Article翻译的一些我觉得不错的科技文章。
通过截获 API 调用,迅速掌握难以解读的大语言模型框架。
February 15, 2024
View Article关于未来职业的讨论已经铺天盖地,我也曾深入探讨过从机器人管家到气候难民等多个领域。而在 AI 创造的众多工作中,最近一年多来,“提示工程师”这一职业引起了广泛关注。
February 14, 2024
View Article本期,我将介绍一个教程,告诉你如何利用 Node.js 构建一个系统,该系统能够通过 Youtube 视频链接,利用 OpenAI 提供的 completions api(也就是 ChatGPT 所基于的 API)来生成视频内容的摘要。
February 14, 2024
View Article关于《纽约时报》与 OpenAI 版权诉讼结果的思考
February 13, 2024
View Article“这家公司缺乏焦点”这句话让我感到困惑。公司不是应该通过增加员工来扩大其业务范围,进而提高专注度吗?事实上,这是有道理的:例如,谷歌有超过 100 个产品,远超任何初创公司的产品数量。但从另一个角度看,鉴于谷歌拥有约 20 万员工,100 个产品似乎又显得不足。以 Instagram 为例,它最初只有不到 13 名员工就成功推出了产品。按照这个效率,谷歌理论上应该能推出更多的产品。那么,是什么导致了这种差异?大型科技公司为什么不能推出更多的产品呢?
February 12, 2024
View Article我正坐在夏威夷一座 10,000 英尺的高山之巅,面前是一块 30 英尺的巨屏,同时也在奥斯汀一家咖啡馆里的桌旁。我敢说,周围的人肯定在偷拍我,然后把照片发给朋友,让他们一起笑我是个怪人。最近这一周,我的生活变得不可思议。我的奇幻之旅始于 30 年前的 1990 年,那时候我的父母带我去波士顿的海港世界贸易中心参观一场名为“虚拟现实展”的活动。我站在一个小圆台上,工作人员给了我一个塑料枪,又戴上了一个笨重的头盔。瞬间,我仿佛穿越到了一个卡通世界,穿着军装,手里拿着真枪。台旁的另一个人也以卡通形象出现,同样手持枪械。在一阵笨拙的挥舞和射击后,我被工作人员请出,为下一个人让出位置。
February 12, 2024
View Article我一直在网站服务和移动应用开发领域工作,但这最终变得有些单调。回想起高中时代,我曾是焊接俱乐部的一员,那时起我就有种想挑战更高难度问题的渴望。两年前,我开始在阿姆斯特丹寻觅机遇,最终加入了 Monumental。如今,我在这里致力于利用机器人技术自动化建筑施工,首先从砖石工作开始。当系统顺利运行,亲眼见证一堵墙慢慢建成时,那份成就感是难以言喻的。相比之下,看到别人忙于加密货币或金融科技的项目时,我总感觉如果我去做那些事情,肯定会感到极度无聊。
February 12, 2024
View Article事实证明,木工的精髓与软件工程并无太大差异:在软件工程中最美妙的时刻莫过于构建你自己的工具,这是一种充满目的的工作。
February 12, 2024
View Article谷歌通过分析用户与搜索结果页面的互动数据——例如点击某个结果、返回再点击其他结果——来优化其搜索结果的排名。多年来,这种方法帮助谷歌在搜索相关性上保持领先,因为相比其他搜索引擎,谷歌拥有更丰富的用户互动数据。但在 2018 年末,谷歌工程师们意识到,随着语言模型的发展,它们最终能够仅凭网页的文本内容,而无需任何用户反馈,就理解网页的含义。这一发现表明,即使是一个小型的创业公司也有可能挑战谷歌在搜索领域 20 年的领先优势。谷歌资深软件工程师 Eric Lehman 在观察到谷歌的 BERT 语言模型在处理搜索结果页面上的“网页答案”时取得的初步成果后,写了一封电子邮件,警告 AI 技术可能对公司构成重大威胁。
February 12, 2024
View Article我们真的有学过如何进行良好的交谈吗?事实上,并没有。似乎人们总期望我们能自然地学会这门技艺...难怪很多人的沟通技巧并不尽如人意。如何才能成为那种人们乐于交谈的人呢?为了回答这个问题,我整理了大量的研究和专家访谈,让我们一起把这些知识转化为实际可行的技巧。
February 11, 2024
View Article一个有意思的 80 年代调试磁带驱动器故障的小故事
February 6, 2024
View Article我将教你成为一位超级谈判高手。(或者至少成为一个有些古怪但能力出众的亿万富翁谈判家,听起来是不是有点酷?)认真说,这篇文章将深入讲解整个谈判流程,并且详细讨论如何成功谈判工作报价的最后四条规则。
February 6, 2024
View Article这篇文章是我们论文《构建你自己的产品副驾驶(Copilot):挑战、机遇与需求》的非正式总结。
February 6, 2024
View Article通过检索增强的语言模型,我们能更灵活地跟上世界的变化,并融入更广泛的知识。但现有的大多数方法只能从资料库中取得短小连贯的文本片段,这限制了对文档整体情境的深入了解。我们提出了一个创新的做法:通过递归地嵌入、分类和概括文本块,我们从底层向上构建了一个分层总结的树状结构。在进行推理时,RAPTOR 模型能够从这棵树中检索信息,使我们能够在不同层次上整合长篇文档的信息。通过控制实验,我们发现,相比传统的检索增强语言模型,在多个任务上采用递归概括检索的方法显著提高了性能。特别是在需要复杂多步推理的问答任务上,我们的方法取得了前所未有的效果。举个例子,结合 RAPTOR 的检索能力和 GPT-4 的强大计算,我们在 QuALITY 问答基准测试上实现了 20% 的准确率提升。
February 5, 2024
View Article如何克服检索增强生成中的关键难题
February 4, 2024
View ArticleChatGPT 正在逐步改变我们熟悉的工作模式。无论是协助小企业处理行政工作,还是为网页开发者编写 React(React)组件,它的实用性不言而喻。在 interviewing.io,我们对 ChatGPT 如何改变技术面试的方式进行了深入思考。一个关键问题是:ChatGPT 会不会让面试作弊变得更加容易?想要了解答案,不妨看看这段 45 秒的视频。视频里,一位工程师利用 ChatGPT 精准回答了面试官的问题。
February 1, 2024
View Article2023 年第四季度财报电话会议
February 1, 2024
View Article我们将深入了解构建企业级 RAG (Retrieval-Augmented Generation) 系统的复杂世界。网络上虽然不乏关于简易 RAG 系统的文章,但要构建一个坚固的企业级解决方案,过程却充满未知。许多开发者甚至不知道构建 RAG 系统时最关键的决策是什么...这篇博客不只是理论探讨,更是一个实践指南,旨在助您一臂之力!我们将从保障安全的关键措施到查询重写如何影响用户体验,提供实用的洞见和实际案例。无论您是资深开发者还是技术领袖,都请准备好深入探索先进的企业级 RAG 系统的世界!
February 1, 2024
View Article无论是工作、做饭、滑雪还是休闲放松——我体验了一周 Apple 的最新混合现实头显,探索它的实际用途。
January 31, 2024
View Article给 GPT-4 Turbo 提供小费以期获得更完美的回答,这种做法真的有效吗?目前对此话题的研究还相当有限。我们对一些编程相关的提示进行了初步实验,发现给予一定的小费可能确实有效,但小费的数额似乎非常关键。例如,如果小费很少(比如只有 $0.1),GPT-4 Turbo 的表现反而会变差。在我们的实验中,提供 $0.1 和 $100 万美元的小费,性能改善幅度分别是 -27% 到 +57%。但是,为了验证这一观点,还需要对不同类型的提示进行更多实验,并且这些实验需要有可靠的基础数据作为支撑。
January 31, 2024
View Article经历了超过十年的零利率,科技行业即将迎来巨变。利率上升将如何影响软件工程师的工作、发展以及职业规划?你需要怎样为即将到来的变化做好准备?
January 31, 2024
View Article2023 年是 GitHub Copilot 大放异彩的一年。在短短不到两年的时间里,这款 AI 编程助手已从一个初步的原型迅速成为众多开发者和企业中不可或缺的重要工具 [1]。它的迅猛发展开启了编写代码的新纪元。GitHub 已经发布了数份关于 AI 如何影响软件开发的增长和影响的研究。他们的一项重要发现是,开发者在使用 Copilot 时,编码速度提升了“55%”。面对大量由 LLM 生成的代码,我们不禁要问:这些代码在质量和可维护性上与人工编写的代码相比如何?它们是不是更像经验丰富的高级开发者的精心作品,还是更接近短期合同工的零散拼凑?为此,GitClear 收集了从 2020 年 1 月到 2023 年 12 月之间的 153 百万行代码变更记录 [A1]。这是目前已知最大的用于分析代码质量差异的高度结构化代码变更数据集 [A2]。我们发现了一些关于代码可维护性的令人担忧的趋势。代码变更率 —— 指在编写后不到两周就被修改或撤销的代码行所占的比例 —— 预计在 2024 年将是 2021 年 AI 出现之前的两倍。我们还发现,“新增代码”和“复制/粘贴代码”的比例相比于“更新的”、“删除的”和“移动的”代码在上升。从这个角度看,2023 年生成的代码更像是一位临时的贡献者,容易打破代码库的“不重复原则”(DRY-ness)。我们以一些针对管理者如何在这种逆流中保持代码高质量的建议作为本文的总结。
January 30, 2024
View Article本文将带您一步步实现一个稀疏混合专家语言模型。这个项目受到了 Andrej Karpathy 的 'makemore' 项目的启发,并在很大程度上基于它,借鉴了许多可重用的组件。与 'makemore' 类似,'makeMoE' 也是一种自回归的字符级语言模型,但它采用了所谓的稀疏混合专家架构。文章的后续部分将详细介绍这种架构的关键要素及其实现方式。我希望您通过阅读本文并实践代码,能对整个系统的工作原理有一个直观的了解。
January 30, 2024
View ArticleApple Vision Pro 是迄今最佳的消费级头戴设备,但这恰恰是它的问题所在。新推出的 Apple Vision Pro 承载着巨大期望,它标志着苹果正式进入面部穿戴式计算机的领域。苹果宣称,售价起始于 3,499 美元的 Vision Pro,开启了一种名为“空间计算”的新篇章,这一概念实际上是指在你四周运行各种应用程序。苹果对此的广告宣传也毫不保留:展示人们在各种场合都戴着 Vision Pro——工作时、洗衣时、与孩子玩耍时。其雄心勃勃的目标是在现实世界中叠加应用和信息,以此增强现实感。
January 30, 2024
View Article关于最初的电气和杰出应用研发实验室,其历史分析能给 Answer.AI 带来什么启示,以及他们可能面临的风险
January 30, 2024
View Article这篇博客是为那些渴望做出重要成就或对工作有所贡献,却觉得自己不够聪明或缺乏才能的人而写的。
January 30, 2024
View Article计算机科学教师和软件专家对机器学习辅助工具的建议
January 29, 2024
View Article最坏情况能有多糟?
January 29, 2024
View Article本文讨论了大型科技公司中的绩效管理问题,特别是与解雇和奖励决策相关的复杂过程。作者指出,尽管普遍认为大型科技公司想要营造一种残酷的竞争环境,但在资金充足的快速成长公司里,解雇平庸员工并非内在动力。绩效管理过程对管理者造成压力,且可能伤害士气、增加法律风险,并导致机构知识的流失。文章还提到了员工对公平的执着,以及管理者如何处理下属之间的比较和感知不公。早期,绩效管理通常由经理决定,但这导致了一些问题,例如偏袒和严厉的评价不一。谷歌在其早期尝试了基于同事评价的绩效管理系统,这种模式逐渐被其他科技公司采纳。然而,这种方法并未带来预期的益处。大多数员工的反馈都是积极且平庸的,真正的差劲表现者或社交技能不佳者成为例外。为了解决这个问题,管理者不得不“解读”反馈以进行排名,用于决定解雇、晋升和奖金。尽管看似由同事驱动,实际上大部分重要决策仍由经理做出。文章最后指出,这种由谷歌发起的绩效管理流程并没有比它试图取代的系统表现得更好。它只是将经理层面的偏袒指控转换为更大的阴谋论,而且对于维持高水平的晋升标准所付出的代价也很高。
January 29, 2024
View Article我们将深入了解构建企业级 RAG (Retrieval-Augmented Generation) 系统的复杂世界。网络上虽然不乏关于简易 RAG 系统的文章,但要构建一个坚固的企业级解决方案,过程却充满未知。许多开发者甚至不知道构建 RAG 系统时最关键的决策是什么...这篇博客不只是理论探讨,更是一个实践指南,旨在助您一臂之力!我们将从保障安全的关键措施到查询重写如何影响用户体验,提供实用的洞见和实际案例。无论您是资深开发者还是技术领袖,都请准备好深入探索先进的企业级 RAG 系统的世界!
January 27, 2024
View Article随着大语言模型 (LLMs) 的突飞猛进,一个以真实世界中的自动化应用为核心的新时代已经来临。这一时代的特点是推动了基于网络的先进智能体的发展。目前市面上的网络智能体大多只能处理单一输入模式,并且它们的性能通常仅在简化的网络模拟环境或是静态的网络快照中得到评估,这大大限制了它们在实际应用中的有效性。为了解决这一问题,我们推出了 WebVoyager:一个创新的、由大型多模态模型 (LMM) 驱动的网络智能体。WebVoyager 能够通过与现实世界中的网站交互,全面完成用户的各项指令。此外,我们还提出了一种新的评估协议,用于应对开放式网络智能体任务自动评估中的种种挑战。我们利用 GPT4V 的强大多模态理解能力,从 15 个广泛使用的网站中收集真实世界任务,作为衡量我们智能体性能的新基准。测试结果显示,WebVoyager 的任务完成率高达 55.7%,明显优于 GPT4 (含所有工具) 以及仅文本模式的 WebVoyager,这充分证明了它在实际应用中的出色能力。我们的自动评估方法与人类评判的一致性高达 85.3%,为网络智能体在真实世界环境中的进一步发展奠定了坚实的基础。
January 27, 2024
View Article2023 年标志着计算技术新纪元的开始。迄今为止,生成式 AI 主要关注于技术层面的发展。同时,大多数 AI 产品仍然在使用最初模型提供商设计的聊天界面,就像早期个人电脑时代的命令行界面,这对用户提出了较高的要求。
January 27, 2024
View Article从 Blockbuster 的失败中学到的整合 AI 的智慧,以及为何光靠✨(闪光表情符号)不够。
January 26, 2024
View Article在日常生活中融入运动,比如骑车通勤或做家务,是一种巧妙的燃脂方式。这就是所谓的 NEAT(非运动性活动热量消耗)的理念。
January 25, 2024
View Article随着大语言模型(LLMs)的进展,最近人们越来越多地讨论通用人工智能(AGI),包括它的发展趋势和可能的面貌。这些讨论既有乐观的期待,也有对未来充满担忧的声音。但遗憾的是,这些讨论往往过于抽象,导致大家在讨论中各说各话,难以达成共识。因此,我一直在寻找具体的例子和历史先例来更实际地探讨这个话题。当被问及我对 AGI 的看法时,我通常会举自动驾驶为例。在这篇文章中,我想解释这样做的原因。
January 25, 2024
View ArticleReact 服务组件 为 React 引入了专属于服务端的强大功能。我在 Next.js 13 和 14 的应用中实践了这一新范式,接下来是我对其的真实评价。之前我一直在犹豫是否要发表这篇文章,因为 React 社区过去对待批评的态度让我有所顾虑。但最近,我认为分享我的看法变得尤为重要,特别是在我发现大多数现有批评要么记录不充分,要么基于对此技术的不熟悉。写下这篇文章,我是站在一个非常重视用户体验的角度。虽然我也关注开发者的体验,但我始终认为用户体验是最重要的。
January 24, 2024
View Article大语言模型(LLM)已经在人工智能领域带来了革命性的变化。然而,它们的应用受限于处理信息的上下文窗口较小,这在执行长对话和文档分析等任务时尤其成问题。为了突破这一限制,我们提出了一种名为虚拟上下文管理的新技术。这种技术借鉴了传统操作系统中层次化内存系统的理念,能够通过在不同速度的内存间转移数据,从而扩展大语言模型处理信息的能力。基于这种技术,我们开发了 MemGPT(Memory-GPT),这是一个智能系统,它能够有效地在大语言模型本身有限的上下文窗口内提供更广泛的上下文信息。此外,MemGPT 还采用中断机制,以优化系统与用户间的交互控制流。我们在两个重要领域对这种受操作系统启发的设计进行了评估:一是文档分析,在这一领域,MemGPT 能够处理远超大语言模型本身上下文限制的庞大文档;二是多回合对话,在这里,MemGPT 能够构建出能够记忆、反思并在与用户长期互动中不断进化的对话智能体。
January 24, 2024
View Article探究当前工作环境的失衡 —— 以及其可能的解决之道
January 23, 2024
View Article“我记得那天站在雨中\[观看我女儿的足球比赛],为她加油助威,心里想着,‘我希望能有更多这样的时刻。’”
January 23, 2024
View Article你有没有遇过那种似乎总能预知事情结局的人?他们并不是能预见未来的通灵者。其实,他们的秘诀在于洞察生活中的规律,这正是许多成功人士的共同技能,亿万富翁迈克尔·鲁宾就是这样的人。
January 23, 2024
View Article2023 年夏,我们在哈佛大学的 CS50 课程中引入了一套 AI 软件工具。这些工具最初面向大约 70 名夏季课程的学生,随后向数千名线上学生开放,并在同年秋季扩展到校园的数百名学生。遵循课程政策,我们鼓励学生使用这些专为课程设计的工具,同时限制了他们使用 ChatGPT、GitHub Copilot 以及新版 Bing 等商业 AI 软件。我们的目标是通过软件实现接近 1:1 教师对学生的比例,使每位学生都能随时拥有一位以教学为导向的学科专家助手。这些工具的设计目的是引导学生探索解决方案,而非直接给出答案。学生对这些工具的反响积极,他们表示这就像拥有了一位“个人导师”。我们的研究发现,将 AI 有策略地融入教育环境可以通过提供持续的个性化支持,提升学习体验,并帮助教育者解决更复杂的教学难题。在本文中,我们将详细讲述 AI 工具如何在 CS50 课程中提升教学和学习效果,主要涉及代码片段解释、代码风格改善,以及对课程讨论论坛上的课程内容和行政问题的精准回应。此外,我们还将分享我们的方法论、实施细节,以及对那些考虑在教育领域应用这些工具或 AI 技术的人的建议。
January 22, 2024
View Article大家好,我是 Joosep Seitam。今天我要跟各位创业者分享一个故事:就是我如何从一个大胆的想法出发,在短短 8 个月内,让我在珠宝行业的月收入达到了 3 万美元。我和我的合伙人 Martin Kardi 一起创办了一家专门销售镀金榴石嘻哈珠宝的公司。我们的产品主要针对居住在美国的非裔群体。我们销售的是一种非常特别的珠宝,即嘻哈风格的珠宝。仅仅 8 个月,我们就通过搜索引擎优化(SEO)的方式,将公司收入提升到了每月 3 万美元。在这个过程中,我们的网站每月自然访问量已经超过了 1 万次。这是两年前的我和 Martin,那时我们一贫如洗,对未来一无所知……
January 22, 2024
View Article我每天在专业和个人生活中都使用大语言模型,我发现它们是极好的工具——它们不仅提高了我的工作效率,更让我在使用技术时感到愉快和满足,经常让我会心一笑。如果它们对我有帮助,那它们就不可能是无用的(除非我的经验毫无价值,那么你也就没必要读这篇文章了)。而那些怀着好意参与这类讨论的人会问我,“那么,你是怎么使用这些工具的呢?”因此,我查看了我过去一个月的 ChatGPT 使用记录,并将在这里列举一些用途。
January 22, 2024
View Article在我们深入 RAG 聊天机器人系列的最后几章之前,许多逐步构建聊天机器人的读者可能遇到了一些疑问。比如,在不追求快速反应、而更看重准确回答的情况下,比如医疗类聊天机器人,我们应该如何做?今天,我们要介绍三种不同的技术,它们专注于在特定技能上提升聊天机器器人的整体性能。重要的是,本节我们将不采用任何开源库或工具。这一选择是刻意为之,主要是为了关注性能优化这一核心议题。尽管这些技术对于聊天机器人的功能来说是可选的,但它们对于对性能有特别要求的用户和企业而言却非常关键。在本次讨论中,我会通过代码片段来详细说明每种技术。所有这些代码片段都可以轻松地融入之前文章中的代码,使得实施过程变得无比简单。如果您觉得这些示例对您的机器人项目有帮助,请随意使用。以一个为最终用户提供棋盘游戏信息的聊天机器人为例,我们来具体看看这些技术是如何应用的。
January 21, 2024
View Article“其实并不是没人再需要你。”这番话出自我身后的一位年长女士之口,当时我们正乘坐从洛杉矶飞往华盛顿特区的深夜航班。飞机里暗淡且静谧。她旁边的男士小声回应,声音几乎听不清,大意是“我宁愿已经死了。”她再次开口:“别那么说。”我原本无意偷听,但他们的对话不禁引起了我的极大兴趣。我脑海中开始描绘这位男士的形象,想象他是一位默默无闻却终身勤勉工作的人,怀揣着未曾实现的梦想——或许是未获得的学位,未追求的职业生涯,未创办的公司。当飞机降落、灯光亮起,我终于见到了那位绝望的男士。让我震惊的是,他是我认识的——一位世界知名的人物。那时他已经 80 多岁,曾因多年前的勇气、爱国精神和成就而被众人爱戴。他从我身后走过飞机走道时,其他乘客纷纷带着敬意向他致意。当他站在驾驶舱门口时,飞行员拦住他说:“先生,我从小就非常敬佩您。”就在几分钟前还渴望死亡的老人,在得到过去荣耀的认可时,脸上露出了自豪的笑容。
January 21, 2024
View Article在过去几个月中,我尝试了三次撰写这篇文章;这是个复杂的话题。公众总是乐于看到大公司,特别是那些自负的硅谷科技公司被批评,他们喜欢看“失宠”的故事。但我并不想抹黑谷歌。尽管如此,谷歌依然是一个出色的工作环境,远胜过大多数其他公司,并且依然在创造惊人的成就。我的目的是想分享谷歌发生的一些独特而美好的事情,希望这些美好能在未来的某个地方重现。毫无疑问,谷歌早期的日子是非常特别的。我特意保存了一封电子邮件长达 18 年,直到我离开公司那天,因为我知道它会是一段有趣的历史对比。这封邮件主要描述了一些表面的差异,比如免费的美食。但这并不是谷歌员工来上班的主要原因。我想深入探讨的是谷歌文化中更深层次、更有意义的方面。
January 21, 2024
View Article在自然语言处理领域,大型预训练语言模型因能存储大量事实知识而备受关注,尤其是在针对具体任务进行细致调整后,它们的表现尤为出色。不过,这些模型在获取和准确使用知识方面仍有所不足,特别是在那些需要大量知识的任务上,它们的效果还不如专为特定任务设计的系统。此外,如何为这些模型的决策提供依据,以及如何更新它们所掌握的世界知识,仍是目前研究中的难题。迄今,研究人员已经探索了在提取型任务中应用具有可微分存取机制的非参数记忆的预训练模型。本研究则是针对检索增强生成(Retrieval-Augmented Generation, RAG)的通用调整方法进行探讨。这种方法结合了预训练的参数记忆(如 seq2seq 模型)和非参数记忆(例如,通过预训练神经网络检索器访问的 Wikipedia 的密集向量索引)。我们对比了两种 RAG 方法:一种是在整个生成过程中使用相同的检索内容,另一种则在生成的每个部分可能使用不同的内容。我们对这些模型在多种知识密集型任务上进行了细致的调整和评估,在几个开放领域的问答任务上取得了领先成绩,超过了传统的 seq2seq 模型和专门为特定任务设计的检索 - 提取系统。在语言生成任务中,我们发现 RAG 模型能产生更具体、多样化且符合事实的语言,相比之下,传统的只依赖参数的 seq2seq 模型则显得逊色。
January 19, 2024
View Article高中数学奥林匹克选手们要注意了,AlphaGeometry 正在挑战你们在数学领域的成就。
January 18, 2024
View Article这里为您提供了一些建议和技巧,旨在提高大语言模型应用的精准度,并介绍了选择合适大语言模型的要点。
January 18, 2024
View Article代码生成的难题与普通的自然语言处理不同 —— 它们涉及严格遵循目标编程语言的语法规则、识别正常和边界情况、关注问题规范中的众多细节,并应对代码特有的其他问题和需求。因此,自然语言生成领域的许多常用优化技巧对代码生成任务来说可能并不适用。在这项研究中,我们提出了一种全新的代码生成方法,名为 AlphaCodium —— 一种基于测试、分阶段、专注于代码的迭代处理流程。这种方法显著提升了大语言模型 (LLM) 在处理代码问题上的能力。我们在一个具有挑战性的代码生成数据集 CodeContests 上进行了 AlphaCodium 的测试,这个数据集包含了来自 Codeforces 等平台的竞赛编程题目。我们的方法在这些测试中始终保持着显著的性能提升。例如,在验证数据集上,使用 AlphaCodium 流程后,GPT-4 的准确率(pass@5)从单一精心设计的直接提示的 19% 提升到了 44%。AlphaCodium 在性能上不仅超越了之前的研究成果,如 AlphaCode,而且所需的计算资源也大大减少。我们认为,在这项工作中形成的许多原则和最佳实践普遍适用于代码生成的各种任务。我们在最新开源的项目 AlphaCodium 中分享了我们针对 CodeContests 的 AlphaCodium 解决方案,并提供了完整的数据集评估和基准测试脚本,以便社区进一步研究和探索。
January 18, 2024
View Article