首页


从错误中学习:让大语言模型更擅长推理 [译]

近期,大语言模型(LLM)展示出在解决数学题目上的出色推理能力。为了让这种能力更上一层楼,我们提出了“从错误中学习”(LeMa)这一方法,它借鉴了人类学习过程中的机制。就像一个解题失败的学生会反思自己的错误并学会如何改正一样,LeMa 也通过这样的错误驱动学习过程对 LLM 进行了微调。我们首先从不同的 LLM 中挑选出错误的推理过程,然后使用 GPT-4 作为“纠错师”,负责识别错误的环节、解释错误发生的原因,并对错误进行改正,最终得出正确答案。实验结果表明,LeMa 的确能够提升 LLM 的性能:在五个不同的 LLM 和两个数学推理任务中,LeMa 都比单独使用 CoT 数据进行微调表现得更好。尤其值得一提的是,LeMa 甚至能够提升专业 LLM 如 WizardMath 和 MetaMath 的性能,在 GSM8K 任务上达到了 85.4% 的 pass@1 准确率,在 MATH 任务上达到了 27.1% 的准确率,这些成绩超过了这些困难任务上其他非执行开源模型所能达到的最先进水平。

November 1, 2023

View Article

脑波解码:向着实时重现视觉感知迈进 [译]

在最近五年里,生成型和基础型人工智能系统在解读大脑活动方面取得了巨大进步。特别是在视觉感知方面,现如今我们能够通过功能性磁共振成像(fMRI)技术进行高度精确的解码。但是,这种技术的时间分辨率较低(大约为 0.5 Hz),这严重限制了它在实时应用方面的能力。为了解决这一问题,我们提出了一种新的方法,即利用脑磁图(MEG)这种设备。MEG 能以极高的时间分辨率(大约为 5000 Hz)测量大脑活动。我们为此开发了一个基于 MEG 的解码模型,该模型通过对比学习和回归分析进行训练,包括三个主要部分:i) 从图像中获得的预训练嵌入,ii) 端到端训练的 MEG 模块,以及 iii) 预训练的图像生成模块。我们的实验结果显示:首先,我们的 MEG 解码器在图像检索任务上的表现比传统的线性解码器提升了 7 倍。其次,我们发现利用 DINOv2(一种新型基础图像模型)能够更好地解码大脑对图像的反应,尤其是在反应较晚的阶段。第三,通过 MEG 信号,我们主要能够提取到高级的视觉特征,而当我们将同样的方法应用到 7T fMRI 数据时,我们还能够提取到低级的视觉特征。总的来说,这些发现为我们在实时解码人脑视觉过程方面迈出了重要的一步。

November 1, 2023

View Article

Musk 收购一年后,X(原 Twitter)的各项指标都在下滑 [译]

如果 Elon Musk 的目的是提升自己社交媒体主页的访问量,他完全有更经济、更简便的方法。在他用 440 亿美元收购 Twitter(近期更名为 X)快一年的时间里,我们唯一能看到的正面表现就是他个人主页 twitter.com/elonmusk/ 的访问量有所增加。

October 31, 2023

View Article

为何你不应该成为经理的 17 个理由 [译]

这个问题的提法从极为正面的“谁会不想带领一个团队呢?”到极为负面的“有谁会愿意去管理一个团队呢?”应有尽有。所以我决定写篇文章,列举一些不当经理的理由。

October 31, 2023

View Article

大语言模型的“破解”研究:仅需二十次尝试 [译]

随着人们越来越关注如何让大语言模型(LLMs)与人类的价值观保持一致,人们发现这些模型很容易受到“破解”攻击的威胁,这种攻击会诱使语言模型绕开其安全保护措施。因此,识别并解决这些潜在漏洞对于防止模型被滥用至关重要。为了实现这一目标,我们提出了一种名为“提示自动迭代细化”(PAIR)的算法,这种算法能够仅通过黑盒方式与大语言模型通信,生成语义破解。PAIR 算法的设计灵感来源于社会工程攻击,它能够利用一个“攻击者”语言模型自动对另一个目标语言模型进行破解,无需人工干预。通过这种方式,攻击者模型会反复向目标模型发起查询,不断更新和精细调整破解方案。根据我们的实验证明,PAIR 在大多数情况下能够在不到二十次的查询中成功破解目标模型,效率比现有算法高出许多个数量级。此外,无论是在开源还是闭源的大语言模型上,PAIR 都展现出了极高的破解成功率和良好的迁移性能,其中就包括了 GPT-3.5/4、Vicuna 和 PaLM-2 这样的模型。

October 31, 2023

View Article

利用语言模型挖掘人类偏好 [译]

语言模型(LMs)能够通过标注好的示例或者自然语言的提示来指引完成特定任务。但是,找到合适的示例或者编写有效的提示可能非常具有挑战性,特别是在那些涉及到不常见的边缘情况、需要准确表达模糊偏好,或者要求对语言模型行为有精确认识的任务中。我们提出了一种思路:利用语言模型*自身*来引导任务设定的过程。

October 30, 2023

View Article

CODEFUSION:代码生成领域的创新预训练模型 [译]

试想一个只能修改他们最新写的那一行代码的程序员,他们需要反复从头开始写代码,直到写对为止——这听起来是不是很费劲?传统的自然语言转代码的自回归模型也面临着类似的困境,一旦生成了代码,就很难再回头修改。为此,我们推出了 CODEFUSION,这是一个突破性的预训练扩散代码生成模型。它能够在自然语言的引导下,反复优化整段代码,直到生成高质量的程序代码。我们在 Bash、Python 以及 Microsoft Excel 的条件格式规则转换任务上对 CODEFUSION 进行了全面测试。测试结果令人振奋:尽管 CODEFUSION 只有 75M 的参数,但它在 top-1 准确率上与最先进且参数量高达 350M–175B 的自回归系统不相上下,而在 top-3 和 top-5 准确率上更是超越对手,彰显了它在保证代码质量的同时,还能提供丰富多样的代码生成选项的卓越能力。

October 30, 2023

View Article

GPT-4 不懂自己哪里错了:对解决问题时迭代提示法的深入分析 [译]

大家对大语言模型(LLMs)到底能否具备推理能力一直有很大的争议。虽然一开始人们非常乐观,认为模型的规模越大,推理能力就会自然而然地显现出来,但众多反例的出现,从简单的乘法运算到计划问题,都让这种乐观心态受到了挑战。尽管如此,许多人仍然坚信大语言模型能够对自己的答案进行自我批判,并通过迭代的方式不断完善解决方案。这种信仰似乎是建立在这样一个前提上:验证一个答案的正确性应该比产生答案更为简单。这是计算复杂性领域的一个经典观点,但如果 LLMs 主要进行的是近似检索的活动,那么这个观点对它们来说应该是不相关的。

October 29, 2023

View Article

如何用代码从 ChatGPT 网页中获取原始 Markdown 格式?

通过 React Dev Tool 的 Hook,可以拿到 React 组件的内部状态,从而拿到 ChatGPT 网页中的原始 Markdown 格式

October 29, 2023

View Article

退一步提示法解读

要让 LLM 能得到高质量的问答,和原始问题相关的高质量上下文信息是非常重要的,最好是不需要借助外部工具,直接通过特定的方法“激发”LLM 自己去生成高质量的上下文信息

October 28, 2023

View Article

PromptAgent:借助语言模型进行策略性规划,达到专家级的提示优化 [译]

我们引入了 PromptAgent,这是一种能够独立创建出与专家亲手打造的提示同样优质的优化方法。PromptAgent 把提示优化当作一个策略规划问题来处理,并运用了一种植根于蒙特卡罗树搜索的算法,巧妙地规划并探索专家级提示的可能性。

October 27, 2023

View Article

退一步,看得更远:通过抽象引发大语言模型中的推理 [译]

我们为大家介绍了一个称为“退一步提示法(Step-Back Prompting)”的新技巧,能让语言模型通过抽象思考,从具体信息中找到核心观念和基础原理。凭借这些核心观念和原理,语言模型在逻辑推理上的表现得到了显著的提升。

October 26, 2023

View Article

2023 年最佳发明 [译]

改变我们生活方式的 200 项创新

October 25, 2023

View Article

深入分析 GPTs 在机器翻译中的上下文学习[译]

一种叫做 Zero-Shot-Context 的新方法,它可以在没有任何示例的情况下,自动提高翻译的质量。我们的实验结果显示,使用这种方法,GPT-3 的翻译效果得到了明显的提升,甚至可以与有示例提示的翻译相媲美。

October 25, 2023

View Article

如何让 GPT-4 帮你写 Prompt?

很多人苦于不知道如何写高质量的 Prompt,尤其是如果要用英文表达更是吃力,不容易表达准确。

October 24, 2023

View Article

如何通过“链式验证”降低大语言模型的“幻觉” [译]

大语言模型偶尔会生成看似真实但实际上是错误的信息,这种情况被称为“幻觉”。我们研究了模型如何自我纠错。我们提出了一个名为“链式验证 (CoVe)”的方法:模型首先给出初步回答,然后制定问题来核实答案,并确保每个问题的回答不受其他回答的影响,最后输出经过核实的答案。实验结果显示,这种方法有效地减少了在不同任务中产生的误导性信息。

October 16, 2023

View Article

多模态和多模态大模型 (LMM)[译]

以前,我们的机器学习模型一般都只处理一种类型的数据,比如只处理文本、图像或音频。但是,想想我们人类的大脑。我们不仅仅读写文字,还可以看图、看视频,听音乐,还能够辨识各种不同的声音。所以,为了让 AI 更接近真实世界,处理多种类型的数据显得非常重要。

October 15, 2023

View Article

ChatGPT 中 DALL-E 3 的系统提示词 [译]

你想知道 ChatGPT 中 DALL-E 3 的系统提示词是什么吗?

October 15, 2023

View Article

AI 研究岗位的市场现状(以及我所经历的)[译]

工作岗位虽然众多,但找到真正适合自己的位置依然困难重重。

October 12, 2023

View Article

帮你成为更优秀开发者的软技能书单[译]

虽然作为开发者,我们总在追求技术上的进步,但同样重要的"软技能"也不能被忽略。我读了大约 40 本这样的书,现在想和你们分享一些最有价值的经验,帮助我们在技术和管理领域更上一层楼。

October 10, 2023

View Article

探究 10 倍效能工程师的神话与杰出工程师的真实面貌 [译]

虽然作为开发者,我们总在追求技术上的进步,但同样重要的"软技能"也不能被忽略。我读了大约 40 本这样的书,现在想和你们分享一些最有价值的经验,帮助我们在技术和管理领域更上一层楼。

October 10, 2023

View Article

怎么让 ChatGPT 的翻译结果更准确?

让 AI 直译的结果太生硬,意译又可能偏离原意,怎么办?

October 9, 2023

View Article

简单通俗的解释《一个简单的 Prompt 大幅提升 ChatGPT 翻译质量,告别“机翻感”》

想象下你是个中学校长,现在有一篇英文新闻要翻译给学生看,你有两个老师:一个英语老师精通英语,但是语文不太好,写出来的东西很生硬;一个语文老师精通中文,英文不太好,但是中文很好,写出来的东西流畅通俗易懂。

October 7, 2023

View Article

小语种成功“破解”了 GPT-4 的限制[译]

AI 安全培训和大语言模型(LLMs)的红队实验是为了预防生成不安全内容。然而,我们发现,由于安全训练数据在不同语言之间的不平衡,这些安全机制在跨语言应用时存在脆弱性。我们证明,通过将危险的英语输入转换为使用率较低的语言,就可以成功规遍 GPT-4 的安全屏障。

October 6, 2023

View Article

一种新的 Prompt 方法——“类推提示法”

人类擅长借用已有的知识经验类比,用来推理解决新的问题。“类推提示法”则是借助大语言模型在训练过程中已经积累了丰富的解决问题的知识。通过明确指导 LLM 回忆或产生相关问题和答案,能帮助它们更好地学习和解决新问题。

October 5, 2023

View Article

如何让 ChatGPT 3.5 这样的小模型也能大幅提升翻译质量?也能像 GPT-4 一样执行复杂指令?

ChatGPT 3.5 在指令识别上要比 GPT-4 弱很多,如果 Prompt 过于复杂,无法按照 Prompt 的要求执行,那么有没有办法也能让它能像 GPT-4 一样执行复杂的指令呢?

October 5, 2023

View Article

大语言模型的类比推理能力[译]

“思维链”(CoT)提示法让语言模型在各类推理任务上表现优异,但是,这通常需要对推理过程的实例进行标记。在这个研究中,我们推出了一种新颖的提示技巧,名为“类推提示法”,旨在自动引领大语言模型进行推理。

October 3, 2023

View Article

多模态大模型(LMMs)的曙光:初探 GPT-4V(ision)[译]

多模态大模型(LMMs)不仅拥有大语言模型(LLMs)的特点,还拓宽了其多感官技能,例如视觉理解,从而实现了更强的通用智能。本文深入探索并分析了最新的 GPT-4V(ision) 模型,旨在加深我们对 LMMs 的认识。我们的分析重点是 GPT-4V 能够完成的各种有趣任务,通过一系列精心设计的测试样本,来检验 GPT-4V 能力的质量和通用性,以及它所支持的输入和工作方式,还有有效启动模型的方法。在探索 GPT-4V 的过程中,我们整理了一系列涉及多个领域和任务的定性样本。这些样本的观察结果表明,GPT-4V 能够处理任意混合的多模态输入,并且其功能的通用性使其成为一个强大的多模态通用系统。此外,GPT-4V 独特的识别输入图像上绘制的视觉标记的能力,为发展新的人机交互方式,比如视觉参考提示,提供了可能。报告最后深入讨论了基于 GPT-4V 系统的新兴应用场景和未来研究方向。我们希望这一初步的探索能够启发未来关于多模态任务制定的下一代研究,发掘和强化 LMMs 以解决现实世界问题的新方法,以及对多模态基础模型有更深的理解。

October 2, 2023

View Article

一个简单的 Prompt 大幅提升 ChatGPT 翻译质量,告别“机翻感”

借助两轮翻译,让 ChatGPT 的翻译质量大幅提升,告别“机翻感”

September 28, 2023

View Article

字幕翻译、书籍翻译的福音,如何借助 ChatGPT 得到高质量的翻译结果?

借助两轮翻译,让 ChatGPT 的翻译质量大幅提升,告别“机翻感”

September 22, 2023

View Article

Prompt 技巧:使用 Type 定义得到想要的 JSON 输出格式

如何更好的格式化 JSON 输出?

September 1, 2023

View Article

为啥很多人觉得编程难学?

看起来你是在写程序,其实你做的是产品,那就不是简简单单的编程,无法像刷 Leetcode 那样,刷一刷就熟了,而是要面对软件工程中的各种问题。

August 22, 2023

View Article

基于大语言模型的智能代理[译]

利用大语言模型(LLM)作为核心驱动的智能代理是一个极富创意的概念。有一些令人印象深刻的概念验证示例,比如 AutoGPT、GPT-Engineer 和 BabyAGI,都为我们展示了巨大的可能性。LLM 不仅可以创作流畅的文本、故事、散文和代码,更重要的是,它可以成为解决各种问题的强大工具。

July 23, 2023

View Article

如何写出高质量的 Prompt?

看到有人发《全网都在找的 GPT 最权威的 160 条指令》,其实没人记得住 160 条 Prompt,也没有必要去记 160 条 Prompt!

July 18, 2023

View Article

Prompt 技巧:在翻译字幕时,如何让英文字幕中文字幕更好的对应起来

这是一段能帮你给代码生成单元测试的提示词,针对 Claude 3,但理论上来说可以适用于绝大部分模型。

July 8, 2023

View Article

这么多年还等着主管给你们下发任务?

领导说:“你们开发人员做了这么多年还等着主管给你们下发任务?”,领导这么说是不是不太符合软件工程管理?

June 24, 2023

View Article

你是否听说过 MLOps 或者 LLMOps 呢?

MLOps 本质上仍然是 DevOps,只是现在关注的是与 AI 和大语言模型相关的产品。

April 18, 2023

View Article

高效大语言模型推理 [译]

近来,我频繁地探究如何高效地运用大语言模型 (LLM)。设想这样一个场景:你的老板对你说:“嘿,Finbarr,我们快破产了,因为我们把所有投资者的钱都花在了支持我们那个 300 亿参数、模仿 John Kenneth Galbraith 风格说唱的模型的 GPU 上。我们该怎么办?”

January 5, 2023

View Article

2024 AI 预测 [译]

既有亮点也有挑战 —— 并伴随着诸多炒作。伴随着假期的结束,我们满载热情回归,为大家带来 2024 年的最新观点!

January 5, 2023

View Article

从两周发布上线到一周发布上线,如何做到高效稳定?

早些年开发软件,一个版本发布上线的时间周期是以“月”甚至“年”为单位计的,但是现在随着敏捷开发的推行和普及,版本上线的周期变成了“周”为单位,甚至更短。周期缩短,并不意味着要牺牲质量,而是一样会有完善的开发流程来保障质量,比如设计、开发、自动化测试和手工测试。但是当缩短开发周期的时候,可能原本运行好好的开发流程就会出问题,软件质量下降,需要去重新调整开发流程,以重新做到高效和稳定。

August 24, 2020

View Article

项目一再跳票?试试这一招:用 Deadline 倒逼生产力

我想也许你早就听说过“Deadline 是第一生产力”这句话,哪怕以前没听说过,我相信看完本文后,再也不会忘记这句话,甚至时不时还要感慨一句:“Deadline 是第一生产力!”。

June 29, 2020

View Article

怎样平衡软件质量与时间成本范围的关系?

日常项目中涉及时间、成本和范围的问题,都离不开“软件项目管理金三角”的概念。掌握好这个知识点,学会平衡软件质量与时间成本范围的关系,可以帮助你更好的驾驭项目中的各种问题,也可以帮助你更好地理解软件工程中各个模型,尤其是瀑布模型和敏捷开发。

April 1, 2019

View Article

从软件工程的角度解读任正非的新年公开信

软件工程就像一个国家的农业,是最基础的设施!

January 4, 2019

View Article

记在美国的一次校园招聘

记录一次实习生招聘的经历

November 15, 2018

View Article

记录下两个孩子在 MineCraft 里面还原公寓的经历

前不久,我们家两个小朋友沉迷于玩“我的世界”(MineCraft),考虑到堵不如疏,还是正面引导他们比较好,于是和孩子的妈妈商量后,给他两出了个题目:“把我们住的公寓在 MineCraft 里面搭出来”。为了激励他们,告诉他们如果 2 个月内搭好,还可以给他们奖励一个大乐高玩具。

June 16, 2016

View Article