首页


我使用 Claude AI 编写原创、完整、类似人类风格文章的尝试 [译]

利用像 Claude 这样的 AI 工具,你可以撰写篇幅较长的文章。通过分段撰写,你似乎能保持自己的风格和思路,同时引导 AI。但是,我的实践表明,用 AI 写作比我预期的要难。我可以做到差不多,但由于 AI 工具的训练方式,它们最终更倾向于解释而非辩论,这可能会让个人随笔失去很多趣味。

November 24, 2023

View Article

Q* 假设:思维树推理、过程奖励模型,以及如何大幅提升合成数据的能力 [译]

紧急专题:要弄懂 Q*,我们需要的信息其实就在我们身边,只是网络流行语更比现实生活有趣。

November 24, 2023

View Article

回望我在谷歌的 18 年 [译]

我于 2005 年 10 月加入谷歌,18 年后,我递交了辞呈。上周,我结束了在谷歌的最后一段日子。

November 23, 2023

View Article

我是如何成为机器学习的实践者 [译]

我于 2005 年 10 月加入谷歌,18 年后,我递交了辞呈。上周,我结束了在谷歌的最后一段日子。

November 23, 2023

View Article

苦涩的教训 [译]

只有两种模式能够随着计算能力的增加而无限扩展,那就是学习和搜索。构建 AI 系统时,不应将我们的发现内置其中,而应让 AI 系统能够像我们一样进行发现。这是 AI 领域仍需学习并克服的重要教训。

November 23, 2023

View Article

语言模型中的语言代理树搜索:实现推理、行动与规划的统一 [译]

大语言模型 (LLMs) 已经在各种决策任务上取得了卓越的成绩,但它们通常只执行简单的行为,并没有真正作为自主代理得到广泛应用。我们提出了一种名为 LATS (语言代理树搜索) 的新框架,它将 LLMs 在规划、行动和推理方面的功能有效结合起来。LATS 框架的创新之处在于,它借鉴了强化学习中的蒙特卡洛树搜索技术,将 LLMs 当作代理使用,同时充当价值函数和优化器的角色,通过这种方式大幅提升决策质量。最关键的是,LATS 利用外部环境提供的反馈,实现了一种更为周全和灵活的问题解决方式,这一点超越了现有方法的限制。我们在不同领域进行的实验评估证明了 LATS 的有效性,无论是在编程、HotPotQA 还是 WebShop 任务上,LATS 都显示出了其推理和行动能力。特别值得一提的是,在 HumanEval 编程任务上,配合 GPT-4 的 LATS 达到了 94.4% 的成功率,在 WebShop 网页浏览任务上,配合 GPT-3.5 实现了平均 75.9 的得分,这些成果都突显了我们方法的高效性和广泛适用性。

November 9, 2023

View Article

自用的“科技文章翻译 GPT”和它的 Prompt

我常用 ChatGPT 翻译科技文章,我将它做成了一个“科技文章 GPT”。

November 9, 2023

View Article

通向通用人工智能的里程碑:评估进展的新框架 [译]

我们构建了一个新的框架,这个框架可以帮助我们更好地理解通用人工智能(AGI)及其早期版本的能力和表现。这个框架详细划分了 AGI 的性能、适用范围和自我控制能力的不同层次。我们希望,这个框架能够像划分自动驾驶技术等级一样,为人们提供一种通用的语言,以便比较不同的 AGI 模型,评估它们可能带来的风险,并跟踪我们在实现 AGI 这一目标道路上的每一步进展。为了建立这个框架,我们审视了 AGI 的现有定义,并从中提炼出六大原则,以构建一个实用的 AGI 分类体系。这些原则强调重视 AGI 的实际能力,而不仅仅是其背后的技术机制;它们建议我们应当分开评估 AGI 的适用范围和性能水平;并且我们不应该只着眼于最终目标,而应该明确标记出通向 AGI 的每一个阶段。基于这些思路,我们根据 AGI 的能力深度(即性能)和广度(即适用范围)提出了“AGI 等级”,并且对当前系统如何符合这个分类体系进行了思考。我们还讨论了未来评估 AGI 行为和能力的基准测试所面临的挑战。最后,我们探讨了这些 AGI 的不同层次如何与实际部署时的自主性和风险管理相结合,并强调在部署高级 AI 系统时,选择合适的人机交互方式对于确保系统的负责任和安全使用至关重要。

November 8, 2023

View Article

利用 GPT 的视觉能力和 TTS API 来处理视频并添加旁白 [译]

这个笔记本演示了如何利用 GPT 的视觉能力来处理视频内容。

November 7, 2023

View Article

利用大语言模型开发先进的推理与规划算法 [译]

本文介绍了 Branches,这是我们开发的一款工具,用于构建和展示先进的大语言模型(LLMs)推理和规划算法的原型。我们利用 Branches 来解决为 HumanEval 生成 Python 代码的挑战。

November 7, 2023

View Article

大语言模型遭受的对抗性攻击 [译]

ChatGPT 的问世极大推动了大语言模型在现实世界的应用步伐。我们(包括我在 OpenAI 的同仁们,向他们表示敬意)在模型调整过程中投入巨大努力,确保默认的安全性行为(比如,通过 RLHF)。不过,对抗性攻击或一些特定的提示可能会诱使模型产生一些意料之外的回应。

November 7, 2023

View Article

思维树:利用大语言模型进行深度问题解决 [译]

语言模型正日益成为处理各类任务不可或缺的工具,但它们在推理时仍旧受限于按顺序逐个标记处理信息的方式。这就导致了在需要探究、战略规划或是初步决策至关重要的任务中,它们的效果可能会打折扣。为了突破这些限制,我们提出了一个新的语言模型推理框架——“思维树”(ToT),这是对现有“思维链”提示方法的一种扩展。它让语言模型能够在连贯的文本单元(我们称之为“思维”)中进行探索,这些“思维”是解题过程中的关键中间步骤。ToT 使得语言模型能够通过权衡多种不同的推理路径和自我评估决策来做出更加深思熟虑的选择,并且能在必要时展望未来或者回顾过去,以作出最佳的全局性决策。我们的实验显示,ToT 显著提升了语言模型在三个需要复杂规划或搜索的新型任务上的解题能力:24 点游戏、创意写作和迷你填字谜。举个例子,在 24 点游戏中,尽管使用“思维链”提示的 GPT-4 只解决了 4% 的问题,而我们的方法却达到了 74% 的高成功率。

November 7, 2023

View Article

GPTs 系列介绍 [译]

现在,您可以自己打造专属的 ChatGPT 版本,它可以结合特定指令、额外知识和各种技能。

November 6, 2023

View Article

Assistant API 文档 [译]

Assistant API 使您能够在自己的应用中创建 AI 助理。这样的助理根据指令运作,能够结合模型、工具和知识库来解答用户的问题。目前,Assistant API 支持三种 工具:代码解释器(Code Interpreter)、信息检索(Retrieval)和函数调用(Function calling)。我们未来的计划是推出更多由 OpenAI 创建的工具,并让您能在我们的平台上使用您自己的工具。

November 6, 2023

View Article

提升 RAG 效能:如何挑选最佳的嵌入与重排模型 [译]

在打造检索增强型生成(RAG)系统时,检索器扮演着至关重要的角色。市场上有丰富的嵌入模型可供选择,诸如 OpenAI、CohereAI 和开源的句子转换器。同时,也有来自 CohereAI 和句子转换器的多种重新排列工具。但是,在这么多选择面前,我们该如何挑选出最佳组合,以达到最优的检索效能?我们该怎样判断哪种嵌入模型最契合我们的数据?或者哪一种重新排列工具能够最大限度地优化我们的成果?

November 5, 2023

View Article

提示工程 [译]

提示工程,也被称作情境内提示,是一种和大语言模型(LLM)沟通的策略,目的是在不更新模型底层数据的前提下,引导它按我们想要的方式行动。它是一门实验性质的科学,不同模型间提示方法的效果差别很大,所以这需要通过大量的实验和经验法则来探索。

November 5, 2023

View Article

通过知识蒸馏实现的隐式思维链推理 [译]

为了让语言模型具备推理能力,研究人员通常会通过特定提示或调整模型使其在给出最终答案前,先产出一连串的推理步骤。不过,人类虽然能够用自然语言有效推理,可能对于语言模型来说,使用一些非自然语言形式的中间运算步骤,推理会更加高效。在本项研究中,我们探索了一种不同于传统的推理方式:不是直接输出每个推理步骤,而是通过语言模型内部的隐藏状态进行隐式推理。这种隐式的推理步骤,是通过对一个接受过显式思维链推理训练的教师模型进行“知识蒸馏”得来的。不同于传统的“横向”逐字输出推理过程,我们的方法是“纵向”的,在模型不同层级的隐藏状态间进行推理。通过对多位数乘法任务和小学数学问题数据集的实验,我们发现这种方法能解决那些没有显式思维链条就无法解决的问题,并且其速度与直接给出答案而不进行任何推理的速度相当。

November 5, 2023

View Article

EmotionPrompt:运用心理学知识通过情感激发提升大语言模型的能力[译]

在推理、语言理解以及数学问题解决等多个领域,大语言模型(LLMs)已经展现出惊人的能力,它们被认为是向人工通用智能(AGI)迈进的关键一步。但是,LLMs 对提示语的敏感性仍然是它们普及应用的一大难题。本文借鉴心理学的见解,提出了 EmotionPrompt,旨在通过加入情绪刺激来提升 LLMs 的表现。EmotionPrompt 的操作原则非常直接:就是在提示语中加入情绪因素。实验结果显示,在八个不同的任务中,EmotionPrompt 采用统一的提示模板,不仅在零次学习和少数次学习场景中都大幅度超越了传统提示和 Zero-shot-CoT,还在包括 ChatGPT、Vicuna-13b、Bloom 和 Flan-T5-large 等多种模型上都实现了这一成效。此外,EmotionPrompt 还显著提高了答案的真实度和信息量。我们相信,EmotionPrompt 为探索人与大语言模型互动的跨学科知识开辟了新的道路。

November 5, 2023

View Article

2023 年人工智能与开源界的风云变幻 [译]

2023 年即将过去,此刻不失为回首这一年人工智能领域研究成就、产业发展以及开源社区的盛况的好时机。

November 5, 2023

View Article

可解释语言模型:探索传统与创新方法 [译]

在本文中,我们会详细介绍和评估一些语言模型的可解释性技术,其中不乏 Normal 的一些创新尝试(比如与概率机器学习相关的技术),它们都旨在提升 AI 系统的可靠性和推理能力。我们将尝试以浅显的方式介绍这些技术,同时指出在实际应用中,直觉有时候可能会带来误导。

November 4, 2023

View Article

长故事概要:针对长视频问答的“概括后检索”方法 [译]

GPT-3 等大语言模型展现了它们在不需要特定训练数据的情况下适应新任务的惊人能力。这一能力在诸如叙事性问题解答的场景中特别有用,那里的任务种类繁多,而可供学习的数据却相对匮乏。在这项研究中,我们探讨了这些语言模型是否能将它们的零样本推理才能延伸到多媒体内容中的长篇多模态叙事,如戏剧、电影和动画,故事在其中发挥着核心作用。我们提出了一种名为“Long Story Short”的视频叙事问答框架,它首先把视频的故事概括为简短的情节,再检索与问题相关的视频片段。我们还建议采用 CLIPCheck 来提升视觉匹配的效果。我们的模型在长视频问答方面,相较于现有的最先进监督模型取得了显著的领先,展现了零样本问答技术的巨大潜力。

November 4, 2023

View Article

Voyager:结合大语言模型的创新虚拟智能体 [译]

让我们欢迎 Voyager 的加入——这是 Minecraft 游戏中首个以大语言模型(LLM)为核心的虚拟学习智能体。它能够不断地探索虚拟世界,自主掌握各种技能,并在没有人为介入的情况下,不断做出新的发现。Voyager 的核心由三部分组成:1) 一个自动优化探索路径的课程设计,2) 一个持续扩展的技能库,该库用可执行代码存储和调用复杂行为,3) 一种新型的迭代提示机制,通过融入环境反馈、执行错误和自我核验来不断优化程序。Voyager 通过所谓的黑箱查询与 GPT-4 进行交互,从而免去了对模型参数细微调整的需求。Voyager 所发展的技能不仅能跨越时间使用,还易于解释和组合,这显著加速了智能体的学习能力,同时有效减少了所谓的灾难性遗忘现象。从实践效果来看,Voyager 展现出了卓越的在场景中的终身学习能力,并在 Minecraft 游戏中展示了超群的技能。与以往最好的技术相比,它获得的独特物品多出了 $$3.3\times$$,旅行的距离也增加了 $$2.3\times$$,而在解锁关键的技术树里程碑方面,速度更是快了多达 $$15.3\times$$。Voyager 甚至能够在全新的 Minecraft 世界中,利用其学习的技能库,从零开始解决新的任务,而其他技术在这方面则显得力不从心。

November 3, 2023

View Article

创新输入法:引领输入技术的未来潮流 [译]

自从 ChatGPT 面世以来,生成式模型在语言处理的诸多方面取得了突破性的进展,已经成为众多自然语言处理任务的首选方法。然而,这些模型在输入技术领域的潜力还远未被完全挖掘。当前很多基于神经网络的技术已经开始应用于中文输入法引擎的构建过程中。以往研究往往默认用户输入的拼音无误,只关注拼音转汉字(P2C)的转换任务,这远远不能满足用户的实际需要。而且,这些研究也未能有效利用用户反馈来改善模型并提供更为个性化的服务。在我们的研究中,我们推出了一个创新的输入范式,名为 GeneInput。它利用提示指令来应对各种输入情境,并结合智能辅助输入功能,通过用户的实时反馈持续优化模型,为用户带来定制化的输入体验。我们的实验结果显示,GeneInput 在全键序列到字符转换(FK2C)任务上首次实现了业界领先水平。我们还开发了一种新的奖励模型训练方法,不再依赖于繁杂的手工注释,并且在智能联想和对话辅助任务中的表现甚至超越了 GPT-4。GeneInput 不仅性能优越,而且在鲁棒性、扩展性和在线学习方面也都显示出了比传统输入法更加出色的能力。

November 3, 2023

View Article

如何控制 LLM 的输出格式和解析其输出结果?

我们可以用 Prompt 让 LLM 生成各种结果,但是怎么让 LLM 输出固定的格式?怎么对 LLM 输出的结果进行解析?

November 3, 2023

View Article

探索提示工程的多彩世界 [译]

提示工程是一门让我们能够在不改变模型本身的情况下指导大语言模型(LLM)行为的技术。随着越来越多为不同场景设计的提示的出现,我们越来越需要一套系统来帮助我们管理这些提示,以便更容易地找到、共享和优化它们。为此,我们在一个月前推出了 LangChain Hub,一个集浏览社区提示和管理个人提示于一体的平台。接下来,我们将带你了解自从该平台上线以来,我们观察到的提示工程领域的几个主要趋势,并分享一些我们认为特别有趣的案例。

November 2, 2023

View Article

激发创造力:将语言模型打造成层次化策略,提升解决复杂问题的探索效率 [译]

虽然大语言模型(LLMs)已经取得了令人瞩目的进展,但它们在处理一些复杂的推理问题时还是会遇到不少困难。目前的解决方案主要是通过挖掘详细和底层的推理链条。但是,这样的方法在寻找解决方案的过程中依然受到了限制,使得正确答案在庞大的可能性中难以脱颖而出。在这项研究中,我们通过上下文学习,把大语言模型构建成一个层次化的策略,从而激发出了其在多样化问题解决策略探索上的创造性潜能。这个层次化策略包含了两个部分:一个能够提出多种高层问题解决策略作为启示的“领导者”,以及一个根据领导者给出的高层指令来执行详细问题解决过程的“执行者”。执行者会以领导者的指示为蓝本,探索多条可能的推理路径来攻克问题,并为每个领导者的建议生成一组可能的解决方案。此外,我们还提出了一种高效且有效的基于锦标赛的方法来从这些探索出来的解决方案中挑选出最终的答案。我们的方法不仅能够给出有深度和启发性的建议,还能够拓宽问题解决策略的探索范围,从而在 MATH 数据集中的一些难题上取得更高的答案准确率。

November 2, 2023

View Article

利用语言模型模拟观众,让人际沟通更上一层楼 [译]

一种叫做 Zero-Shot-Context 的新方法,它可以在没有任何示例的情况下,自动提高翻译的质量。我们的实验结果显示,使用这种方法,GPT-3 的翻译效果得到了明显的提升,甚至可以与有示例提示的翻译相媲美。

November 2, 2023

View Article

在 CPU 上高效执行大语言模型的推理任务[译]

大语言模型(LLMs)已经在广泛的任务中展示出了令人瞩目的表现和巨大的发展潜力。然而,由于这些模型的参数量异常庞大,使得它们的部署变得相当具有挑战性,这不仅需要有足够大的内存空间,还需要有高速的内存传输带宽。在这篇文章中,我们提出了一种高效的方法,可以使得大语言模型的部署变得更为高效。我们支持自动化的仅限权重的 INT4 量化流程,并为此设计了一个特殊的、经过高度优化的大语言模型运行时环境,从而加速了在 CPU 上进行大语言模型推理的过程。我们的方法在多个流行的大语言模型,包括 Llama2、Llama 和 GPT-NeoX 上都展示出了广泛的适用性,并且在 CPU 上实现了极高的推理效率。

November 2, 2023

View Article

利用 LoRA 高效撤销 Llama 2-Chat 70B 的安全防护训练 [译]

AI 开发人员通常会使用安全校准程序来防止 AI 系统被滥用。举个例子,在 Meta 公司推出由一系列经过详细指导调整的大语言模型组成的 Llama 2-Chat 产品之前,他们在安全培训上进行了大量的投入,包括广泛的对抗测试和基于人类反馈的强化学习。然而,当攻击者能够接触到模型的权重数据时,安全训练能在多大程度上防止模型被滥用还是一个未知数。本研究通过对 Llama 2-Chat 公开权重进行隐蔽的微调,考察了语言模型安全训练的稳固性。我们采用了一种高效的微调方法——低秩适应(LoRA)。在预算不超过 $200、仅使用一块 GPU 的情况下,我们成功地破解了 7B、13B 和 70B 三种规模的 Llama 2-Chat 模型的安全训练。具体来说,我们的微调技术大幅降低了模型拒绝执行危险指令的次数。在两项拒绝标准测试中,我们对 70B Llama 2-Chat 模型的拒绝率降到了不足 1%。我们的微调方法在保持总体性能的同时,通过与 Llama 2-Chat 在两个标准测试中的对比,验证了模型性能的保持。此外,我们还展示了一些由我们的模型生成的危险输出示例。尽管对当前模型潜在风险的范围还存在很大的不确定性,但未来的模型可能会拥有更为危险的能力,比如侵入关键基础设施、制造危险生物武器或自主复制适应新环境的能力。我们的研究表明,隐蔽微调是一种切实可行且有效的方法,因此我们认为,在进行模型权重发布的风险评估时,评价微调带来的风险应当成为核心内容。

November 1, 2023

View Article

从错误中学习:让大语言模型更擅长推理 [译]

近期,大语言模型(LLM)展示出在解决数学题目上的出色推理能力。为了让这种能力更上一层楼,我们提出了“从错误中学习”(LeMa)这一方法,它借鉴了人类学习过程中的机制。就像一个解题失败的学生会反思自己的错误并学会如何改正一样,LeMa 也通过这样的错误驱动学习过程对 LLM 进行了微调。我们首先从不同的 LLM 中挑选出错误的推理过程,然后使用 GPT-4 作为“纠错师”,负责识别错误的环节、解释错误发生的原因,并对错误进行改正,最终得出正确答案。实验结果表明,LeMa 的确能够提升 LLM 的性能:在五个不同的 LLM 和两个数学推理任务中,LeMa 都比单独使用 CoT 数据进行微调表现得更好。尤其值得一提的是,LeMa 甚至能够提升专业 LLM 如 WizardMath 和 MetaMath 的性能,在 GSM8K 任务上达到了 85.4% 的 pass@1 准确率,在 MATH 任务上达到了 27.1% 的准确率,这些成绩超过了这些困难任务上其他非执行开源模型所能达到的最先进水平。

November 1, 2023

View Article

脑波解码:向着实时重现视觉感知迈进 [译]

在最近五年里,生成型和基础型人工智能系统在解读大脑活动方面取得了巨大进步。特别是在视觉感知方面,现如今我们能够通过功能性磁共振成像(fMRI)技术进行高度精确的解码。但是,这种技术的时间分辨率较低(大约为 0.5 Hz),这严重限制了它在实时应用方面的能力。为了解决这一问题,我们提出了一种新的方法,即利用脑磁图(MEG)这种设备。MEG 能以极高的时间分辨率(大约为 5000 Hz)测量大脑活动。我们为此开发了一个基于 MEG 的解码模型,该模型通过对比学习和回归分析进行训练,包括三个主要部分:i) 从图像中获得的预训练嵌入,ii) 端到端训练的 MEG 模块,以及 iii) 预训练的图像生成模块。我们的实验结果显示:首先,我们的 MEG 解码器在图像检索任务上的表现比传统的线性解码器提升了 7 倍。其次,我们发现利用 DINOv2(一种新型基础图像模型)能够更好地解码大脑对图像的反应,尤其是在反应较晚的阶段。第三,通过 MEG 信号,我们主要能够提取到高级的视觉特征,而当我们将同样的方法应用到 7T fMRI 数据时,我们还能够提取到低级的视觉特征。总的来说,这些发现为我们在实时解码人脑视觉过程方面迈出了重要的一步。

November 1, 2023

View Article

Musk 收购一年后,X(原 Twitter)的各项指标都在下滑 [译]

如果 Elon Musk 的目的是提升自己社交媒体主页的访问量,他完全有更经济、更简便的方法。在他用 440 亿美元收购 Twitter(近期更名为 X)快一年的时间里,我们唯一能看到的正面表现就是他个人主页 twitter.com/elonmusk/ 的访问量有所增加。

October 31, 2023

View Article

为何你不应该成为经理的 17 个理由 [译]

这个问题的提法从极为正面的“谁会不想带领一个团队呢?”到极为负面的“有谁会愿意去管理一个团队呢?”应有尽有。所以我决定写篇文章,列举一些不当经理的理由。

October 31, 2023

View Article

大语言模型的“破解”研究:仅需二十次尝试 [译]

随着人们越来越关注如何让大语言模型(LLMs)与人类的价值观保持一致,人们发现这些模型很容易受到“破解”攻击的威胁,这种攻击会诱使语言模型绕开其安全保护措施。因此,识别并解决这些潜在漏洞对于防止模型被滥用至关重要。为了实现这一目标,我们提出了一种名为“提示自动迭代细化”(PAIR)的算法,这种算法能够仅通过黑盒方式与大语言模型通信,生成语义破解。PAIR 算法的设计灵感来源于社会工程攻击,它能够利用一个“攻击者”语言模型自动对另一个目标语言模型进行破解,无需人工干预。通过这种方式,攻击者模型会反复向目标模型发起查询,不断更新和精细调整破解方案。根据我们的实验证明,PAIR 在大多数情况下能够在不到二十次的查询中成功破解目标模型,效率比现有算法高出许多个数量级。此外,无论是在开源还是闭源的大语言模型上,PAIR 都展现出了极高的破解成功率和良好的迁移性能,其中就包括了 GPT-3.5/4、Vicuna 和 PaLM-2 这样的模型。

October 31, 2023

View Article

利用语言模型挖掘人类偏好 [译]

语言模型(LMs)能够通过标注好的示例或者自然语言的提示来指引完成特定任务。但是,找到合适的示例或者编写有效的提示可能非常具有挑战性,特别是在那些涉及到不常见的边缘情况、需要准确表达模糊偏好,或者要求对语言模型行为有精确认识的任务中。我们提出了一种思路:利用语言模型*自身*来引导任务设定的过程。

October 30, 2023

View Article

CODEFUSION:代码生成领域的创新预训练模型 [译]

试想一个只能修改他们最新写的那一行代码的程序员,他们需要反复从头开始写代码,直到写对为止——这听起来是不是很费劲?传统的自然语言转代码的自回归模型也面临着类似的困境,一旦生成了代码,就很难再回头修改。为此,我们推出了 CODEFUSION,这是一个突破性的预训练扩散代码生成模型。它能够在自然语言的引导下,反复优化整段代码,直到生成高质量的程序代码。我们在 Bash、Python 以及 Microsoft Excel 的条件格式规则转换任务上对 CODEFUSION 进行了全面测试。测试结果令人振奋:尽管 CODEFUSION 只有 75M 的参数,但它在 top-1 准确率上与最先进且参数量高达 350M–175B 的自回归系统不相上下,而在 top-3 和 top-5 准确率上更是超越对手,彰显了它在保证代码质量的同时,还能提供丰富多样的代码生成选项的卓越能力。

October 30, 2023

View Article

GPT-4 不懂自己哪里错了:对解决问题时迭代提示法的深入分析 [译]

大家对大语言模型(LLMs)到底能否具备推理能力一直有很大的争议。虽然一开始人们非常乐观,认为模型的规模越大,推理能力就会自然而然地显现出来,但众多反例的出现,从简单的乘法运算到计划问题,都让这种乐观心态受到了挑战。尽管如此,许多人仍然坚信大语言模型能够对自己的答案进行自我批判,并通过迭代的方式不断完善解决方案。这种信仰似乎是建立在这样一个前提上:验证一个答案的正确性应该比产生答案更为简单。这是计算复杂性领域的一个经典观点,但如果 LLMs 主要进行的是近似检索的活动,那么这个观点对它们来说应该是不相关的。

October 29, 2023

View Article

如何用代码从 ChatGPT 网页中获取原始 Markdown 格式?

通过 React Dev Tool 的 Hook,可以拿到 React 组件的内部状态,从而拿到 ChatGPT 网页中的原始 Markdown 格式

October 29, 2023

View Article

退一步提示法解读

要让 LLM 能得到高质量的问答,和原始问题相关的高质量上下文信息是非常重要的,最好是不需要借助外部工具,直接通过特定的方法“激发”LLM 自己去生成高质量的上下文信息

October 28, 2023

View Article

PromptAgent:借助语言模型进行策略性规划,达到专家级的提示优化 [译]

我们引入了 PromptAgent,这是一种能够独立创建出与专家亲手打造的提示同样优质的优化方法。PromptAgent 把提示优化当作一个策略规划问题来处理,并运用了一种植根于蒙特卡罗树搜索的算法,巧妙地规划并探索专家级提示的可能性。

October 27, 2023

View Article

退一步,看得更远:通过抽象引发大语言模型中的推理 [译]

我们为大家介绍了一个称为“退一步提示法(Step-Back Prompting)”的新技巧,能让语言模型通过抽象思考,从具体信息中找到核心观念和基础原理。凭借这些核心观念和原理,语言模型在逻辑推理上的表现得到了显著的提升。

October 26, 2023

View Article

2023 年最佳发明 [译]

改变我们生活方式的 200 项创新

October 25, 2023

View Article

深入分析 GPTs 在机器翻译中的上下文学习[译]

一种叫做 Zero-Shot-Context 的新方法,它可以在没有任何示例的情况下,自动提高翻译的质量。我们的实验结果显示,使用这种方法,GPT-3 的翻译效果得到了明显的提升,甚至可以与有示例提示的翻译相媲美。

October 25, 2023

View Article

如何让 GPT-4 帮你写 Prompt?

很多人苦于不知道如何写高质量的 Prompt,尤其是如果要用英文表达更是吃力,不容易表达准确。

October 24, 2023

View Article

如何通过“链式验证”降低大语言模型的“幻觉” [译]

大语言模型偶尔会生成看似真实但实际上是错误的信息,这种情况被称为“幻觉”。我们研究了模型如何自我纠错。我们提出了一个名为“链式验证 (CoVe)”的方法:模型首先给出初步回答,然后制定问题来核实答案,并确保每个问题的回答不受其他回答的影响,最后输出经过核实的答案。实验结果显示,这种方法有效地减少了在不同任务中产生的误导性信息。

October 16, 2023

View Article

多模态和多模态大模型 (LMM)[译]

以前,我们的机器学习模型一般都只处理一种类型的数据,比如只处理文本、图像或音频。但是,想想我们人类的大脑。我们不仅仅读写文字,还可以看图、看视频,听音乐,还能够辨识各种不同的声音。所以,为了让 AI 更接近真实世界,处理多种类型的数据显得非常重要。

October 15, 2023

View Article

ChatGPT 中 DALL-E 3 的系统提示词 [译]

你想知道 ChatGPT 中 DALL-E 3 的系统提示词是什么吗?

October 15, 2023

View Article

AI 研究岗位的市场现状(以及我所经历的)[译]

工作岗位虽然众多,但找到真正适合自己的位置依然困难重重。

October 12, 2023

View Article

帮你成为更优秀开发者的软技能书单[译]

虽然作为开发者,我们总在追求技术上的进步,但同样重要的"软技能"也不能被忽略。我读了大约 40 本这样的书,现在想和你们分享一些最有价值的经验,帮助我们在技术和管理领域更上一层楼。

October 10, 2023

View Article

探究 10 倍效能工程师的神话与杰出工程师的真实面貌 [译]

虽然作为开发者,我们总在追求技术上的进步,但同样重要的"软技能"也不能被忽略。我读了大约 40 本这样的书,现在想和你们分享一些最有价值的经验,帮助我们在技术和管理领域更上一层楼。

October 10, 2023

View Article