Apple Vision Pro 评测:这款顶尖头显仅是对未来的初步探索 [译]
无论是工作、做饭、滑雪还是休闲放松——我体验了一周 Apple 的最新混合现实头显,探索它的实际用途。
January 31, 2024
View Article无论是工作、做饭、滑雪还是休闲放松——我体验了一周 Apple 的最新混合现实头显,探索它的实际用途。
January 31, 2024
View Article给 GPT-4 Turbo 提供小费以期获得更完美的回答,这种做法真的有效吗?目前对此话题的研究还相当有限。我们对一些编程相关的提示进行了初步实验,发现给予一定的小费可能确实有效,但小费的数额似乎非常关键。例如,如果小费很少(比如只有 $0.1),GPT-4 Turbo 的表现反而会变差。在我们的实验中,提供 $0.1 和 $100 万美元的小费,性能改善幅度分别是 -27% 到 +57%。但是,为了验证这一观点,还需要对不同类型的提示进行更多实验,并且这些实验需要有可靠的基础数据作为支撑。
January 31, 2024
View Article经历了超过十年的零利率,科技行业即将迎来巨变。利率上升将如何影响软件工程师的工作、发展以及职业规划?你需要怎样为即将到来的变化做好准备?
January 31, 2024
View Article2023 年是 GitHub Copilot 大放异彩的一年。在短短不到两年的时间里,这款 AI 编程助手已从一个初步的原型迅速成为众多开发者和企业中不可或缺的重要工具 [1]。它的迅猛发展开启了编写代码的新纪元。GitHub 已经发布了数份关于 AI 如何影响软件开发的增长和影响的研究。他们的一项重要发现是,开发者在使用 Copilot 时,编码速度提升了“55%”。面对大量由 LLM 生成的代码,我们不禁要问:这些代码在质量和可维护性上与人工编写的代码相比如何?它们是不是更像经验丰富的高级开发者的精心作品,还是更接近短期合同工的零散拼凑?为此,GitClear 收集了从 2020 年 1 月到 2023 年 12 月之间的 153 百万行代码变更记录 [A1]。这是目前已知最大的用于分析代码质量差异的高度结构化代码变更数据集 [A2]。我们发现了一些关于代码可维护性的令人担忧的趋势。代码变更率 —— 指在编写后不到两周就被修改或撤销的代码行所占的比例 —— 预计在 2024 年将是 2021 年 AI 出现之前的两倍。我们还发现,“新增代码”和“复制/粘贴代码”的比例相比于“更新的”、“删除的”和“移动的”代码在上升。从这个角度看,2023 年生成的代码更像是一位临时的贡献者,容易打破代码库的“不重复原则”(DRY-ness)。我们以一些针对管理者如何在这种逆流中保持代码高质量的建议作为本文的总结。
January 30, 2024
View Article本文将带您一步步实现一个稀疏混合专家语言模型。这个项目受到了 Andrej Karpathy 的 'makemore' 项目的启发,并在很大程度上基于它,借鉴了许多可重用的组件。与 'makemore' 类似,'makeMoE' 也是一种自回归的字符级语言模型,但它采用了所谓的稀疏混合专家架构。文章的后续部分将详细介绍这种架构的关键要素及其实现方式。我希望您通过阅读本文并实践代码,能对整个系统的工作原理有一个直观的了解。
January 30, 2024
View ArticleApple Vision Pro 是迄今最佳的消费级头戴设备,但这恰恰是它的问题所在。新推出的 Apple Vision Pro 承载着巨大期望,它标志着苹果正式进入面部穿戴式计算机的领域。苹果宣称,售价起始于 3,499 美元的 Vision Pro,开启了一种名为“空间计算”的新篇章,这一概念实际上是指在你四周运行各种应用程序。苹果对此的广告宣传也毫不保留:展示人们在各种场合都戴着 Vision Pro——工作时、洗衣时、与孩子玩耍时。其雄心勃勃的目标是在现实世界中叠加应用和信息,以此增强现实感。
January 30, 2024
View Article关于最初的电气和杰出应用研发实验室,其历史分析能给 Answer.AI 带来什么启示,以及他们可能面临的风险
January 30, 2024
View Article这篇博客是为那些渴望做出重要成就或对工作有所贡献,却觉得自己不够聪明或缺乏才能的人而写的。
January 30, 2024
View Article计算机科学教师和软件专家对机器学习辅助工具的建议
January 29, 2024
View Article最坏情况能有多糟?
January 29, 2024
View Article本文讨论了大型科技公司中的绩效管理问题,特别是与解雇和奖励决策相关的复杂过程。作者指出,尽管普遍认为大型科技公司想要营造一种残酷的竞争环境,但在资金充足的快速成长公司里,解雇平庸员工并非内在动力。绩效管理过程对管理者造成压力,且可能伤害士气、增加法律风险,并导致机构知识的流失。文章还提到了员工对公平的执着,以及管理者如何处理下属之间的比较和感知不公。早期,绩效管理通常由经理决定,但这导致了一些问题,例如偏袒和严厉的评价不一。谷歌在其早期尝试了基于同事评价的绩效管理系统,这种模式逐渐被其他科技公司采纳。然而,这种方法并未带来预期的益处。大多数员工的反馈都是积极且平庸的,真正的差劲表现者或社交技能不佳者成为例外。为了解决这个问题,管理者不得不“解读”反馈以进行排名,用于决定解雇、晋升和奖金。尽管看似由同事驱动,实际上大部分重要决策仍由经理做出。文章最后指出,这种由谷歌发起的绩效管理流程并没有比它试图取代的系统表现得更好。它只是将经理层面的偏袒指控转换为更大的阴谋论,而且对于维持高水平的晋升标准所付出的代价也很高。
January 29, 2024
View Article这篇论文详细的讲解了如何借助 GPT-4V 这样的多模态模型,与开放网络中的网站交互,完成用户的各项指令。
January 27, 2024
View Article我们将深入了解构建企业级 RAG (Retrieval-Augmented Generation) 系统的复杂世界。网络上虽然不乏关于简易 RAG 系统的文章,但要构建一个坚固的企业级解决方案,过程却充满未知。许多开发者甚至不知道构建 RAG 系统时最关键的决策是什么...这篇博客不只是理论探讨,更是一个实践指南,旨在助您一臂之力!我们将从保障安全的关键措施到查询重写如何影响用户体验,提供实用的洞见和实际案例。无论您是资深开发者还是技术领袖,都请准备好深入探索先进的企业级 RAG 系统的世界!
January 27, 2024
View Article随着大语言模型 (LLMs) 的突飞猛进,一个以真实世界中的自动化应用为核心的新时代已经来临。这一时代的特点是推动了基于网络的先进智能体的发展。目前市面上的网络智能体大多只能处理单一输入模式,并且它们的性能通常仅在简化的网络模拟环境或是静态的网络快照中得到评估,这大大限制了它们在实际应用中的有效性。为了解决这一问题,我们推出了 WebVoyager:一个创新的、由大型多模态模型 (LMM) 驱动的网络智能体。WebVoyager 能够通过与现实世界中的网站交互,全面完成用户的各项指令。此外,我们还提出了一种新的评估协议,用于应对开放式网络智能体任务自动评估中的种种挑战。我们利用 GPT4V 的强大多模态理解能力,从 15 个广泛使用的网站中收集真实世界任务,作为衡量我们智能体性能的新基准。测试结果显示,WebVoyager 的任务完成率高达 55.7%,明显优于 GPT4 (含所有工具) 以及仅文本模式的 WebVoyager,这充分证明了它在实际应用中的出色能力。我们的自动评估方法与人类评判的一致性高达 85.3%,为网络智能体在真实世界环境中的进一步发展奠定了坚实的基础。
January 27, 2024
View Article2023 年标志着计算技术新纪元的开始。迄今为止,生成式 AI 主要关注于技术层面的发展。同时,大多数 AI 产品仍然在使用最初模型提供商设计的聊天界面,就像早期个人电脑时代的命令行界面,这对用户提出了较高的要求。
January 27, 2024
View Article从 Blockbuster 的失败中学到的整合 AI 的智慧,以及为何光靠✨(闪光表情符号)不够。
January 26, 2024
View Article在日常生活中融入运动,比如骑车通勤或做家务,是一种巧妙的燃脂方式。这就是所谓的 NEAT(非运动性活动热量消耗)的理念。
January 25, 2024
View Article随着大语言模型(LLMs)的进展,最近人们越来越多地讨论通用人工智能(AGI),包括它的发展趋势和可能的面貌。这些讨论既有乐观的期待,也有对未来充满担忧的声音。但遗憾的是,这些讨论往往过于抽象,导致大家在讨论中各说各话,难以达成共识。因此,我一直在寻找具体的例子和历史先例来更实际地探讨这个话题。当被问及我对 AGI 的看法时,我通常会举自动驾驶为例。在这篇文章中,我想解释这样做的原因。
January 25, 2024
View ArticleReact 服务组件 为 React 引入了专属于服务端的强大功能。我在 Next.js 13 和 14 的应用中实践了这一新范式,接下来是我对其的真实评价。之前我一直在犹豫是否要发表这篇文章,因为 React 社区过去对待批评的态度让我有所顾虑。但最近,我认为分享我的看法变得尤为重要,特别是在我发现大多数现有批评要么记录不充分,要么基于对此技术的不熟悉。写下这篇文章,我是站在一个非常重视用户体验的角度。虽然我也关注开发者的体验,但我始终认为用户体验是最重要的。
January 24, 2024
View Article大语言模型(LLM)已经在人工智能领域带来了革命性的变化。然而,它们的应用受限于处理信息的上下文窗口较小,这在执行长对话和文档分析等任务时尤其成问题。为了突破这一限制,我们提出了一种名为虚拟上下文管理的新技术。这种技术借鉴了传统操作系统中层次化内存系统的理念,能够通过在不同速度的内存间转移数据,从而扩展大语言模型处理信息的能力。基于这种技术,我们开发了 MemGPT(Memory-GPT),这是一个智能系统,它能够有效地在大语言模型本身有限的上下文窗口内提供更广泛的上下文信息。此外,MemGPT 还采用中断机制,以优化系统与用户间的交互控制流。我们在两个重要领域对这种受操作系统启发的设计进行了评估:一是文档分析,在这一领域,MemGPT 能够处理远超大语言模型本身上下文限制的庞大文档;二是多回合对话,在这里,MemGPT 能够构建出能够记忆、反思并在与用户长期互动中不断进化的对话智能体。
January 24, 2024
View Article探究当前工作环境的失衡 —— 以及其可能的解决之道
January 23, 2024
View Article“我记得那天站在雨中\[观看我女儿的足球比赛],为她加油助威,心里想着,‘我希望能有更多这样的时刻。’”
January 23, 2024
View Article你有没有遇过那种似乎总能预知事情结局的人?他们并不是能预见未来的通灵者。其实,他们的秘诀在于洞察生活中的规律,这正是许多成功人士的共同技能,亿万富翁迈克尔·鲁宾就是这样的人。
January 23, 2024
View Article2023 年夏,我们在哈佛大学的 CS50 课程中引入了一套 AI 软件工具。这些工具最初面向大约 70 名夏季课程的学生,随后向数千名线上学生开放,并在同年秋季扩展到校园的数百名学生。遵循课程政策,我们鼓励学生使用这些专为课程设计的工具,同时限制了他们使用 ChatGPT、GitHub Copilot 以及新版 Bing 等商业 AI 软件。我们的目标是通过软件实现接近 1:1 教师对学生的比例,使每位学生都能随时拥有一位以教学为导向的学科专家助手。这些工具的设计目的是引导学生探索解决方案,而非直接给出答案。学生对这些工具的反响积极,他们表示这就像拥有了一位“个人导师”。我们的研究发现,将 AI 有策略地融入教育环境可以通过提供持续的个性化支持,提升学习体验,并帮助教育者解决更复杂的教学难题。在本文中,我们将详细讲述 AI 工具如何在 CS50 课程中提升教学和学习效果,主要涉及代码片段解释、代码风格改善,以及对课程讨论论坛上的课程内容和行政问题的精准回应。此外,我们还将分享我们的方法论、实施细节,以及对那些考虑在教育领域应用这些工具或 AI 技术的人的建议。
January 22, 2024
View Article大家好,我是 Joosep Seitam。今天我要跟各位创业者分享一个故事:就是我如何从一个大胆的想法出发,在短短 8 个月内,让我在珠宝行业的月收入达到了 3 万美元。我和我的合伙人 Martin Kardi 一起创办了一家专门销售镀金榴石嘻哈珠宝的公司。我们的产品主要针对居住在美国的非裔群体。我们销售的是一种非常特别的珠宝,即嘻哈风格的珠宝。仅仅 8 个月,我们就通过搜索引擎优化(SEO)的方式,将公司收入提升到了每月 3 万美元。在这个过程中,我们的网站每月自然访问量已经超过了 1 万次。这是两年前的我和 Martin,那时我们一贫如洗,对未来一无所知……
January 22, 2024
View Article我每天在专业和个人生活中都使用大语言模型,我发现它们是极好的工具——它们不仅提高了我的工作效率,更让我在使用技术时感到愉快和满足,经常让我会心一笑。如果它们对我有帮助,那它们就不可能是无用的(除非我的经验毫无价值,那么你也就没必要读这篇文章了)。而那些怀着好意参与这类讨论的人会问我,“那么,你是怎么使用这些工具的呢?”因此,我查看了我过去一个月的 ChatGPT 使用记录,并将在这里列举一些用途。
January 22, 2024
View Article在我们深入 RAG 聊天机器人系列的最后几章之前,许多逐步构建聊天机器人的读者可能遇到了一些疑问。比如,在不追求快速反应、而更看重准确回答的情况下,比如医疗类聊天机器人,我们应该如何做?今天,我们要介绍三种不同的技术,它们专注于在特定技能上提升聊天机器器人的整体性能。重要的是,本节我们将不采用任何开源库或工具。这一选择是刻意为之,主要是为了关注性能优化这一核心议题。尽管这些技术对于聊天机器人的功能来说是可选的,但它们对于对性能有特别要求的用户和企业而言却非常关键。在本次讨论中,我会通过代码片段来详细说明每种技术。所有这些代码片段都可以轻松地融入之前文章中的代码,使得实施过程变得无比简单。如果您觉得这些示例对您的机器人项目有帮助,请随意使用。以一个为最终用户提供棋盘游戏信息的聊天机器人为例,我们来具体看看这些技术是如何应用的。
January 21, 2024
View Article“其实并不是没人再需要你。”这番话出自我身后的一位年长女士之口,当时我们正乘坐从洛杉矶飞往华盛顿特区的深夜航班。飞机里暗淡且静谧。她旁边的男士小声回应,声音几乎听不清,大意是“我宁愿已经死了。”她再次开口:“别那么说。”我原本无意偷听,但他们的对话不禁引起了我的极大兴趣。我脑海中开始描绘这位男士的形象,想象他是一位默默无闻却终身勤勉工作的人,怀揣着未曾实现的梦想——或许是未获得的学位,未追求的职业生涯,未创办的公司。当飞机降落、灯光亮起,我终于见到了那位绝望的男士。让我震惊的是,他是我认识的——一位世界知名的人物。那时他已经 80 多岁,曾因多年前的勇气、爱国精神和成就而被众人爱戴。他从我身后走过飞机走道时,其他乘客纷纷带着敬意向他致意。当他站在驾驶舱门口时,飞行员拦住他说:“先生,我从小就非常敬佩您。”就在几分钟前还渴望死亡的老人,在得到过去荣耀的认可时,脸上露出了自豪的笑容。
January 21, 2024
View Article在过去几个月中,我尝试了三次撰写这篇文章;这是个复杂的话题。公众总是乐于看到大公司,特别是那些自负的硅谷科技公司被批评,他们喜欢看“失宠”的故事。但我并不想抹黑谷歌。尽管如此,谷歌依然是一个出色的工作环境,远胜过大多数其他公司,并且依然在创造惊人的成就。我的目的是想分享谷歌发生的一些独特而美好的事情,希望这些美好能在未来的某个地方重现。毫无疑问,谷歌早期的日子是非常特别的。我特意保存了一封电子邮件长达 18 年,直到我离开公司那天,因为我知道它会是一段有趣的历史对比。这封邮件主要描述了一些表面的差异,比如免费的美食。但这并不是谷歌员工来上班的主要原因。我想深入探讨的是谷歌文化中更深层次、更有意义的方面。
January 21, 2024
View Article在自然语言处理领域,大型预训练语言模型因能存储大量事实知识而备受关注,尤其是在针对具体任务进行细致调整后,它们的表现尤为出色。不过,这些模型在获取和准确使用知识方面仍有所不足,特别是在那些需要大量知识的任务上,它们的效果还不如专为特定任务设计的系统。此外,如何为这些模型的决策提供依据,以及如何更新它们所掌握的世界知识,仍是目前研究中的难题。迄今,研究人员已经探索了在提取型任务中应用具有可微分存取机制的非参数记忆的预训练模型。本研究则是针对检索增强生成(Retrieval-Augmented Generation, RAG)的通用调整方法进行探讨。这种方法结合了预训练的参数记忆(如 seq2seq 模型)和非参数记忆(例如,通过预训练神经网络检索器访问的 Wikipedia 的密集向量索引)。我们对比了两种 RAG 方法:一种是在整个生成过程中使用相同的检索内容,另一种则在生成的每个部分可能使用不同的内容。我们对这些模型在多种知识密集型任务上进行了细致的调整和评估,在几个开放领域的问答任务上取得了领先成绩,超过了传统的 seq2seq 模型和专门为特定任务设计的检索 - 提取系统。在语言生成任务中,我们发现 RAG 模型能产生更具体、多样化且符合事实的语言,相比之下,传统的只依赖参数的 seq2seq 模型则显得逊色。
January 19, 2024
View Article高中数学奥林匹克选手们要注意了,AlphaGeometry 正在挑战你们在数学领域的成就。
January 18, 2024
View Article这里为您提供了一些建议和技巧,旨在提高大语言模型应用的精准度,并介绍了选择合适大语言模型的要点。
January 18, 2024
View Article代码生成的难题与普通的自然语言处理不同 —— 它们涉及严格遵循目标编程语言的语法规则、识别正常和边界情况、关注问题规范中的众多细节,并应对代码特有的其他问题和需求。因此,自然语言生成领域的许多常用优化技巧对代码生成任务来说可能并不适用。在这项研究中,我们提出了一种全新的代码生成方法,名为 AlphaCodium —— 一种基于测试、分阶段、专注于代码的迭代处理流程。这种方法显著提升了大语言模型 (LLM) 在处理代码问题上的能力。我们在一个具有挑战性的代码生成数据集 CodeContests 上进行了 AlphaCodium 的测试,这个数据集包含了来自 Codeforces 等平台的竞赛编程题目。我们的方法在这些测试中始终保持着显著的性能提升。例如,在验证数据集上,使用 AlphaCodium 流程后,GPT-4 的准确率(pass@5)从单一精心设计的直接提示的 19% 提升到了 44%。AlphaCodium 在性能上不仅超越了之前的研究成果,如 AlphaCode,而且所需的计算资源也大大减少。我们认为,在这项工作中形成的许多原则和最佳实践普遍适用于代码生成的各种任务。我们在最新开源的项目 AlphaCodium 中分享了我们针对 CodeContests 的 AlphaCodium 解决方案,并提供了完整的数据集评估和基准测试脚本,以便社区进一步研究和探索。
January 18, 2024
View Article在我职业生涯中,最令我震惊的一刻是发现,我在标准普尔资本智能公司(S&P Capital IQ)工作时,一位新同事的薪资竟比我高。有一天,我随口问他:“你的薪水有多少?”当得知他比我多挣 40,000 美元时,我既感到不满,又嫉妒,更觉得自己不被重视。同等职位和经验,他怎会挣得比我多 40%?此后,我开始提早离开办公室,心想自己的薪酬并不公平。几个月后,我选择离开了公司。尽管公司试图以晋升和加薪挽留我,但我已感受到了深深的冒犯,伤害无法弥补。
January 17, 2024
View Article在今日发表于《自然》杂志的论文中,我们介绍了 AlphaGeometry,这是一款能够解决复杂几何问题的 AI 系统,其能力已接近人类奥林匹克金牌选手的水平,标志着 AI 性能的一个重大突破。在对 30 个奥林匹克几何问题的基准测试中,AlphaGeometry 在规定的奥林匹克时间内解决了 25 个问题。相比之下,之前的最先进系统只解决了其中的 10 个问题,而平均水平的人类金牌选手能解决 25.9 个问题。
January 17, 2024
View Article作为生成式 AI 软件的典型代表,ChatGPT 模仿人类的效果非常惊人。它象征着研究领域的一个可能的新纪元,但同时也伴随着风险。
January 17, 2024
View Article最新观点:Scrum 存在问题。
January 16, 2024
View Article“有些问题看起来易于构想和展示原型,但将其发展成实际产品却极为艰难。比如自动驾驶:展示一辆汽车在街区自动行驶很简单,但要把这一技术转化为成熟的产品却需要十年时间。”本文旨在探讨如何将大语言模型(LLMs)有效地融入系统和产品中。我们将汇集学术研究、行业资源及实践者的经验,提炼出一些关键的观点和做法。
January 16, 2024
View Article为什么以及如何我们持续地投入团队的努力来解决技术债务?结果又如何呢?任何长期维护软件的人都会意识到,随着时间的推移,软件似乎逐渐“腐朽”。防止这种情况的发生,需要付出刻意的努力。本文我将分享一个团队如何成功应对这一挑战,并提供一些实际的操作建议。
January 16, 2024
View Article在先前的文章中,我们探讨了如何利用 ChatGPT 进行主题建模,并取得了显著成效。我们的任务是分析酒店连锁的客户评价,找出其中的主要议题。在之前的尝试中,我们运用了标准的 ChatGPT 完成 API 并亲自编写了原始提示。这种方式对于一些特定的分析研究非常有效。但如果你的团队正在积极地关注和分析客户评价,采取一些自动化措施是非常有益的。优秀的自动化不仅可以帮助你构建一个独立的流程,还能提供更便捷的体验(即便是不懂大语言模型和编程的团队成员也能轻松获取数据),同时还更加节省成本(你只需一次性向大语言模型发送所有文本并支付费用)。如果我们要构建一个可持续发展的、准备投入生产的服务,那么利用现有的框架来减少编写辅助代码的工作量,并实现更模块化的解决方案是非常值得的(例如,我们可以轻松地从一个大语言模型切换到另一个)。在本文中,我将介绍一个非常流行的大语言模型应用框架 — LangChain。我们还将详细了解如何评估模型的性能,这对于商业应用来说至关重要。
January 15, 2024
View Article去年十月,我们研究了由软件工程师创立的自助资金公司,并引起了广泛关注。很多自助资金的创始人在那期之后给我发来了消息。这些消息中,很多都是对所谓的“税法第 174 条款变更”表示不满。一位创始人这样说道:“你听说过美国税法第 174 条款近年的变更吗?这个变更使得自助资金的软件公司难以为继。简单来说,所有研发相关的成本,包括软件开发人力成本,都不能立即计为费用。这些成本必须资本化,然后在 5 年内摊销 — 若是在美国境外完成的工作,摊销期甚至要 15 年。我不得不说,这个变化太荒谬了。我所接触的每个人都有同样的看法。我想知道,你在和其他自助资金公司的交流中有无遇到过此类话题?”为此我进行了调查,《华尔街日报》和其他一些新闻机构从去年三月开始已经报道了这一变更。但联系我的创始人们表达了一个观点:公众对这个税改可能造成的巨大问题意识不足。去年四月,Ben Thompson 在 Stratechery 报道了这一变化,他也对受影响公司对这项法规知之甚少感到惊讶:“我很惊讶,在科技行业内很少有人知道这个问题,至少在我私下进行的对话中是这样,尽管初创企业可能是受影响最严重的。”
January 15, 2024
View Article大语言模型 (LLMs) 在语言智能领域取得了重大进展,尤其在多项复杂推理任务上展现出了卓越的实证性能。理论上的证明也表明了它们在语言处理中的高级认知能力和涌现推理能力。在处理复杂推理任务时,大语言模型 (LLMs) 的关键在于它们采用了引人注目的思维链 (CoT) 推理技术,这种技术要求它们在推导答案的过程中构建中间步骤。CoT 推理不仅在提升推理性能上表现出色,也在增强可解释性、可控性和灵活性方面有显著贡献。鉴于这些优势,近期的研究将 CoT 推理方法应用于自主语言智能体的开发,使这些智能体能够熟练地遵循语言指令,在不同环境中执行任务。这篇综述文章全面探讨了这一领域的关键研究方向,包括:(i) CoT 技术的基础原理,重点解释其有效性的原因;(ii) CoT 的范式转变;及 (iii) 使用 CoT 方法增强的语言智能体的新兴趋势。未来研究的方向包括探索智能体的泛化能力、效率、定制化、规模扩展和安全问题。我们希望通过这篇文章,使读者全面了解 CoT 推理和语言智能体这些研究领域,并理解它们之间的联系。本文适合各个层次的读者,无论是希望全面了解 CoT 推理和语言智能体的新手,还是对这些领域的基础原理感兴趣、想参与最新讨论的资深研究者。
January 15, 2024
View Article生成式 AI (Generative AI) 已经无处不在。各行各业的组织正迫切要求他们的团队加入这场风潮 — 有 77% 的商业领导 担心他们已经错过了利用生成式 AI 的机遇。数据团队正在努力应对这一挑战。但是,打造一个真正能促进商业增长的生成式 AI 模型并非易事。长期来看,仅依靠快速接入 OpenAI API 是远远不够的。我们谈论的是生成式 AI,但你的竞争优势在哪里?为什么用户会选择你而不是 ChatGPT?
January 14, 2024
View Article为了验证高级 ChatGPT 提示词是否物有所值,我们投入了约 80 美元购买了五个此类提示词,并在市场团队成员中进行了盲测。简而言之:它们并不值得。
January 14, 2024
View Article大语言模型的上下文窗口扩展最近变得非常流行。而长期以来,结合信息检索和大语言模型的方法也受到关注。这引发了几个问题:*i) 在下游任务中,到底是信息检索增强更好,还是长上下文窗口更有优势?* *ii) 能否将这两种方法结合,以吸取各自的长处?* 我们通过研究两种领先的预训练大语言模型——43B GPT 和 LLaMA2-70B,来探讨这些问题。有趣的是,我们发现,即使是使用简单的信息检索增强,在长上下文任务中具有 4K 上下文窗口的大语言模型也能达到与经过特别优化处理、具有 16K 上下文窗口的大语言模型相媲美的表现,而且所需的计算资源更少。更为重要的是,我们证明了信息检索技术能显著提升大语言模型的性能,无论其上下文窗口的大小如何。我们最优秀的模型——结合了信息检索技术的 LLaMA2-70B,并拥有 32K 的上下文窗口,在包括问答和基于查询的摘要在内的七项长上下文任务上,其平均得分超越了 GPT-3.5-turbo-16k 和 Davinci003。与此同时,这个模型在生成速度上也比它的非检索版 LLaMA2-70B-32k 快得多。我们的研究为那些在信息检索增强与大语言模型长上下文扩展之间做选择的从业者提供了宝贵的洞见。
January 14, 2024
View Article在先前的文章中,我们探讨了如何利用 ChatGPT 进行主题建模,并取得了显著成效。我们的任务是分析酒店连锁的客户评价,找出其中的主要议题。在之前的尝试中,我们运用了标准的 ChatGPT 完成 API 并亲自编写了原始提示。这种方式对于一些特定的分析研究非常有效。但如果你的团队正在积极地关注和分析客户评价,采取一些自动化措施是非常有益的。优秀的自动化不仅可以帮助你构建一个独立的流程,还能提供更便捷的体验(即便是不懂大语言模型和编程的团队成员也能轻松获取数据),同时还更加节省成本(你只需一次性向大语言模型发送所有文本并支付费用)。如果我们要构建一个可持续发展的、准备投入生产的服务,那么利用现有的框架来减少编写辅助代码的工作量,并实现更模块化的解决方案是非常值得的(例如,我们可以轻松地从一个大语言模型切换到另一个)。在本文中,我将介绍一个非常流行的大语言模型应用框架 — LangChain。我们还将详细了解如何评估模型的性能,这对于商业应用来说至关重要。
January 14, 2024
View Article经历过 Siri 和 Google 助手之后,我发现尽管它们能够控制各种设备,但却无法进行个性化定制,并且不可避免地依赖于云服务。出于对新知识的渴望*以及*想在生活中使用一些酷炫的东西,我下定决心,要追求更高的目标。
January 14, 2024
View Article当前的文本生成技术,例如 ChatGPT,存在诸多问题:不够可靠、使用起来复杂、功能有限,而且开发与运行成本极高。这些问题源于它们的底层技术。但有可能通过全新的方法来彻底解决这些问题。这会是件好事,还是坏事呢?
January 14, 2024
View Article生成式 AI 革命 的显著成果体现在 ChatGPT、Midjourney 等工具上。这一革命的核心,是基于这样一个简单的思路:使用一个庞大的神经网络,用互联网上海量的数据进行训练,然后用它来响应广泛的用户需求。大型语言模型(LLM)可以回答问题、编写代码、创作诗歌,而图像生成系统则能够创造出逼真的洞穴壁画或当代艺术作品。那么,为什么这些令人惊叹的 AI 技术还没有转化为像科幻小说中那样有用且广泛应用的机器人?为什么还没有能够整理桌面、折叠衣服、做早餐的机器人呢?
January 13, 2024
View Article随着软件工程师不断探索将语义搜索功能整合入应用程序,一种被称为检索增强型生成(Retrieval Augmented Generation, RAG)的策略应运而生。这种策略主要是找到与查询内容语义相符的文档,然后借助大语言模型(Large Language Model, LLM),比如 ChatGPT,来提取精准答案。RAG 系统的目标包括:a) 减少由大语言模型产生的不切实际的回答,b) 为生成的回答添加来源和参考链接,以及 c) 降低对文档元数据标注的依赖。但是,这一系统也存在其局限性,这些局限性源于信息检索技术本身及对大语言模型的依赖。本文中,我们将分享从三个不同领域(研究、教育和生物医学)的案例研究中得出的 RAG 系统的失败经验。我们总结了这些经验教训,并提出在设计 RAG 系统时应考虑的七大挑战。本研究的两个主要发现是:1) RAG 系统的有效性验证只能在实际运行中进行,2) RAG 系统的健壮性是随着时间逐渐发展而非一开始就固有的。最后,我们为软件工程界提出了一些关于 RAG 系统的潜在研究方向。
January 13, 2024
View Article