大语言模型抽象简明指南 [译]
这里为您提供了一些建议和技巧,旨在提高大语言模型应用的精准度,并介绍了选择合适大语言模型的要点。
January 18, 2024
View Article翻译的一些我觉得不错的科技文章。
这里为您提供了一些建议和技巧,旨在提高大语言模型应用的精准度,并介绍了选择合适大语言模型的要点。
January 18, 2024
View Article代码生成的难题与普通的自然语言处理不同 —— 它们涉及严格遵循目标编程语言的语法规则、识别正常和边界情况、关注问题规范中的众多细节,并应对代码特有的其他问题和需求。因此,自然语言生成领域的许多常用优化技巧对代码生成任务来说可能并不适用。在这项研究中,我们提出了一种全新的代码生成方法,名为 AlphaCodium —— 一种基于测试、分阶段、专注于代码的迭代处理流程。这种方法显著提升了大语言模型 (LLM) 在处理代码问题上的能力。我们在一个具有挑战性的代码生成数据集 CodeContests 上进行了 AlphaCodium 的测试,这个数据集包含了来自 Codeforces 等平台的竞赛编程题目。我们的方法在这些测试中始终保持着显著的性能提升。例如,在验证数据集上,使用 AlphaCodium 流程后,GPT-4 的准确率(pass@5)从单一精心设计的直接提示的 19% 提升到了 44%。AlphaCodium 在性能上不仅超越了之前的研究成果,如 AlphaCode,而且所需的计算资源也大大减少。我们认为,在这项工作中形成的许多原则和最佳实践普遍适用于代码生成的各种任务。我们在最新开源的项目 AlphaCodium 中分享了我们针对 CodeContests 的 AlphaCodium 解决方案,并提供了完整的数据集评估和基准测试脚本,以便社区进一步研究和探索。
January 18, 2024
View Article在我职业生涯中,最令我震惊的一刻是发现,我在标准普尔资本智能公司(S&P Capital IQ)工作时,一位新同事的薪资竟比我高。有一天,我随口问他:“你的薪水有多少?”当得知他比我多挣 40,000 美元时,我既感到不满,又嫉妒,更觉得自己不被重视。同等职位和经验,他怎会挣得比我多 40%?此后,我开始提早离开办公室,心想自己的薪酬并不公平。几个月后,我选择离开了公司。尽管公司试图以晋升和加薪挽留我,但我已感受到了深深的冒犯,伤害无法弥补。
January 17, 2024
View Article在今日发表于《自然》杂志的论文中,我们介绍了 AlphaGeometry,这是一款能够解决复杂几何问题的 AI 系统,其能力已接近人类奥林匹克金牌选手的水平,标志着 AI 性能的一个重大突破。在对 30 个奥林匹克几何问题的基准测试中,AlphaGeometry 在规定的奥林匹克时间内解决了 25 个问题。相比之下,之前的最先进系统只解决了其中的 10 个问题,而平均水平的人类金牌选手能解决 25.9 个问题。
January 17, 2024
View Article作为生成式 AI 软件的典型代表,ChatGPT 模仿人类的效果非常惊人。它象征着研究领域的一个可能的新纪元,但同时也伴随着风险。
January 17, 2024
View Article最新观点:Scrum 存在问题。
January 16, 2024
View Article“有些问题看起来易于构想和展示原型,但将其发展成实际产品却极为艰难。比如自动驾驶:展示一辆汽车在街区自动行驶很简单,但要把这一技术转化为成熟的产品却需要十年时间。”本文旨在探讨如何将大语言模型(LLMs)有效地融入系统和产品中。我们将汇集学术研究、行业资源及实践者的经验,提炼出一些关键的观点和做法。
January 16, 2024
View Article为什么以及如何我们持续地投入团队的努力来解决技术债务?结果又如何呢?任何长期维护软件的人都会意识到,随着时间的推移,软件似乎逐渐“腐朽”。防止这种情况的发生,需要付出刻意的努力。本文我将分享一个团队如何成功应对这一挑战,并提供一些实际的操作建议。
January 16, 2024
View Article在先前的文章中,我们探讨了如何利用 ChatGPT 进行主题建模,并取得了显著成效。我们的任务是分析酒店连锁的客户评价,找出其中的主要议题。在之前的尝试中,我们运用了标准的 ChatGPT 完成 API 并亲自编写了原始提示。这种方式对于一些特定的分析研究非常有效。但如果你的团队正在积极地关注和分析客户评价,采取一些自动化措施是非常有益的。优秀的自动化不仅可以帮助你构建一个独立的流程,还能提供更便捷的体验(即便是不懂大语言模型和编程的团队成员也能轻松获取数据),同时还更加节省成本(你只需一次性向大语言模型发送所有文本并支付费用)。如果我们要构建一个可持续发展的、准备投入生产的服务,那么利用现有的框架来减少编写辅助代码的工作量,并实现更模块化的解决方案是非常值得的(例如,我们可以轻松地从一个大语言模型切换到另一个)。在本文中,我将介绍一个非常流行的大语言模型应用框架 — LangChain。我们还将详细了解如何评估模型的性能,这对于商业应用来说至关重要。
January 15, 2024
View Article去年十月,我们研究了由软件工程师创立的自助资金公司,并引起了广泛关注。很多自助资金的创始人在那期之后给我发来了消息。这些消息中,很多都是对所谓的“税法第 174 条款变更”表示不满。一位创始人这样说道:“你听说过美国税法第 174 条款近年的变更吗?这个变更使得自助资金的软件公司难以为继。简单来说,所有研发相关的成本,包括软件开发人力成本,都不能立即计为费用。这些成本必须资本化,然后在 5 年内摊销 — 若是在美国境外完成的工作,摊销期甚至要 15 年。我不得不说,这个变化太荒谬了。我所接触的每个人都有同样的看法。我想知道,你在和其他自助资金公司的交流中有无遇到过此类话题?”为此我进行了调查,《华尔街日报》和其他一些新闻机构从去年三月开始已经报道了这一变更。但联系我的创始人们表达了一个观点:公众对这个税改可能造成的巨大问题意识不足。去年四月,Ben Thompson 在 Stratechery 报道了这一变化,他也对受影响公司对这项法规知之甚少感到惊讶:“我很惊讶,在科技行业内很少有人知道这个问题,至少在我私下进行的对话中是这样,尽管初创企业可能是受影响最严重的。”
January 15, 2024
View Article大语言模型 (LLMs) 在语言智能领域取得了重大进展,尤其在多项复杂推理任务上展现出了卓越的实证性能。理论上的证明也表明了它们在语言处理中的高级认知能力和涌现推理能力。在处理复杂推理任务时,大语言模型 (LLMs) 的关键在于它们采用了引人注目的思维链 (CoT) 推理技术,这种技术要求它们在推导答案的过程中构建中间步骤。CoT 推理不仅在提升推理性能上表现出色,也在增强可解释性、可控性和灵活性方面有显著贡献。鉴于这些优势,近期的研究将 CoT 推理方法应用于自主语言智能体的开发,使这些智能体能够熟练地遵循语言指令,在不同环境中执行任务。这篇综述文章全面探讨了这一领域的关键研究方向,包括:(i) CoT 技术的基础原理,重点解释其有效性的原因;(ii) CoT 的范式转变;及 (iii) 使用 CoT 方法增强的语言智能体的新兴趋势。未来研究的方向包括探索智能体的泛化能力、效率、定制化、规模扩展和安全问题。我们希望通过这篇文章,使读者全面了解 CoT 推理和语言智能体这些研究领域,并理解它们之间的联系。本文适合各个层次的读者,无论是希望全面了解 CoT 推理和语言智能体的新手,还是对这些领域的基础原理感兴趣、想参与最新讨论的资深研究者。
January 15, 2024
View Article生成式 AI (Generative AI) 已经无处不在。各行各业的组织正迫切要求他们的团队加入这场风潮 — 有 77% 的商业领导 担心他们已经错过了利用生成式 AI 的机遇。数据团队正在努力应对这一挑战。但是,打造一个真正能促进商业增长的生成式 AI 模型并非易事。长期来看,仅依靠快速接入 OpenAI API 是远远不够的。我们谈论的是生成式 AI,但你的竞争优势在哪里?为什么用户会选择你而不是 ChatGPT?
January 14, 2024
View Article为了验证高级 ChatGPT 提示词是否物有所值,我们投入了约 80 美元购买了五个此类提示词,并在市场团队成员中进行了盲测。简而言之:它们并不值得。
January 14, 2024
View Article大语言模型的上下文窗口扩展最近变得非常流行。而长期以来,结合信息检索和大语言模型的方法也受到关注。这引发了几个问题:*i) 在下游任务中,到底是信息检索增强更好,还是长上下文窗口更有优势?* *ii) 能否将这两种方法结合,以吸取各自的长处?* 我们通过研究两种领先的预训练大语言模型——43B GPT 和 LLaMA2-70B,来探讨这些问题。有趣的是,我们发现,即使是使用简单的信息检索增强,在长上下文任务中具有 4K 上下文窗口的大语言模型也能达到与经过特别优化处理、具有 16K 上下文窗口的大语言模型相媲美的表现,而且所需的计算资源更少。更为重要的是,我们证明了信息检索技术能显著提升大语言模型的性能,无论其上下文窗口的大小如何。我们最优秀的模型——结合了信息检索技术的 LLaMA2-70B,并拥有 32K 的上下文窗口,在包括问答和基于查询的摘要在内的七项长上下文任务上,其平均得分超越了 GPT-3.5-turbo-16k 和 Davinci003。与此同时,这个模型在生成速度上也比它的非检索版 LLaMA2-70B-32k 快得多。我们的研究为那些在信息检索增强与大语言模型长上下文扩展之间做选择的从业者提供了宝贵的洞见。
January 14, 2024
View Article在先前的文章中,我们探讨了如何利用 ChatGPT 进行主题建模,并取得了显著成效。我们的任务是分析酒店连锁的客户评价,找出其中的主要议题。在之前的尝试中,我们运用了标准的 ChatGPT 完成 API 并亲自编写了原始提示。这种方式对于一些特定的分析研究非常有效。但如果你的团队正在积极地关注和分析客户评价,采取一些自动化措施是非常有益的。优秀的自动化不仅可以帮助你构建一个独立的流程,还能提供更便捷的体验(即便是不懂大语言模型和编程的团队成员也能轻松获取数据),同时还更加节省成本(你只需一次性向大语言模型发送所有文本并支付费用)。如果我们要构建一个可持续发展的、准备投入生产的服务,那么利用现有的框架来减少编写辅助代码的工作量,并实现更模块化的解决方案是非常值得的(例如,我们可以轻松地从一个大语言模型切换到另一个)。在本文中,我将介绍一个非常流行的大语言模型应用框架 — LangChain。我们还将详细了解如何评估模型的性能,这对于商业应用来说至关重要。
January 14, 2024
View Article经历过 Siri 和 Google 助手之后,我发现尽管它们能够控制各种设备,但却无法进行个性化定制,并且不可避免地依赖于云服务。出于对新知识的渴望*以及*想在生活中使用一些酷炫的东西,我下定决心,要追求更高的目标。
January 14, 2024
View Article当前的文本生成技术,例如 ChatGPT,存在诸多问题:不够可靠、使用起来复杂、功能有限,而且开发与运行成本极高。这些问题源于它们的底层技术。但有可能通过全新的方法来彻底解决这些问题。这会是件好事,还是坏事呢?
January 14, 2024
View Article生成式 AI 革命 的显著成果体现在 ChatGPT、Midjourney 等工具上。这一革命的核心,是基于这样一个简单的思路:使用一个庞大的神经网络,用互联网上海量的数据进行训练,然后用它来响应广泛的用户需求。大型语言模型(LLM)可以回答问题、编写代码、创作诗歌,而图像生成系统则能够创造出逼真的洞穴壁画或当代艺术作品。那么,为什么这些令人惊叹的 AI 技术还没有转化为像科幻小说中那样有用且广泛应用的机器人?为什么还没有能够整理桌面、折叠衣服、做早餐的机器人呢?
January 13, 2024
View Article随着软件工程师不断探索将语义搜索功能整合入应用程序,一种被称为检索增强型生成(Retrieval Augmented Generation, RAG)的策略应运而生。这种策略主要是找到与查询内容语义相符的文档,然后借助大语言模型(Large Language Model, LLM),比如 ChatGPT,来提取精准答案。RAG 系统的目标包括:a) 减少由大语言模型产生的不切实际的回答,b) 为生成的回答添加来源和参考链接,以及 c) 降低对文档元数据标注的依赖。但是,这一系统也存在其局限性,这些局限性源于信息检索技术本身及对大语言模型的依赖。本文中,我们将分享从三个不同领域(研究、教育和生物医学)的案例研究中得出的 RAG 系统的失败经验。我们总结了这些经验教训,并提出在设计 RAG 系统时应考虑的七大挑战。本研究的两个主要发现是:1) RAG 系统的有效性验证只能在实际运行中进行,2) RAG 系统的健壮性是随着时间逐渐发展而非一开始就固有的。最后,我们为软件工程界提出了一些关于 RAG 系统的潜在研究方向。
January 13, 2024
View Article我和 Kevlin Henney 最近讨论了一个问题:将来的自动代码生成工具,比如升级版的 GitHub Copilot,是否有可能取代现有的高级编程语言。我们具体想知道的是,ChatGPT N(N 很大)是否能跳过用高级语言编写代码的步骤,直接生成像今天的编译器那样的可执行机器代码?
January 12, 2024
View ArticleElon Musk 是一个充满争议的人物。我的目的,如同往常,是为了在喧嚣、复杂或难以理解的话题中增添一些细致见解和清晰信号。不论你对 Elon 怎样看,我认为推动讨论走向更深入、更有意义的交流是非常有价值的,同时希望这不会给我带来太多风险。问题在于,市面上 99% 的批评都出于恶意且不准确,导致大多数人缺乏理解 Elon 行动动机和目的的必要背景。这是个问题,因为 Elon 是一位颇具影响力和远见的领导者,他的公司在传递变革性技术的过程中扮演着越来越重要的角色。
January 12, 2024
View Article在增强大型语言模型(LLMs)推理能力的过程中,“思维链”(Chain of Thought,简称 CoT)扮演着关键角色。但是,CoT 效果与其推理步骤的长度之间的具体联系还不太明确。为了弄清楚这一点,我们开展了一系列实证实验。我们的实验主要围绕在 CoT 示范中对推理步骤进行扩展或压缩,同时保证其他所有因素不变。我们的研究发现了几个重要点。首先,结果显示,即使不在提示信息中加入新内容,增加推理步骤也能显著提升 LLMs 在各种数据集上的推理表现。相反,减少推理步骤即便保留了核心信息,也会明显削弱模型的推理能力。这一点强调了 CoT 中推理步骤数量的重要性,并为在解决复杂问题时更有效地利用大语言模型提供了实用的指导。其次,我们还研究了 CoT 的效果与示范中使用的推理理由之间的关系。出乎意料的是,即便是错误的推理理由,只要保持了足够的推理步骤长度,也能取得不错的效果。最后,我们发现,增加推理步骤的益处取决于任务的性质:简单任务需要较少的推理步骤,而在处理更复杂的任务时,更长的推理过程则会带来显著的优势。
January 12, 2024
View Article有一篇关于斯多葛主义的小文章,自我读过以后,对我的生活产生了深远的影响。可能是我成年之后第一次,我觉得自己没有浪费太多时间。我感觉自己已经做好了迎接挑战的准备。
January 12, 2024
View Article当公司停止发展,创始人离职,人事部门开始主导大局,或者高层更关心房产而非产品时...那就意味着,你该寻找新的工作机会了。
January 11, 2024
View Article在 Shopify,追求技术卓越是我们的宗旨。我们始终致力于基础设施的完善,即便这些努力的成果不总是一目了然。我们经常通过简化系统来改进基础设施。这种持续的简化是创新的基础。为什么这么说呢?因为虽然并非所有快速软件都卓越,但所有卓越的软件一定是高效快速的。对我们的商户而言,每一毫秒都极为宝贵。这就意味着我们的系统不仅要易于扩展,还要避免复杂繁琐的架构。
January 11, 2024
View Article我重新审视了我此前的推文,关于这是近几周来最重要的提示注入发现。事实上,这是自提示注入出现以来最大的技术突破和安全挑战。
January 11, 2024
View Article2021 年末,我们这个遍布全球的五人工程师团队,签署了关闭我们初创公司 Gradio 的文件。对大多数创始人而言,这通常是一个伴随着悲伤或深刻反思的时刻。但我们却在庆祝。因为我们即将被 Hugging Face 收购!这次收购是我们辛勤努力的成果,但在几周时间里,一直被一位投资者所阻挠。我们对他施加的压力越大,他就越坚决不签署收购协议。然而出乎意料的是,这位投资者最终让步,使我们得以加入 Hugging Face。这是自从被收购以来,我首次详细记录这段经历。我希望这能够揭开初创企业被收购的神秘面纱,同时也展示创始人们为了提高成功被收购的几率可以做出哪些决策。
January 11, 2024
View Article在这个教程中,我们将探讨文本分割的五个层次。这份非官方的列表是为了增添趣味和教育目的而编制的。是否曾尝试向 ChatGPT 输入长篇文本,却被告知内容过长?或者你在尝试改善应用程序的长期记忆能力,但似乎效果仍不理想。要提升语言模型应用的性能,一个非常有效的策略是将大型数据切分为小块。这个过程被称为分割或分块(这两个术语我们将交替使用)。在多模态领域中,这种分割同样适用于图像。我们将介绍很多内容,但如果你能坚持阅读到最后,我保证你将对分块理论、策略以及进一步学习的资源有一个全面的了解。
January 11, 2024
View Article做决策其实并不复杂。在大多数情况下,我们心里已经有答案。然后我们却花费几周时间来自我说服,认为这是最佳的选择。有时,我们甚至永远无法下定决心。我们为何如此自我折磨?1. 首先,是因为我们总认为做重要决策应该很困难。我们甚至可能希望它困难。因为如果我们花很长时间而不是短暂考虑后做出决策,最后却失败了,我们可以找到合理的借口 —— “但我已尽全力!”2. 其次,我们总是尽力寻找最佳方案。因为我们面临的风险非常大。这直接导致了一种被称为“分析瘫痪”的怪圈,我们在其中陷入漫长的迷茫。
January 11, 2024
View Article“计划谬误”是指我们在预测个人生产力时的自然偏差:我们倾向于着眼于最佳情景,或者非常接近的情况,但这种情况很少实现。
January 11, 2024
View Article本研究旨在探究 OpenAI 的 ChatGPT 模型在编程任务中的有效性和效率,该模型基于 GPT-3.5 和 GPT-4 技术。研究目的是了解 ChatGPT 对编程和软件开发的潜在影响。我们采用定量方法,使用 Mostly Basic Python Problems (MBPP) 数据集来衡量这些模型的表现。研究不仅对 GPT-3.5 和 GPT-4 进行了直接评估,还包括了与 AI 领域其他知名大语言模型的比较,特别是 Google 的 Bard 和 Anthropic 的 Claude,以此衡量和比较它们在同样任务上的熟练程度。研究结果凸显了 ChatGPT 模型在编程任务上的优势,为 AI 社区,特别是开发者和研究人员提供了有价值的洞见。随着人工智能技术的广泛应用,本研究为 AI 辅助编程的发展提供了一份及时的参考。
January 11, 2024
View Article我登录了 StickK.com,一个创建承诺合约的平台,并在那里立下了一个挑战:我计划在未来 9 个月里完成一部小说,并在年底前交给我的文学代理人审阅。我不仅与我的朋友们分享了这一承诺,还在包括 10 万播客听众在内的多个公共场合公开讨论了这一计划。这个挑战的风险有多大?如果我没能完成,我就要向一个我并不支持的所谓“反慈善”组织捐赠 9999 美元,这是 StickK 平台允许的最高金额。剧透一下:我最终成功了,在年底前的最后一小时,我几乎耗尽了所有精力。在完成初稿之后,我甚至抽出一天时间,利用 AI 制作了一部小说预告片。但重要的是,尽管我对这个挑战充满信心,当我签订这个合约时,却根本无法确定能否成功:近 10 年来,我几乎未曾涉足小说创作。虽然我写作能力不错,但历来写作速度不快。我还需要管理一家需要大量时间和精力的公司。那么,我是怎样坚信自己能够完成这个挑战的呢?
January 10, 2024
View Article我并不认为自己有资格给出建议。但许多人在 Twitter 上私信我,询问我的想法,所以我写下了这些话。这样,我就不需要反复回答相同的问题了。编辑这篇文章的过程中,我发现我实际上是在为我年轻的妹妹 Katherine 分享我的经验。
January 10, 2024
View ArticleElon Musk 是一个充满争议的人物。我的目的,如同往常,是为了在喧嚣、复杂或难以理解的话题中增添一些细致见解和清晰信号。不论你对 Elon 怎样看,我认为推动讨论走向更深入、更有意义的交流是非常有价值的,同时希望这不会给我带来太多风险。问题在于,市面上 99% 的批评都出于恶意且不准确,导致大多数人缺乏理解 Elon 行动动机和目的的必要背景。这是个问题,因为 Elon 是一位颇具影响力和远见的领导者,他的公司在传递变革性技术的过程中扮演着越来越重要的角色。
January 9, 2024
View Article近日,我接受了 NPR 的 Planet Money (播客,文字记录) 的采访,讨论信用卡诈骗的一个特别形式。有个观点未能播出,那就是:“理想情况下,诈骗的存在不应为零。”这个说法听起来可能有些违反直觉,甚至显得有些矫情。但实际上,这是一个值得信赖的观点。
January 9, 2024
View Article许多商业书籍强调培育心理韧性来应对困境,却忽视了更重要的因素。韧性已成为一门盛行的生意。机场书店充斥着各种关于“为何有人能成功而他人却失败”的书籍,或承诺教你培养“无敌的心理韧性”。TED 演讲、播客和社交媒体上充满了介绍韧性人士的三至五个特点,如乐观、坚韧和成长心态。随着管理界认识到成功背后往往隐藏着无数次的失败,关于如何从失败中恢复的建议也应运而生,这些建议通常源自精英军事部队或极限运动员的经验。作为管理思维领域近 20 年的从业者,我编辑和采访过许多这样的影响者。然而,这些良好意图的建议者却给人留下了两个误解:首先,认为韧性很罕见;其次,认为韧性几乎完全来自内心。事实上,这两点都不正确。
January 9, 2024
View Article这是我在 2023 年 11 月 10 日,也就是 Go 作为开源项目发布 14 周年之际,在悉尼 GopherConAU 会议上所做的闭幕演讲。演讲中穿插使用了一些演示文稿的幻灯片。
January 9, 2024
View Article我经常听人说,应该依据第一直觉来做决策。但在我们这个行业,这种做法未必总是最佳选择。工程决策绝不能仅仅基于直觉,因为这太主观了。我们必须依赖事实,客观地做出判断。让我们深入探讨一下。
January 8, 2024
View Article人工智能(AI)预计将彻底改变我们的工作方式,为首批采用者带来显著的竞争优势。许多公司已经开始使用 AI 驱动的自动聊天机器人来处理客户咨询,但仍有些公司对这种新兴技术不够熟悉。这里面的关键问题是:这些应用中的 AI 效果如何?目前,像 ChatGPT 或 Google 这样的开放式大型语言模型(LLM)面临的一个挑战是对实时数据的访问受限。虽然有像 Bing 插件这样的例外,但即便如此,直接从自己网站上提取数据也不容易。不通过昂贵的模型微调就克服这个限制是个大挑战。而检索增强生成(Retrieval-Augmented Generation,RAG)技术或许能提供解决方案。
January 8, 2024
View Article虽然构建成功的软件架构的过程看似简单,实际上却颇具挑战。要理解 QARs,并在此基础上做出最优权衡,需要深刻的洞察力和丰富的经验,而这些往往需要通过对架构本身的不断试验和调整来积累。虽然过程本质上不复杂,但所涉及的权衡决策通常充满挑战,而且难以找到简单的解决方案。
January 8, 2024
View ArticleViberary 是我创立的一个副项目,旨在通过氛围来查找书籍。我创建这个项目,一方面是为了满足自己进行机器学习侧项目的兴趣,另一方面是为了探索当前搜索和推荐技术的界限。这个项目不仅是对我最近在嵌入技术方面深入研究的一个补充,而且是一个符合生产级标准的实践。虽然这个项目很有趣,但它也确切地证实了我一直以来对自己的理解:达到 MLE(机器学习启蒙)是一个循环过程,涉及建模、工程和 UI 设计等多个方面,并将这些方面紧密结合在一起 - 将系统投入生产就是最终的奖赏。和任何生产级系统一样,机器学习并非魔法,即使数据输出不是确定性的,构建这类系统也需要精心的工程和设计选择。我认为,这是当前机器学习领域中常被忽视的一个方面。通过这篇文章,我不仅想要回顾我所做的工作,还想概述一下搭建一个基于 Transformer 的机器学习应用所需的一切,哪怕是一个小型的、使用预训练模型的应用,我希望这篇文章能成为一个有用的资源和参考。Viberary 的机器学习架构是一个基于双塔模型的语义检索系统。它使用 Sentence Transformers 预训练的不对称 MSMarco 模型对用户的搜索查询和 Goodreads 书籍数据库进行编码。
January 8, 2024
View ArticleLlamaIndex 的数据摄入管道是一种全新且改进的方法,用于高效摄入和管理数据文档。这一管道特别适用于需要将输入文档经过一系列处理步骤(如切分、嵌入等)后才进行索引建立的情况,比如我们的 RAG 管道就是这样。此外,它还具备缓存、文档存储管理、向量存储更新等实用功能。
January 8, 2024
View Article如果你的职业生涯进展顺利,对生活感到满意,人际关系也很和谐,那么你可以不用阅读这篇文章。请享受你美好的一天,朋友,这篇文章可能不适合你。你做得很出色,我们都为你感到骄傲。为了不让你觉得白费了一次点击,这里有一张 Lenny Kravitz 戴着超大围巾的照片。
January 8, 2024
View Article就在昨晚我宣布将对所有现任 MIT 教员进行剽窃审查之后不久,我确信 Kornbluth 校长、MIT 行政团队和董事会成员们能听到校园内集体传来的哀叹声。为什么这样?原因很简单:每位教员都清楚,一旦他们的研究成果被 AI 盯上,学术界的任何文献都难以逃过 AI 的发言,检测引号缺失、改写不当或未能适当引用他人工作等问题将无所遁形。但昨晚不仅是 MIT 的教员失眠,哈佛大学的教员们、其董事会成员和行政领导也同样辗转反侧。因为,我们为什么要止步于 MIT?难道我们不应该同样深入调查哈佛大学的学术诚信吗?耶鲁、普林斯顿、斯坦福、宾夕法尼亚、达特茅斯怎么办?意思你的明白?
January 7, 2024
View Article长久以来,人们一直在探讨大语言模型 (LLMs) 在何种程度上可能会“记住”其训练数据的问题。包括 Google DeepMind 的 Nicholas Carlini 和本文的第一作者 Gary Marcus 在内的学者都曾对此提出疑问。最新的实证研究显示,在某些情况下,LLMs 能够原样复制或稍作修改后复制其训练集中的大量文本。例如,Milad Nasr 及其团队在 2023 年的论文 中指出,LLMs 可以被激发,泄露如电邮地址和电话号码等私人信息。Carlini 和他的合作伙伴 最近的研究 也显示,较大的聊天机器人模型(而非小型模型)有时会逐字复制其训练集中的大量文本。
January 7, 2024
View Article研究显示,单靠意志力戒掉坏习惯是徒劳无功的。我们需要找到不必依赖坚强意志的策略。
January 7, 2024
View Article今年,人工智能在招聘偏见、包容性、监管等多个领域的影响将更加显著。就像 2023 年成为人工智能的转折点一样,2024 年人工智能预计将产生更深远的影响。这一次,工作者们已做好准备迎接挑战。随着生成式 AI (Generative AI) 已经成为员工关注的焦点超过一年,他们不仅更加理解其在当今工作环境中的作用,而且也准备好拥抱随之而来的变化和机遇。现在是利用这一优势的时候了。为了保持领先,工作者们需要了解即将出现的 AI 领域的这五大趋势。
January 7, 2024
View Article程序员对提升生产力的方法论兴趣浓厚 —— 如何更准确地估计任务、用更少的时间完成更多工作,以及提高工作质量。我也深入研究了这一领域。在阅读了大量书籍后,我发现了一些可能对其他软件开发者有用的有趣见解。
January 6, 2024
View Article在机器学习 (ML) 的众多近期进展中,有两个特别吸引我的。第一个是 gpt-3.5-turbo-instruct 在国际象棋中达到 1800 ELO 水平。一个大语言模型 (LLM) 能够仅凭网络上随机抓取的文本就学会下好棋,这似乎不可思议。第二个是 Kenneth Li 的论文《生成世界表示》。The Gradient 上有一篇精彩的摘要,以及 Neel Nanda 的后续分析。他们训练了一个含有 2500 万参数的 GPT,用于预测奥赛罗游戏中的下一步棋。它不仅能在训练数据集未覆盖的游戏中准确落子,而且通过线性和非线性的探测发现,这个模型能准确追踪棋盘的状态。然而,这一成果仅限于使用奥赛罗游戏树上均匀采样得到的合成数据集训练的模型。当他们尝试将相同的技术应用于使用人类对弈数据训练的模型时,结果并不理想。在我看来,这是该论文发现的一个重要限制,可能会影响其在现实世界的应用性。比如,我们无法仅通过从代码树均匀采样来生成代码。因此,我对此进行了深入研究。我训练了一些国际象棋游戏模型,并对这些训练好的模型进行了线性探测。我的研究结果非常正面,解答了我之前的所有疑问(当然,这也带来了更多新的问题)。
January 6, 2024
View Article这不是大家现在热议的那本 Musk 新传记,而是 Ashlee Vance 在 2015 年写的 Musk 传记。我在 7 月份开始阅读它,那时还不知道有新出的一本。不过没关系:Musk 一如既往,始终如一。我阅读这本书,是想弄明白他究竟是个什么样的人。Musk 就是一个谜团。他引领着世界上最先进的火箭的制造,显示出他的聪明才智。作为世界上最富有的人,他显然拥有出色的商业决策能力。然而,这位聪明、商业决策出众的人物,却不时做出看似愚蠢的商业举动。他无谓地与监管机构争执,提起注定失败的无效诉讼,虐待关键员工,甚至给全球知名的品牌重新命名。
January 6, 2024
View Article