翻译

翻译的一些我觉得不错的科技文章。


Sam Altman 在斯坦福创业者思维领导研讨会上的对话 [译]

Sam Altman 在与斯坦福大学兼职讲师拉维 - 贝拉尼(Ravi Belani)的对话中,阿尔特曼为有抱负的人工智能创业者提供了建议,并分享了他对人工智能工具和人工通用智能的机遇与风险的见解。

May 2, 2024

View Article

提示工程的基本理念以及如何将这些理念应用于提升大语言模型的性能 [译]

大语言模型的接口:大语言模型广受欢迎的一个重要原因在于,其文本到文本的接口极其简单,用户可以轻松使用。在早期,使用深度学习解决一个任务通常需要对模型进行微调,通过数据训练使其掌握解决该任务的方法。而且,这些模型大都只专注于单一任务。但是,大语言模型具备了通过文本提示解决多种问题的能力,这种在上下文中的学习能力使得原本复杂的问题解决方式转变为自然语言的形式!

May 2, 2024

View Article

每家大语言模型公司都在挑战搜索技术:未来的大语言模型检索系统展望 [译]

搜索技术是计算机科学中极具挑战性的领域之一,仅有少数产品如 Google、Amazon 和 Instagram 能够做到出色。直至不久前,大多数产品并不依赖高效的搜索功能——它并非用户体验的关键部分。然而,随着大语言模型及其检索系统的迅猛发展,每个大语言模型公司都迫切需要将顶尖的搜索功能融入产品中,以确保其正常运作。面对这种新兴的需求,新一代 AI 公司将如何解决搜索问题?检索功能是大语言模型系统不可或缺的组成部分,这一点未来也不会改变。

May 2, 2024

View Article

Perplexity 产品开发的新模式 [译]

Perplexity 的联合创始人兼产品负责人 Johnny Ho 分享了他如何借助 AI 技术领导团队,如同指挥黏菌一般,构建他们的 AI 公司,以及更多前沿策略

May 2, 2024

View Article

提高提示一致性的结构化生成方法 [译]

最近,Hugging Face 的 *Leaderboards and Evals* 研究团队进行了一系列小实验,揭示了评估结果对提示格式微小变化的极高敏感性。对于特定任务,即使是很小的提示变动也会导致结果大不相同,这并非我们所希望看到的:相同信息输入的模型,其输出应保持一致性。我们与 *Dottxt* 的合作伙伴探讨了这一问题,他们提出了一个新思路:是否有办法提升不同提示格式之间的一致性?现在,让我们来详细探讨这一点。

May 1, 2024

View Article

Rabbit R1: 几乎无法评测 [译]

这就是 Rabbit R1,它是一个装在盒子里的 AI,可以说是时代的象征。这个设备和 Humane AI Pin 有许多相似之处,不论是好是坏。不过,它也有两个所谓的独特之处,这些特点使它与 Humane AI Pin 区别开来。不管怎样,我们需要讨论一下这个问题。如果你觉得听起来熟悉,随时打断我,看看这个。

April 29, 2024

View Article

我们得聊聊 Rabbit R1 这款设备... [译]

这个视频主要介绍和点评了一款名为 Rabbit R1 的人工智能硬件助手。作者认为,作为一款售价 200 美元的消费级产品,R1 在设计和功能上还存在诸多不足之处,如滚轮交互体验欠佳、屏幕和音频表现一般、电池续航短等。同时,作者质疑 R1 这类 AI 硬件助手的实用价值,认为类似功能完全可以通过手机上的软件应用来实现。展望未来,作者预测一旦科技巨头们在自家移动操作系统中原生集成类似的 AI 助手功能,第三方的 AI 硬件设备将難以与之竞争。作者呼吁,硬件厂商在发布产品前应该给予评测者和消费者足够的时间去全面体验,不要盲目追赶所谓的"发布窗口期"。与其囿于硬件形态,不如把更多精力投入到底层 AI 技术的研发中来。

April 28, 2024

View Article

7 个帮助最小化 RAG 模型风险的指标 [译]

今天我们要学习如何使用关键指标评估 RAG。

April 28, 2024

View Article

Ilya——塑造世界的人工智能科学家 [译]

如今,AI 是一项伟大的科技,因为 AI 将解决我们现在面临的所有问题。它能解决就业问题,能治疗疾病,能消除贫困,但同时它也会带来新的问题。假新闻将会愈演愈烈,网络攻击将变得更加严重,我们将面临全自动的 AI 武器的问题。我认为 AI 有潜力创造出无比稳定的独裁统治。

April 27, 2024

View Article

实际使用 SORA [译]

2024 年 2 月,我们首次报道了 OpenAI 发布的 SORA,当时我们将其形容为视频领域的 DALL·E。SORA 是一个生成时间更长、内容更连贯的视频的扩散模型。OpenAI 通过使模型能预见多帧内容,成功解决了视频主体即便短暂消失也能保持连贯性的技术难题。目前,SORA 能够一次性生成长达一分钟的完整视频。OpenAI 还表示,未来可能进一步扩展视频的长度,甚至实现两段视频的无缝连接。

April 26, 2024

View Article

No Priors 第 61 集 | 采访 OpenAI 的 Sora 团队负责人 Aditya Ramesh、Tim Brooks 和 Bill Peebles [译]

嗨,亲爱的听众们。欢迎收听"No Priors"的另一期节目。今天,我们有幸与 OpenAI 的 Sora 团队进行交谈,Sora 是一种新的生成式视频模型,能够接受一段文本提示词,然后返回一段视频剪辑高清、视觉连贯的,长达一分钟。Sora 也引起了人们的思考,即这些大规模的视频模型是否是世界模拟器,同时它把可扩展的 Transformer 架构应用到了视频领域。我们今天的嘉宾就是 Sora 的团队成员们。Aditya Ramesh、Tim Brooks 和 Bill Peebles。欢迎来到"No Priors",各位。

April 25, 2024

View Article

台积电在美国郊区建造芯片工厂的艰辛历程 [译]

工期延误以及台湾和美国同事之间的紧张关系正在困扰着这家芯片巨头在凤凰城的扩张。

April 24, 2024

View Article

Meta 宣布推出 Llama 3 [译]

Meta 宣布推出 Llama 3 的介绍视频文稿,里面介绍了很多 Llama 3 的细节。

April 23, 2024

View Article

从一个卡车司机到 38 岁成为 Ruby on Rails 开发者 [译]

从这篇文章讲述了 Pedro David Garcia Lopez 的转变故事,他在 38 岁高龄从卡车司机转职成为了一个 Ruby on Rails 开发者,挑战了业界对年龄的固有偏见完全是无稽之谈!Pedro 的经历在 LinkedIn 上激励了我。

April 23, 2024

View Article

硅谷女孩采访 Perplexity 创始人 Aravind [译]

遇见阿拉温德,这位来自印度的创新者,他辞去 OpenAI 的工作,决心要挑战 Google - 和玛丽娜·莫吉尔科的深入对话。新一代搜索引擎将会是什么样?让我们和阿拉温德·斯利尼瓦斯一起发现,他从印度来到美国,带着 AI 的力量来革新在线搜索体验。

April 21, 2024

View Article

DREAM: 分布式 RAG 实验框架 [译]

使用 Ray, LlamaIndex, Ragas, MLFlow 和 MinIO 在 Kubernetes 上的分布式 RAG 实验蓝图

April 20, 2024

View Article

RAG 在长上下文大语言模型 (LLM) 中的应用探讨 [译]

这是@rlancemartin 最近在几个聚会上关于在长上下文 LLM 时代使用 RAG 的讲座。随着上下文窗口增至超过 100 万 Token,很多人质疑 RAG 是否已经过时。我们结合几个最新的项目成果来分析这个问题。我们讨论了长上下文 LLM 在事实推理和信息检索方

April 18, 2024

View Article

介绍 Meta Llama 3:迄今为止最强大的开源大语言模型 [译]

今天,我们正在介绍 Meta Llama 3,我们最先进的开源大语言模型 (LLM) 的下一代。Llama 3 模型很快将在 AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM, 和 Snowflake 上可用,并得到 AMD, AWS, Dell, Intel, NVIDIA, 和 Qualcomm 提供的硬件平台的支持。

April 18, 2024

View Article

第 2 章:技术性能 —— 2024 年人工智能指数报告 [译]

本章的技术性能部分为您呈现了 2023 年 AI 的全面进展。起始于对 AI 技术性能的高层次概述,本文档记录了 AI 的逐步发展。接着,本章深入分析了当前在多个方面的 AI 能力,包括语言处理、编程、计算机视觉(图像和视频分析)、推理、音频处理、自治智能体、机器人以及强化学习 (reinforcement learning)。此外,本章还重点介绍了过去一年里 AI 研究的重大突破,讨论了如何通过提示、优化和微调来提升大语言模型的性能,并最终探讨了 AI 系统对环境的影响。

April 17, 2024

View Article

Chapter 2: Technical Performance | 2024 AI Index Report

Overview The technical performance section of this year’s AI Index offers a comprehensive overview of AI advancements in 2023. It starts with a high-level overview of AI technical performance, tracing its broad evolution over time. The chapter then examines the current state of a wide range of AI capabilities, including language processing, coding, computer vision (image and video analysis), reasoning, audio processing, autonomous agents, robotics, and reinforcement learning. It also shines a spotlight on notable AI research breakthroughs from the past year, exploring methods for improving LLMs through prompting, optimization, and fine-tuning, and wraps up with an exploration of AI systems’ environmental footprint.

April 16, 2024

View Article

Chapter 1: Research and Development | 2024 AI Index Report

The figures below present the global count of English- and Chinese-language AI publications from 2010 to 2022, categorized by type of affiliation and cross-sector collaborations. Additionally, this section details publication data for AI journal articles and conference papers.

April 16, 2024

View Article

第 1 章:AI 研发 —— 2024 年人工智能指数报告 [译]

这份报告全面分析了 2023 年人工智能 (AI) 领域的进展,涵盖了技术进步、经济影响、政策制定和公众舆论等方面。

April 16, 2024

View Article

2024 年人工智能指数报告 —— 由斯坦福大学人工智能研究院发布 [译]

这份报告全面分析了 2023 年人工智能 (AI) 领域的进展,涵盖了技术进步、经济影响、政策制定和公众舆论等方面。

April 16, 2024

View Article

规划是 AI 智能体的一种核心设计模式[译]

规划是 AI 智能体的一种核心设计模式,其中我们利用大语言模型 (LLM) 自主选择一系列步骤,以完成一个较大的任务。比如,如果我们指派一个智能体去网上研究某个主题,我们可能就会用 LLM 帮助它将这个大任务拆分成若干小任务,例如具体研究几个子主题、整合研究成果、以及撰写报告。

April 15, 2024

View Article

美国芯片制造的重大失误 [译]

ASML 正在推动一项可能是当前世界上最关键的技术——极紫外光刻技术 (extreme ultraviolet lithography machines)。如果没有这些价值两亿美元的 EUV 设备及其制造的半导体,人工智能革命就不会发生,全球经济也将开始陷入停滞。这些设备主要在荷兰生产,并销售给台湾的台积电和韩国的三星,而 Intel 却迟迟未能参与。在此同时,无论是在唐纳德·特朗普还是乔·拜登的任期内,美国政府都在努力不让这些设备落入中国手中。

April 14, 2024

View Article

福布斯采访 Perplexity 创始人:Perplexity 让你在互联网上找到更好的答案 [译]

Notion 是一款由人工智能驱动的生产力工具,正在向 Google Docs 和 Microsoft Office 发起挑战。该公司在 2024 年的《福布斯》AI 50 强榜单中脱颖而出,其流行程度的快速上升也得到了社交媒体上大量 Notion 教程的证实。

April 14, 2024

View Article

福布斯采访 Notion 创始人:用“乐高”式创新挑战 Google Docs 和 Microsoft Office [译]

Notion 是一款由人工智能驱动的生产力工具,正在向 Google Docs 和 Microsoft Office 发起挑战。该公司在 2024 年的《福布斯》AI 50 强榜单中脱颖而出,其流行程度的快速上升也得到了社交媒体上大量 Notion 教程的证实。

April 14, 2024

View Article

价值 100 亿美元的 Notion 欲构建您的全能 AI 应用 [译]

Notion 的联合创始人 Ivan Zhao 凭借其优雅的生产力应用程序在硅谷投资者和广大用户中赢得了极大的关注,该应用一度火爆到服务器都承受不住了。现在,这家盈利的创业公司的 CEO 看到了一个突破机会,他计划抓住 AI 的先机并大胆进攻,挑战微软和谷歌在职场的主导地位。

April 13, 2024

View Article

访谈记录:Ezra Klein 采访 Dario Amodei [译]

Ezra Klein 每周二和周五会带来一场讨论重大议题的对话,例如今天他与 Dario Amodei 的对话。

April 13, 2024

View Article

揭穿号称首位人工智能软件工程师 Devin 能在 Upwork 接活的谎言![译]

近期,自称“首位 AI 软件工程师”的 Devin 被推出。公司不实地宣称他们的视频展示了 Devin 完成并从 Upwork 获得自由职业报酬的情况,然而视频实际上并未显示这些内容。

April 13, 2024

View Article

Ray Kurzweil 与 Geoff Hinton 关于未来 AI 发展的辩论 [译]

在 2024 年 Abundance360 峰会期间录制的这一集中,Ray、Geoffrey 和 Peter 展开了一场关于 AI 是否能具备自我意识、意识的本质是什么以及 AI 是否应有权利的辩论。美国发明家及未来学家 Ray Kurzweil 是人工智能 (artificial intelligence) 的先驱,他在光学字符识别 (OCR)、文本到语音、语音识别技术上作出了巨大的贡献。他撰写了多本关于 AI 与技术未来的书籍,获得了国家技术与创新奖章 (National Medal of Technology and Innovation) 等多项荣誉。在 Google,Kurzweil 致力于机器学习和语言处理技术,推动技术进步和人类潜能的提升。被誉为“深度学习之父”的 Geoffrey Hinton 是一位英国 - 加拿大的认知心理学家和计算机科学家,他在人工神经网络、深度学习 (deep learning) 和机器学习领域的开创性研究极大地推进了图像和语音识别等复杂任务的算法发展。推荐阅读 Ray 的最新作《奇点更近了:当我们与 AI 合并》。

April 12, 2024

View Article

如何设置 Mixtral-8x22B | 基础模型提示入门 [译]

Mixtral 8x22B 已经面市,这是首次推出一款可以商业使用的开源 GPT-4 类型模型。然而,它并非一个指令优化型模型,而是一个基础模型。这意味着我们需要用全新的方式来进行提示。虽然这更具挑战性,但并非无法实现。

April 12, 2024

View Article

软件工程中的心理健康问题 [译]

今天,我想探讨一个我们在该领域讨论不足的问题:软件工程师的心理健康,尤其是那些承担领导职责的人。作为技术联合创始人,我亲身经历了焦虑的困扰。这种感受虽然常伴随我们的职业生涯,但并未列入工作职责之中。

April 12, 2024

View Article

浅显易懂地介绍 llm.c [译]

当我们训练像 ChatGPT 这样的大语言模型时,需要处理大量的代码和复杂过程。

April 11, 2024

View Article

马斯克访谈 —— 尼古拉·坦根采访,谈 AI、特斯拉、中国电动汽车、Twitter(X)、SpaceX、中国电动汽车、企业文化与管理、火星殖民[译]

马斯克访谈 —— 尼古拉·坦根采访,谈 AI、特斯拉、中国电动汽车、Twitter(X)、SpaceX、中国电动汽车、企业文化与管理、火星殖民

April 11, 2024

View Article

AI 生成代码的生命周期 [译]

不管是编写代码、撰写文本、制作图像,还是其它应用,生成式 AI 对众多用户来说都如同一个充满神秘的黑盒。一般而言,用户只需简单地访问网站、安装应用或添加扩展,便可以直接体验到 AI 工具带来的便捷。但是,您是否好奇过这个黑盒背后的运作原理呢?本文旨在揭开我们的代码 AI 助手 Cody —— 它能深入理解您的整个代码库 —— 在代码 AI 生成过程中所涉及的奥秘。虽然使用大语言模型(LLM)来回应代码 AI 生成请求看似简单,但要在涵盖广泛用例、编程语言、工作流以及其他多变因素的生产环境中实现,确保既满足高质量完成的标准又能保证开发者的满意,却是一项极其复杂的挑战。本文将不仅探讨大语言模型的重要性,还将详述如何将其扩展为一个包含多个预处理和后处理步骤的全功能 AI 工程系统,讨论上下文的作用及其获取方法等多个方面,一起来深入了解代码 AI 生成的完整生命周期吧!

April 10, 2024

View Article

马斯克的最新演讲,揭示 SpaceX 登陆火星宏伟蓝图,开创人类多行星文明新纪元 [译]

在星际基地,埃隆·马斯克就公司将人类送往火星、开启多行星生命之旅的计划提供了最新进展。火星是开始实现人类多行星生存的最佳目的地。

April 7, 2024

View Article

通过模拟一切视频生成将带我们走向通用人工智能,终有一天你可以在视频模型上运行 ChatGPT [译]

这是一段题为“Video generation will lead to AGI by simulating everything”的演讲稿,由 OpenAI 的 Tim Brooks 和 Bill Peebles

April 7, 2024

View Article

SGI(美国硅图公司)的兴衰史 —— 一位叛逆的年轻人如何短暂地征服世界的故事 [译]

James Henry Clark 1944 年 3 月 23 日出生于德州平原城,他的家境并不富裕。父亲酗酒且无法长期维持工作,母亲则在当地一位医生的诊所工作,月入约 225 美元(折合 2024 年约 2605 美元)。Clark 幼年时父母就离异了,即便按照通胀调整后的标准,他母亲的工资似乎尚可,实际上她在扣除所得税和社保后仅得到 175.50 美元(约 2032 美元),这是她和三个孩子的唯一生活来源。Clark 本人则是个颇为叛逆的少年,高中时期的一些“壮举”包括在乐队巴士上点燃烟雾弹、偷带臭鼬进舞会、对英语老师大喊“去地狱”,酗酒及参与飙车比赛。考虑到那个年代,饮酒往往伴随着接连不断的吸烟。

April 7, 2024

View Article

MidJourney、DeepL、ElevenLabs 与 HeyGen 的共同之处(除了拥有其独特的团队结构和爆炸性增长!) [译]

一种在媒体和私下里经常被重复的观点认为,对于利用人工智能(AI),现有的大公司而非新兴初创企业,显得更加得心应手。这种思维方式认为,AI 更多是一种强化现有企业地位的持续技术,而不是一种能够为新入场者赋能的颠覆性力量。这种看法在一定程度上是有道理的,尤其是对于那些致力于提升员工完成其*现有*工作效率的初创企业——不妨看看 Adobe 和 Notion,它们如何以闪电般的速度融入 AI 功能。传统观点认为,初创公司需要在大公司弄清楚如何创新之前解决分销问题。但对许多应用场景而言,现有公司的创新似乎只需一次 OpenAI API 的调用即可实现。然而,这样的论调过于简化了实际情况。我们现在见证了一批 B2B AI 公司,他们通过借鉴消费者世界中的经典策略——以更低的成本提供远超十倍的体验——而快速增长其收入。

April 7, 2024

View Article

蔡崇信访谈 —— 从阿里巴巴到 NBA 的跨界人生[译]

在这次访谈中,阿里巴巴联合创始人蔡崇信与主持人尼古拉畅聊了他的成长历程、职业发展以及个人见解。蔡崇信 13 岁从台湾移居美国,通过参与体育活动克服语言障碍,融入新环境。他的父亲虽然严厉,但对他产生了深远影响。加入阿里巴巴之前,蔡崇信在瑞典华伦贝格家族的投资公司工作,学习投资基础知识。1999 年,他应朋友之邀去杭州见马云,被马云的愿景和魅力所吸引,加入了阿里巴巴。公司早期的办公环境虽然简陋,但团队充满激情与凝聚力。阿里巴巴的发展历程中遇到过许多挑战,如 2005 年雅虎的投资、淘宝的盈利模式创新、竞争压力和组织架构调整等。新冠疫情和监管压力也对公司产生了影响。面对挑战,蔡崇信强调要勇于承认错误,及时调整战略。对于中国经济和消费者,蔡崇信指出,尽管房地产市场下滑和就业不确定性影响了消费者信心,但中国作为制造业强国,拥有巨大的潜力。在人工智能领域,阿里巴巴重视云计算和电商业务与 AI 的结合,但也面临美国芯片出口限制的影响。中美在 AI 领域存在差距,但中国正在努力赶上。在地缘政治方面,蔡崇信强调遵守法规、促进全球贸易的重要性,同时也意识到在美国开展业务面临数据隐私和网络安全方面的顾虑。他认为西方对中国存在一些误解,不应低估中国人民的能力和潜力。谈到企业文化和领导力时,蔡崇信分享了阿里巴巴"快乐工作,认真生活"的理念,强调领导者应给予即时反馈、保持谦逊,鼓励创新。在个人生活方面,蔡崇信购买 NBA 布鲁克林篮网队,看到了体育与商业的共通原则。他珍惜与家人共度的时光,阅读间谍小说是他的一大兴趣。最后,蔡崇信给年轻人的建议是,要发展专业技能,成为某一领域的专家;同时学习多项技能,如数据科学、心理学和编程。具备专业技能和多样化技能,是在现今世界取得成功的关键。

April 7, 2024

View Article

Torvalds 畅谈人工智能对编程的影响 [译]

Torvalds 认为 LLM 可以帮助程序员编写代码,发现明显的错误,但他并不认为这是一场革命性的变化。Torvalds 希望 LLM 能够帮助审查代码和维护子系统,因为它们擅长发现愚蠢但难以察觉的错误。Torvalds 认为 LLM 的价值远远超过 "增强版的自动纠错",它们可以成为帮助程序员更好地工作的工具。他对 LLM 的未来持乐观态度。

April 6, 2024

View Article

全速前行:2024 年的机器学习、人工智能与数据(MAD)领域展望 [译]

这是我们第十次发布关于数据、分析、机器学习和人工智能生态的年度综述。覆盖这个领域十多年来,现在的局势比以往任何时候都更加令人兴奋和充满前景。多年来我们跟踪的所有主流趋势和细分领域正汇聚在一起:大量数据已被数字化;通过现代化工具,我们可以快速且经济地存储、处理和分析这些数据;更重要的是,这些数据现在能够供给性能更强的 ML/AI 模型使用,这些模型能够理解数据、识别模式、基于数据进行预测,甚至现在能够创造文本、代码、图像、声音和视频。

April 5, 2024

View Article

我们已经迈入了通用人工智能的时代 [译]

尽管现如今最尖端的 AI 模型还存在不少缺点,但几十年后,人们定会将它们视作通用人工智能的开山之作。

April 5, 2024

View Article

15 个 ChatGPT 学术写作神器提示 [译]

别再对着空白页束手无策了!这里有 15 个灵感满满的 ChatGPT 提示,助你寻找研究灵感、构建强有力的论据、撰写清晰简洁的文章,突破创作瓶颈,提升学术写作效率。

April 3, 2024

View Article

在浏览器中直接使用 OCR 技术处理 PDF 和图片 [译]

这周,我参加了斯坦福大学举办的大规模故事发现数据新闻学术会议。在这样的会议上,如何从 PDF 和图片中有效提取数据始终是一个热门议题。

April 3, 2024

View Article

多样本越狱 [译]

Claude 2.1 在处理高达 20 万 Token 的庞大上下文时,检索特定句子的能力令人瞩目。我们通过实验发现,利用精心设计的提示技巧,可以引导 Claude 更准确地回忆出相关信息。

April 2, 2024

View Article

OpenAI 向 NTIA 提交的开放模型权重意见 [译]

OpenAI 坚信,通过建立、广泛部署和应用 AI,我们可以改善人们的生活,并开辟一个更加美好的未来。这一进程依托于不断的创新与市场竞争的自由。在这些宽泛原则下,推动 AI 前景的路径多种多样。OpenAI 是最先尝试解决如何公平分配基础模型带来前所未有利益的 AI 开发者之一,我们通过分享这段历史背景,旨在为 NTIA 的评议提供参考。

April 2, 2024

View Article

丹尼尔的故事 [译]

欢迎来到四月酷日!这是一个与愚人节相似但却截然不同的日子——我们不是制造尴尬笑话,而是创作与平时不一样的、真正有价值的内容。比如,去年我就分享了一篇关于互联网上最古怪市场的文章。而今年,我则是踏上了一条全新的探索之路。

April 2, 2024

View Article

什么是 GPT?通过图形化的方式来理解 Transformer 中的注意力机制 [译]

深入浅出地解释 Transformer 和大语言模型 (LLMs) 中心机制——注意力机制(Attention)。

April 2, 2024

View Article

什么是 GPT?通过图形化的方式来理解 Transformer 架构 [译]

GPT 是 Generative Pre-trained Transformer 的缩写。首个单词较为直接,它们是用来生成新文本的机器人。"Pre-trained" 指的是模型经历了从大量数据中学习的过程,这个词暗示了该模型还有进一步在特定任务中进行额外训练和微调的可能。然而,最后一个词,才是真正重要的部分。Transformer 是一种特定类型的神经网络,一个机器学习模型,它是现今 AI 高速发展的核心创新。我希望通过这个视频和接下来的章节,以一种便于理解的方式,阐述 Transformer 内部实际发生的过程。我们将逐步探索流经它的数据。

April 2, 2024

View Article

从 20 年前的愚人节开始的电子邮件革命:Gmail 时代回眸 [译]

Google 的联合创始人拉里·佩奇和谢尔盖·布林,对恶作剧情有独钟,他们在创立公司不久后的每年愚人节,总是推出令人啼笑皆非的想法。例如,有一年 Google 发布了一则招聘启事,寻找月球上的哥白尼研究中心的研究员。另外一年,他们还宣布打算在搜索引擎中推出一项能“嗅觉搜索”的创新功能。这些搞笑的创意年复一年地上演,让人们逐渐将其视作 Google 惯有的恶作剧,笑对这些离奇的创意。正是基于这样的背景,佩奇和布林在 20 年前的愚人节,推出了一个让人难以置信的产品。那就是 Gmail,一种免费邮箱服务,每个账户提供 1GB 的巨大存储空间。

April 1, 2024

View Article

在 AI 淘金潮中,企业究竟富得有多少? [译]

Nvidia 和 Microsoft 只是冰山一角

April 1, 2024

View Article

GitHub 如何成为代码托管的领头羊,超越 SourceForge [译]

自高中起,我便开始编程。我还隐约记得,曾与一位朋友共同利用 TortoiseSVN 分享代码,开发了一款安卓游戏。大学期间,我学会了从 GitHub 克隆仓库以获取计算机科学作业。之后,在实习期间,我开始使用 GitHub 审核和合并合并请求(PR)。像我这样在过去十年内步入职业生涯的大多数开发者,可能都有着类似的经历——不论是参与开源项目还是公司私有团队,GitHub 都成了源代码和代码更改的代名词。

April 1, 2024

View Article

八位 Google 员工开创了现代 AI 的新纪元,揭秘他们的故事 [译]

他们因缘际会,对一项创意产生了浓厚的兴趣,并共同撰写了“Transformers”论文——这是近代史上最具里程碑意义的技术革新。

April 1, 2024

View Article

探索合成语音的挑战与机遇 [译]

我们将分享一次 Voice Engine 小型试验项目的经验教训,这是一款能够创建定制语音的模型。

March 29, 2024

View Article

吴恩达:AI 智能体工作流引领人工智能新趋势 [译]

我期待与大家分享我在 AI 智能体方面的发现,我认为这是一个令人兴奋的趋势,所有涉及 AI 开发的人都应该关注。同时,我也对所有即将介绍的"未来趋势"充满期待。

March 28, 2024

View Article

AI 与训练 AI 替代自己的工人的矛盾 [译]

随着企业引进人工智能(AI)以提升工作效率,一个不适感的矛盾出现了:员工往往需要培训那些未来可能会取代他们的系统。AI 伦理倡导者 Madison Mohns 分享了三个领导原则,旨在既拥抱技术进步,又重视同事的福祉——为构建一个人工智能能够增强人类潜力的未来而铺路。

March 25, 2024

View Article

揭秘内部:OpenAI 的 Sora 模型如何运作 [译]

在这篇博客文章中,我们将深入剖析 Sora 模型背后的一些技术细节。我们还将探讨我们对这些视频模型可能产生的影响的看法。最后,我们将讨论我们对于用于训练 Sora 等模型所需计算资源的想法,并预测了训练计算与推理相比的情况,这对于预估未来 GPU 需求具有实质的参考价值。

March 25, 2024

View Article

Sora:初体验 [译]

我们从创意界得到了极具价值的反馈,这对我们模型的完善大有裨益。

March 25, 2024

View Article

在开放世界中的通用智能体 [译]

Jim Fan 在 NVIDIA GTC 2024 上的演讲:《在开放世界中的通用智能体》

March 23, 2024

View Article

Perplexity 的创始人 Aravind Srinivas 与 Stripe 的 David Singleton 炉边谈话 [译]

这段 Perplexity 的创始人 Aravind Srinivas 与 Stripe 的 David Singleton 炉边谈话的视频非常值得一看,Perplexity 很坦诚的分享了 Perplexity 的创业历程、内部运作、招人、从其他大公司学到的经验以及未来展望等话题。

March 23, 2024

View Article

李飞飞对话英伟达首席科学家:人工智能的高速革命及其对人类的影响 [译]

如果说去年的 GTC 炉边谈话,黄仁勋与 OpenAI 首席科学家 Illya 进行的是一场对技术未来的漫谈,那今年这场炉边谈话就是李飞飞对人类未来的呼吁。

March 22, 2024

View Article

生成式 AI 的未来 [译]

我对低代码持怀疑态度。

March 22, 2024

View Article

未曾踏足的路径 [译]

目前,开发者们正经历双重的心理压力。一方面,持续不断的裁员让整个行业在较短时间内失去了更多的岗位,这种情况自二十多年前的互联网泡沫以来前所未有。那些曾经门庭若市的资深开发者现在却连一个回应都难以获得。而随着 Devin 的推出,AI 带来的威胁突然显得更加紧迫。

March 20, 2024

View Article

Sam Altman- OpenAI、GPT-5、Sora、Board Saga、Elon Musk、Ilya、Power & AGI | Lex Fridman 播客 [译]

本文是 Lex Fridman 播客的一期节选,主题是 OpenAI 的 CEO Sam Altman 与 Lex 的对话。Sam Altman 是 OpenAI 的 CEO,该公司是 GPT-4 的背后推手,ChatGPT, Sora, 也许有一天,会成为建立通用人工智能的那家公司。这是 Lex Friedman 播客。

March 18, 2024

View Article

软件开发的未来展望 [译]

当大语言模型 (LLMs) 能够创作出图像、文本和代码时,它们在创意领域引发了极大的关注。起初,这些创作令人啼笑皆非,比如画出手部奇怪的人物、产生错误的事实和代码的幻觉。然而,随着时间的推移,情况正在逐步且稳定地改善。在这些模型诞生之前,人们常常反对将这些任务自动化,认为机器无法进行创造性思维。但现在,这一论点正变得越来越站不住脚。那么,我们的下一步该往哪里走?

March 18, 2024

View Article

Nicolai 对微软 CEO Satya Nadella 的访谈 [译]

在这次独家采访中,我们有幸与微软 CEO Satya Nadella 进行对话。微软,作为全球市值最高的公司,其领导者的思维方式和对未来的见解无疑对我们所有人都有着重要的启示。Nadella 在采访中分享了他对科技行业未来、AI 的角色、以及个人成长和领导力的深刻见解。以下是这次富有启发性对话的整理稿。

March 16, 2024

View Article

创业指南 [译]

本指南特别适合初步了解初创企业领域的朋友们。对于那些已经阅读过 YC 合伙人大量著作的人来说,这里的内容可能并不陌生——我们的目标是把它们汇聚于此。

March 14, 2024

View Article

开发者们正面临前所未有的压力 [译]

目前,开发者们正经历双重的心理压力。一方面,持续不断的裁员让整个行业在较短时间内失去了更多的岗位,这种情况自二十多年前的互联网泡沫以来前所未有。那些曾经门庭若市的资深开发者现在却连一个回应都难以获得。而随着 Devin 的推出,AI 带来的威胁突然显得更加紧迫。

March 13, 2024

View Article

WhisperKit [译]

Whisper 项目已经让我们看到了一个不远的未来:快速、免费并且几乎没有错误的翻译和转录技术无处不在。这一进步激励了许多开发者在保证最大性能的同时,以最少的阻力改进并部署这一技术。

March 12, 2024

View Article

实验性的辅助“元”提示 [译]

Claude 2.1 在处理高达 20 万 Token 的庞大上下文时,检索特定句子的能力令人瞩目。我们通过实验发现,利用精心设计的提示技巧,可以引导 Claude 更准确地回忆出相关信息。

March 11, 2024

View Article

技术细节:简单说“不是高深莫测”(单调与 bors 的历程)[译]

我去年编写了一个程序,名字叫做 bors,现在来聊聊它以及它的一些前身的故事。这篇技术分享可能会让大多数人觉得乏味至极,但如果你的饭碗是靠编程挣的,那么我建议你不妨花一点时间看看。

March 9, 2024

View Article

聊天 GPT 与语气:如何避免发出机器人的声音 [译]

许多作家借助 ChatGPT 或其它 AI 聊天机器人来调整和优化他们的文风。然而,AI 在传递微妙的情感上仍显笨拙**。一些 AI 用户已经分享了几个小技巧,这些技巧可以帮助产生更优质的文本,并解决 AI 面临的问题。** 但实际效果如何呢?我进行的研究表明,利用已有的文本并请求多种回复,可以让输出更加自然。而使用特定的语气词则效果不明显。

March 9, 2024

View Article

微服务的“死亡千刃” [译]

软件行业正在重新领悟一个老教训:复杂性是致命的

March 8, 2024

View Article

谷歌的恐惧文化 [译]

深入谷歌 DEI 思维模式的内核,探究了 Gemini 失败的根源

March 7, 2024

View Article

人工智能应该开放吗? [译]

如果 OpenAI 想要通过牺牲人类免受恶意 AI 的安全,以获得更好的防止人们试图控制 AI 的安全,那么他们需要提出比我迄今为止看到的任何东西都更有力的理由,以证明后者的风险有多么严重。

March 6, 2024

View Article

OpenAI 和 Elon Musk [译]

我们一直致力于实现 OpenAI 的使命。OpenAI 的使命是确保全人类能从人工通用智能 (AGI) 中受益,这不仅意味着我们要构建既安全又有益的 AGI,也意味着我们要努力创造广泛分布的利益。现在,我们将分享我们如何实现这个使命的理解,以及我们与 Elon 的关系的一些事实。我们打算驳回 Elon 的所有主张。

March 5, 2024

View Article

“提示注入”与“破解”并不是一回事 [译]

我注意到很多人在讨论“破解”时误用了“提示注入”这个术语。这种误用已经变得如此普遍,以至于我怀疑我们是否还能纠正回来。语言的含义(特别是新近创造的术语)源于人们的使用习惯。尽管如此,我还是想尝试澄清这一点,因为我相信这两者之间的区别至关重要。

March 5, 2024

View Article

探索 Claude 的新纪元 [译]

在今天,我们兴奋地宣布 Claude 3 模型系列的问世,这一系列模型在多项认知任务上重设了行业的新高标准。这个家族包括了三款顶尖模型,它们按能力高低排列:Claude 3 Haiku、Claude 3 Sonnet 以及 Claude 3 Opus。每一款模型都在前者的基础上提升了性能,使得用户能够根据他们的具体需求,找到智能水平、响应速度和成本之间的完美平衡。

March 4, 2024

View Article

商业报道记者指南 [译]

本文揭示了我搜集到的关于 OpenAI 计划(经过调整)于 2027 年打造达到人类水平的通用人工智能(AGI)的信息。虽然不是所有的信息都容易证实,但希望足够的证据能够让你信服。

March 4, 2024

View Article

揭秘 OpenAI 至 2027 年打造通用人工智能的蓝图 [译]

本文揭示了我搜集到的关于 OpenAI 计划(经过调整)于 2027 年打造达到人类水平的通用人工智能(AGI)的信息。虽然不是所有的信息都容易证实,但希望足够的证据能够让你信服。

March 3, 2024

View Article

Sora:探索大型视觉模型的前世今生、技术内核及未来趋势 [译]

Sora,一款由 OpenAI 在 2024 年 2 月推出的创新性文转视频生成式 AI 模型,能够依据文字说明,创作出既真实又富有想象力的场景视频,展现了其在模拟现实世界方面的巨大潜能。本文基于公开技术文档和逆向工程分析,全面审视了 Sora 背后的技术背景、应用场景、当前面临的挑战以及文转视频 AI 技术的未来发展方向。文章首先回顾了 Sora 的开发历程,探索了支撑这一“数字世界构建者”的关键技术。接着,我们详细探讨了 Sora 在电影制作、教育、市场营销等多个领域内的应用潜力及其可能带来的影响。文章还深入讨论了为实现 Sora 的广泛应用需克服的主要挑战,例如保证视频生成的安全性和公正性。最后,我们展望了 Sora 乃至整个视频生成模型技术未来的发展趋势,以及这些技术进步如何开创人机互动的新方式,进而提升视频创作的效率和创新性。图 1:Sora —— AI 视觉生成的重大突破。

February 29, 2024

View Article

为什么随着年龄增长,我们感觉时间似乎流逝得更快 [译]

36 岁的一年似乎比我小时候甚至十几岁的时候要短得多。这似乎是宇宙间的不公——我们的寿命更短了,而每一年过得也更快了。

February 27, 2024

View Article

谷歌 Deepmind 发布首个生成式交互环境模型 Genie [译]

我非常激动地分享 @Google DeepMind 开放创新团队的最新进展 🚀。我们推出了 Genie 🧞,这是一个从互联网视频中学习而来的创新世界模型,能够根据图像提示创造出无限种可操作的 2D 世界。

February 26, 2024

View Article

Gemini 与 Google 的文化观 [译]

Google,乃至更广泛的科技公司界,对于偏见的指控向来敏感,这种态度也延伸至图像生成领域。我理解这种在描绘假设场景时的谨慎态度。然而,很多图像反映的是真实历史。

February 26, 2024

View Article

V-JEPA:迈向 Yann LeCun 先进机器智能(AMI)愿景的新里程碑 [译]

我们人类对周遭世界的认知大多来源于观察——尤其是在生命的早期阶段。就拿牛顿的第三定律来说:甚至婴儿或是猫,在将物品从桌上推下观察其落下后,都能直观感受到“物体上抛必将下落”的道理。这种认知不需长时间的教导或阅读海量书籍就能获得。你的内部世界模型——基于对世界的心理构建的理解——帮你预测了这一切,并且极其高效。“V-JEPA 是让机器更实际理解世界、实现更广泛推理与规划能力的一大步。”Meta 的副总裁兼首席 AI 科学家 Yann LeCun 表示,他在 2022 年首次提出了 Joint Embedding Predictive Architectures(JEPA)概念。“我们旨在打造能够像人类一样学习、通过构建内部世界模型来适应和有效规划,以完成复杂任务的先进机器智能。”

February 22, 2024

View Article

Gemma:推出全新的顶尖开放模型 [译]

Gemma 承载着对负责任 AI 开发的承诺,它采用了与 Gemini 模型相同的研究成果和技术基础。

February 21, 2024

View Article

探索 Sora:视频制作的魔法 [译]

Sora 的视频质量似乎是不可能的,所以我深入研究了它的工作原理 它使用了扩散(从噪声开始,细化到期望的视频)和 Transformer 架构(处理连续的视频帧)。

February 20, 2024

View Article

新手如何为演讲制作精美的幻灯片 [译]

在多年的会议演讲经历中,我发现自己喜欢设计幻灯片,为每个话题创造新的视觉主题,这不仅令人兴奋,也成为了我投入准备演讲的动力。许多人询问我关于技巧和推荐工具,因此,在这篇指南中,我想分享一些我的经验心得,并介绍**三个简单步骤**,帮助你在接下来的会议季为你的演讲幻灯片增色添彩!

February 20, 2024

View Article

AI 像水一般普遍 [译]

水对我们而言,是生命之源、无所不在且看似毫无差异。AI,特别是生成式 AI 应用,亦复如此。

February 19, 2024

View Article

Sora 的工作原理(及其意义) [译]

OpenAI 的新型文本到视频模型为电影制作开启了新篇章

February 16, 2024

View Article

视频生成模型:构建虚拟世界的模拟器 [译]

我们致力于在视频数据上开展生成模型的大规模训练。具体来说,我们针对不同时长、分辨率和宽高比的视频及图像,联合训练了基于文本条件的扩散模型。我们采用了一种 Transformer 架构,这种架构能够处理视频和图像潜在编码的时空片段。我们的最大型号模型,Sora,能生成高质量的一分钟视频。我们的研究显示,扩展视频生成模型的规模是向着创建能够模拟物理世界的通用工具迈出的有前途的一步。

February 15, 2024

View Article

AI 或许真的能助力中产阶级重塑辉煌 [译]

人工智能(AI)并不一定会夺走我们的工作。相反,它为我们提供了一个机遇,那就是将专业知识推广至更广泛的劳动者群体。

February 15, 2024

View Article

直截了当:展示给我提示符。 [译]

通过截获 API 调用,迅速掌握难以解读的大语言模型框架。

February 15, 2024

View Article

大语言模型提示工程综述:技巧与应用领域 [译]

在扩展大语言模型 (LLM) 及视觉 - 语言模型 (VLM) 能力方面,提示工程已成为关键技术。它通过特定任务的指令,即提示,提升模型效能,无需更改模型核心参数。这些提示能够通过给定的指令直接引导预训练模型完成下游任务,从而实现模型行为的精确调控。这些提示既可以是指导模型的自然语言说明,也可以是激发相关知识的向量表示。提示工程作为一个新兴领域,在多种场景下展现了其强大的应用潜力,包括问答系统、常识推理等。尽管如此,这一领域的方法和技术仍缺乏系统性的整理和理解。本文通过系统性概述提示工程的最新进展,并按应用领域进行分类,旨在填补这一空白。我们对每种提示方法进行了详细总结,包括其方法论、应用案例、相关模型及数据集。同时,我们探讨了各方法的优缺点,并提供了一个包含数据集、模型及关键技术点的分类图和表格。通过这一系统性分析,我们能够更深入地理解这个快速发展的领域,并指出未来研究的方向和挑战。

February 14, 2024

View Article

如何使用 ChatGPT Api 和 Node.js 对 Youtube 视频内容进行摘要 [译]

本期,我将介绍一个教程,告诉你如何利用 Node.js 构建一个系统,该系统能够通过 Youtube 视频链接,利用 OpenAI 提供的 completions api(也就是 ChatGPT 所基于的 API)来生成视频内容的摘要。

February 14, 2024

View Article

“提示工程师”:一个即将过时的职业 [译]

关于未来职业的讨论已经铺天盖地,我也曾深入探讨过从机器人管家到气候难民等多个领域。而在 AI 创造的众多工作中,最近一年多来,“提示工程师”这一职业引起了广泛关注。

February 13, 2024

View Article

OpenAI 的最终挑战 [译]

关于《纽约时报》与 OpenAI 版权诉讼结果的思考

February 13, 2024

View Article

关键人才是发展的瓶颈 [译]

“这家公司缺乏焦点”这句话让我感到困惑。公司不是应该通过增加员工来扩大其业务范围,进而提高专注度吗?事实上,这是有道理的:例如,谷歌有超过 100 个产品,远超任何初创公司的产品数量。但从另一个角度看,鉴于谷歌拥有约 20 万员工,100 个产品似乎又显得不足。以 Instagram 为例,它最初只有不到 13 名员工就成功推出了产品。按照这个效率,谷歌理论上应该能推出更多的产品。那么,是什么导致了这种差异?大型科技公司为什么不能推出更多的产品呢?

February 12, 2024

View Article

在使用 Vision Pro 40 小时后的感悟 [译]

我正坐在夏威夷一座 10,000 英尺的高山之巅,面前是一块 30 英尺的巨屏,同时也在奥斯汀一家咖啡馆里的桌旁。我敢说,周围的人肯定在偷拍我,然后把照片发给朋友,让他们一起笑我是个怪人。最近这一周,我的生活变得不可思议。我的奇幻之旅始于 30 年前的 1990 年,那时候我的父母带我去波士顿的海港世界贸易中心参观一场名为“虚拟现实展”的活动。我站在一个小圆台上,工作人员给了我一个塑料枪,又戴上了一个笨重的头盔。瞬间,我仿佛穿越到了一个卡通世界,穿着军装,手里拿着真枪。台旁的另一个人也以卡通形象出现,同样手持枪械。在一阵笨拙的挥舞和射击后,我被工作人员请出,为下一个人让出位置。

February 12, 2024

View Article

如何作为软件工程师涉足机器人技术 [译]

我一直在网站服务和移动应用开发领域工作,但这最终变得有些单调。回想起高中时代,我曾是焊接俱乐部的一员,那时起我就有种想挑战更高难度问题的渴望。两年前,我开始在阿姆斯特丹寻觅机遇,最终加入了 Monumental。如今,我在这里致力于利用机器人技术自动化建筑施工,首先从砖石工作开始。当系统顺利运行,亲眼见证一堵墙慢慢建成时,那份成就感是难以言喻的。相比之下,看到别人忙于加密货币或金融科技的项目时,我总感觉如果我去做那些事情,肯定会感到极度无聊。

February 12, 2024

View Article

为什么软件工程师喜欢木工 [译]

事实证明,木工的精髓与软件工程并无太大差异:在软件工程中最美妙的时刻莫过于构建你自己的工具,这是一种充满目的的工作。

February 12, 2024

View Article

谷歌工程师:AI 对我们的业务构成严重风险 [译]

谷歌通过分析用户与搜索结果页面的互动数据——例如点击某个结果、返回再点击其他结果——来优化其搜索结果的排名。多年来,这种方法帮助谷歌在搜索相关性上保持领先,因为相比其他搜索引擎,谷歌拥有更丰富的用户互动数据。但在 2018 年末,谷歌工程师们意识到,随着语言模型的发展,它们最终能够仅凭网页的文本内容,而无需任何用户反馈,就理解网页的含义。这一发现表明,即使是一个小型的创业公司也有可能挑战谷歌在搜索领域 20 年的领先优势。谷歌资深软件工程师 Eric Lehman 在观察到谷歌的 BERT 语言模型在处理搜索结果页面上的“网页答案”时取得的初步成果后,写了一封电子邮件,警告 AI 技术可能对公司构成重大威胁。

February 12, 2024

View Article

成为众人喜爱的聊天达人 [译]

我们真的有学过如何进行良好的交谈吗?事实上,并没有。似乎人们总期望我们能自然地学会这门技艺...难怪很多人的沟通技巧并不尽如人意。如何才能成为那种人们乐于交谈的人呢?为了回答这个问题,我整理了大量的研究和专家访谈,让我们一起把这些知识转化为实际可行的技巧。

February 10, 2024

View Article

如何避免在求职薪资谈判中失误 [译]

我将教你成为一位超级谈判高手。(或者至少成为一个有些古怪但能力出众的亿万富翁谈判家,听起来是不是有点酷?)认真说,这篇文章将深入讲解整个谈判流程,并且详细讨论如何成功谈判工作报价的最后四条规则。

February 6, 2024

View Article

构建产品副驾驶(Copilot)的痛点 [译]

这篇文章是我们论文《构建你自己的产品副驾驶(Copilot):挑战、机遇与需求》的非正式总结。

February 6, 2024

View Article

我听过的最棒的调试故事 [译]

一个有意思的 80 年代调试磁带驱动器故障的小故事

February 5, 2024

View Article

RAPTOR:树状组织的递归抽象检索技术 [译]

通过检索增强的语言模型,我们能更灵活地跟上世界的变化,并融入更广泛的知识。但现有的大多数方法只能从资料库中取得短小连贯的文本片段,这限制了对文档整体情境的深入了解。我们提出了一个创新的做法:通过递归地嵌入、分类和概括文本块,我们从底层向上构建了一个分层总结的树状结构。在进行推理时,RAPTOR 模型能够从这棵树中检索信息,使我们能够在不同层次上整合长篇文档的信息。通过控制实验,我们发现,相比传统的检索增强语言模型,在多个任务上采用递归概括检索的方法显著提高了性能。特别是在需要复杂多步推理的问答任务上,我们的方法取得了前所未有的效果。举个例子,结合 RAPTOR 的检索能力和 GPT-4 的强大计算,我们在 QuALITY 问答基准测试上实现了 20% 的准确率提升。

February 5, 2024

View Article

RAG 系统开发中的 12 大痛点及解决方案 [译]

如何克服检索增强生成中的关键难题

February 4, 2024

View Article

马克 - 扎克伯格解释 Meta 为什么要开源其人工智能 [译]

2023 年第四季度财报电话会议

February 1, 2024

View Article

现代 AI 技术架构:企业 AI 未来设计的关键原则 [译]

我们将深入了解构建企业级 RAG (Retrieval-Augmented Generation) 系统的复杂世界。网络上虽然不乏关于简易 RAG 系统的文章,但要构建一个坚固的企业级解决方案,过程却充满未知。许多开发者甚至不知道构建 RAG 系统时最关键的决策是什么...这篇博客不只是理论探讨,更是一个实践指南,旨在助您一臂之力!我们将从保障安全的关键措施到查询重写如何影响用户体验,提供实用的洞见和实际案例。无论您是资深开发者还是技术领袖,都请准备好深入探索先进的企业级 RAG 系统的世界!

February 1, 2024

View Article

利用 ChatGPT 在技术面试中作弊到底有多容易?我们做了个实验来探究 [译]

ChatGPT 正在逐步改变我们熟悉的工作模式。无论是协助小企业处理行政工作,还是为网页开发者编写 React(React)组件,它的实用性不言而喻。在 interviewing.io,我们对 ChatGPT 如何改变技术面试的方式进行了深入思考。一个关键问题是:ChatGPT 会不会让面试作弊变得更加容易?想要了解答案,不妨看看这段 45 秒的视频。视频里,一位工程师利用 ChatGPT 精准回答了面试官的问题。

January 31, 2024

View Article

大语言模型是否“贪婪”?激励提示效果的实验分析($0 至 $100 万)[译]

给 GPT-4 Turbo 提供小费以期获得更完美的回答,这种做法真的有效吗?目前对此话题的研究还相当有限。我们对一些编程相关的提示进行了初步实验,发现给予一定的小费可能确实有效,但小费的数额似乎非常关键。例如,如果小费很少(比如只有 $0.1),GPT-4 Turbo 的表现反而会变差。在我们的实验中,提供 $0.1 和 $100 万美元的小费,性能改善幅度分别是 -27% 到 +57%。但是,为了验证这一观点,还需要对不同类型的提示进行更多实验,并且这些实验需要有可靠的基础数据作为支撑。

January 31, 2024

View Article

零利率时代的终结:对软件工程师而言新常态意味着什么 [译]

经历了超过十年的零利率,科技行业即将迎来巨变。利率上升将如何影响软件工程师的工作、发展以及职业规划?你需要怎样为即将到来的变化做好准备?

January 31, 2024

View Article

Apple Vision Pro 评测:这款顶尖头显仅是对未来的初步探索 [译]

无论是工作、做饭、滑雪还是休闲放松——我体验了一周 Apple 的最新混合现实头显,探索它的实际用途。

January 30, 2024

View Article

Apple Vision Pro 评测:初见惊艳,后觉平常 [译]

Apple Vision Pro 是迄今最佳的消费级头戴设备,但这恰恰是它的问题所在。新推出的 Apple Vision Pro 承载着巨大期望,它标志着苹果正式进入面部穿戴式计算机的领域。苹果宣称,售价起始于 3,499 美元的 Vision Pro,开启了一种名为“空间计算”的新篇章,这一概念实际上是指在你四周运行各种应用程序。苹果对此的广告宣传也毫不保留:展示人们在各种场合都戴着 Vision Pro——工作时、洗衣时、与孩子玩耍时。其雄心勃勃的目标是在现实世界中叠加应用和信息,以此增强现实感。

January 30, 2024

View Article

从历史伟大研发实验室获得的经验教训 [译]

关于最初的电气和杰出应用研发实验室,其历史分析能给 Answer.AI 带来什么启示,以及他们可能面临的风险

January 30, 2024

View Article

如果你觉得自己不够聪明,也缺乏才华,该如何行动 [译]

这篇博客是为那些渴望做出重要成就或对工作有所贡献,却觉得自己不够聪明或缺乏才能的人而写的。

January 30, 2024

View Article

在 Copilot 的协助下编程白皮书——2023 年的数据显示了代码质量面临的挑战 [译]

2023 年是 GitHub Copilot 大放异彩的一年。在短短不到两年的时间里,这款 AI 编程助手已从一个初步的原型迅速成为众多开发者和企业中不可或缺的重要工具 [1]。它的迅猛发展开启了编写代码的新纪元。GitHub 已经发布了数份关于 AI 如何影响软件开发的增长和影响的研究。他们的一项重要发现是,开发者在使用 Copilot 时,编码速度提升了“55%”。面对大量由 LLM 生成的代码,我们不禁要问:这些代码在质量和可维护性上与人工编写的代码相比如何?它们是不是更像经验丰富的高级开发者的精心作品,还是更接近短期合同工的零散拼凑?为此,GitClear 收集了从 2020 年 1 月到 2023 年 12 月之间的 153 百万行代码变更记录 [A1]。这是目前已知最大的用于分析代码质量差异的高度结构化代码变更数据集 [A2]。我们发现了一些关于代码可维护性的令人担忧的趋势。代码变更率 —— 指在编写后不到两周就被修改或撤销的代码行所占的比例 —— 预计在 2024 年将是 2021 年 AI 出现之前的两倍。我们还发现,“新增代码”和“复制/粘贴代码”的比例相比于“更新的”、“删除的”和“移动的”代码在上升。从这个角度看,2023 年生成的代码更像是一位临时的贡献者,容易打破代码库的“不重复原则”(DRY-ness)。我们以一些针对管理者如何在这种逆流中保持代码高质量的建议作为本文的总结。

January 29, 2024

View Article

makeMoE:从零开始打造一个稀疏混合专家语言模型 [译]

本文将带您一步步实现一个稀疏混合专家语言模型。这个项目受到了 Andrej Karpathy 的 'makemore' 项目的启发,并在很大程度上基于它,借鉴了许多可重用的组件。与 'makemore' 类似,'makeMoE' 也是一种自回归的字符级语言模型,但它采用了所谓的稀疏混合专家架构。文章的后续部分将详细介绍这种架构的关键要素及其实现方式。我希望您通过阅读本文并实践代码,能对整个系统的工作原理有一个直观的了解。

January 29, 2024

View Article

让 AI 来评估你的简历 [译]

最坏情况能有多糟?

January 29, 2024

View Article

他人即地狱:大型科技公司的绩效管理 [译]

本文讨论了大型科技公司中的绩效管理问题,特别是与解雇和奖励决策相关的复杂过程。作者指出,尽管普遍认为大型科技公司想要营造一种残酷的竞争环境,但在资金充足的快速成长公司里,解雇平庸员工并非内在动力。绩效管理过程对管理者造成压力,且可能伤害士气、增加法律风险,并导致机构知识的流失。文章还提到了员工对公平的执着,以及管理者如何处理下属之间的比较和感知不公。早期,绩效管理通常由经理决定,但这导致了一些问题,例如偏袒和严厉的评价不一。谷歌在其早期尝试了基于同事评价的绩效管理系统,这种模式逐渐被其他科技公司采纳。然而,这种方法并未带来预期的益处。大多数员工的反馈都是积极且平庸的,真正的差劲表现者或社交技能不佳者成为例外。为了解决这个问题,管理者不得不“解读”反馈以进行排名,用于决定解雇、晋升和奖金。尽管看似由同事驱动,实际上大部分重要决策仍由经理做出。文章最后指出,这种由谷歌发起的绩效管理流程并没有比它试图取代的系统表现得更好。它只是将经理层面的偏袒指控转换为更大的阴谋论,而且对于维持高水平的晋升标准所付出的代价也很高。

January 29, 2024

View Article

使用 AI 学习编程时,切记还需独立思考 [译]

计算机科学教师和软件专家对机器学习辅助工具的建议

January 28, 2024

View Article

构建企业级 RAG 系统的高级指南 [译]

我们将深入了解构建企业级 RAG (Retrieval-Augmented Generation) 系统的复杂世界。网络上虽然不乏关于简易 RAG 系统的文章,但要构建一个坚固的企业级解决方案,过程却充满未知。许多开发者甚至不知道构建 RAG 系统时最关键的决策是什么...这篇博客不只是理论探讨,更是一个实践指南,旨在助您一臂之力!我们将从保障安全的关键措施到查询重写如何影响用户体验,提供实用的洞见和实际案例。无论您是资深开发者还是技术领袖,都请准备好深入探索先进的企业级 RAG 系统的世界!

January 27, 2024

View Article

WebVoyager:借助强大多模态模型,开创全新的网络智能体 [译]

随着大语言模型 (LLMs) 的突飞猛进,一个以真实世界中的自动化应用为核心的新时代已经来临。这一时代的特点是推动了基于网络的先进智能体的发展。目前市面上的网络智能体大多只能处理单一输入模式,并且它们的性能通常仅在简化的网络模拟环境或是静态的网络快照中得到评估,这大大限制了它们在实际应用中的有效性。为了解决这一问题,我们推出了 WebVoyager:一个创新的、由大型多模态模型 (LMM) 驱动的网络智能体。WebVoyager 能够通过与现实世界中的网站交互,全面完成用户的各项指令。此外,我们还提出了一种新的评估协议,用于应对开放式网络智能体任务自动评估中的种种挑战。我们利用 GPT4V 的强大多模态理解能力,从 15 个广泛使用的网站中收集真实世界任务,作为衡量我们智能体性能的新基准。测试结果显示,WebVoyager 的任务完成率高达 55.7%,明显优于 GPT4 (含所有工具) 以及仅文本模式的 WebVoyager,这充分证明了它在实际应用中的出色能力。我们的自动评估方法与人类评判的一致性高达 85.3%,为网络智能体在真实世界环境中的进一步发展奠定了坚实的基础。

January 27, 2024

View Article

AI 时代下,用户体验面临的复杂性挑战 [译]

2023 年标志着计算技术新纪元的开始。迄今为止,生成式 AI 主要关注于技术层面的发展。同时,大多数 AI 产品仍然在使用最初模型提供商设计的聊天界面,就像早期个人电脑时代的命令行界面,这对用户提出了较高的要求。

January 27, 2024

View Article

AI 不仅仅是一个功能 [译]

从 Blockbuster 的失败中学到的整合 AI 的智慧,以及为何光靠✨(闪光表情符号)不够。

January 26, 2024

View Article

自动驾驶:通用人工智能(AGI)的案例研究 [译]

随着大语言模型(LLMs)的进展,最近人们越来越多地讨论通用人工智能(AGI),包括它的发展趋势和可能的面貌。这些讨论既有乐观的期待,也有对未来充满担忧的声音。但遗憾的是,这些讨论往往过于抽象,导致大家在讨论中各说各话,难以达成共识。因此,我一直在寻找具体的例子和历史先例来更实际地探讨这个话题。当被问及我对 AGI 的看法时,我通常会举自动驾驶为例。在这篇文章中,我想解释这样做的原因。

January 25, 2024

View Article

借助 NEAT(非运动性活动热量消耗)的方法,不去健身房也能变得更健康 [译]

在日常生活中融入运动,比如骑车通勤或做家务,是一种巧妙的燃脂方式。这就是所谓的 NEAT(非运动性活动热量消耗)的理念。

January 24, 2024

View Article

Loro 富文本 CRDT 的介绍 [译]

React 服务组件 为 React 引入了专属于服务端的强大功能。我在 Next.js 13 和 14 的应用中实践了这一新范式,接下来是我对其的真实评价。之前我一直在犹豫是否要发表这篇文章,因为 React 社区过去对待批评的态度让我有所顾虑。但最近,我认为分享我的看法变得尤为重要,特别是在我发现大多数现有批评要么记录不充分,要么基于对此技术的不熟悉。写下这篇文章,我是站在一个非常重视用户体验的角度。虽然我也关注开发者的体验,但我始终认为用户体验是最重要的。

January 24, 2024

View Article

MemGPT:将大语言模型转变为操作系统 [译]

大语言模型(LLM)已经在人工智能领域带来了革命性的变化。然而,它们的应用受限于处理信息的上下文窗口较小,这在执行长对话和文档分析等任务时尤其成问题。为了突破这一限制,我们提出了一种名为虚拟上下文管理的新技术。这种技术借鉴了传统操作系统中层次化内存系统的理念,能够通过在不同速度的内存间转移数据,从而扩展大语言模型处理信息的能力。基于这种技术,我们开发了 MemGPT(Memory-GPT),这是一个智能系统,它能够有效地在大语言模型本身有限的上下文窗口内提供更广泛的上下文信息。此外,MemGPT 还采用中断机制,以优化系统与用户间的交互控制流。我们在两个重要领域对这种受操作系统启发的设计进行了评估:一是文档分析,在这一领域,MemGPT 能够处理远超大语言模型本身上下文限制的庞大文档;二是多回合对话,在这里,MemGPT 能够构建出能够记忆、反思并在与用户长期互动中不断进化的对话智能体。

January 24, 2024

View Article

彼得·林奇:懂得放手的智慧 [译]

“我记得那天站在雨中\[观看我女儿的足球比赛],为她加油助威,心里想着,‘我希望能有更多这样的时刻。’”

January 23, 2024

View Article

成功人士共有的秘诀,亿万富翁 CEO 揭秘:“这是我决策的法宝” [译]

你有没有遇过那种似乎总能预知事情结局的人?他们并不是能预见未来的通灵者。其实,他们的秘诀在于洞察生活中的规律,这正是许多成功人士的共同技能,亿万富翁迈克尔·鲁宾就是这样的人。

January 23, 2024

View Article

职场忠诚之终结 [译]

探究当前工作环境的失衡 —— 以及其可能的解决之道

January 22, 2024

View Article

两个一文不名的学生怎样将一个想法变成珠宝行业每月 3 万美元的成功故事 [译]

大家好,我是 Joosep Seitam。今天我要跟各位创业者分享一个故事:就是我如何从一个大胆的想法出发,在短短 8 个月内,让我在珠宝行业的月收入达到了 3 万美元。我和我的合伙人 Martin Kardi 一起创办了一家专门销售镀金榴石嘻哈珠宝的公司。我们的产品主要针对居住在美国的非裔群体。我们销售的是一种非常特别的珠宝,即嘻哈风格的珠宝。仅仅 8 个月,我们就通过搜索引擎优化(SEO)的方式,将公司收入提升到了每月 3 万美元。在这个过程中,我们的网站每月自然访问量已经超过了 1 万次。这是两年前的我和 Martin,那时我们一贫如洗,对未来一无所知……

January 22, 2024

View Article

我每天是如何使用 ChatGPT 的(从科学家和开发者的视角) [译]

我每天在专业和个人生活中都使用大语言模型,我发现它们是极好的工具——它们不仅提高了我的工作效率,更让我在使用技术时感到愉快和满足,经常让我会心一笑。如果它们对我有帮助,那它们就不可能是无用的(除非我的经验毫无价值,那么你也就没必要读这篇文章了)。而那些怀着好意参与这类讨论的人会问我,“那么,你是怎么使用这些工具的呢?”因此,我查看了我过去一个月的 ChatGPT 使用记录,并将在这里列举一些用途。

January 22, 2024

View Article

利用 AI 教学哈佛 CS50 课程 —— 在计算机科学教育中的生成式人工智能应用 [译]

2023 年夏,我们在哈佛大学的 CS50 课程中引入了一套 AI 软件工具。这些工具最初面向大约 70 名夏季课程的学生,随后向数千名线上学生开放,并在同年秋季扩展到校园的数百名学生。遵循课程政策,我们鼓励学生使用这些专为课程设计的工具,同时限制了他们使用 ChatGPT、GitHub Copilot 以及新版 Bing 等商业 AI 软件。我们的目标是通过软件实现接近 1:1 教师对学生的比例,使每位学生都能随时拥有一位以教学为导向的学科专家助手。这些工具的设计目的是引导学生探索解决方案,而非直接给出答案。学生对这些工具的反响积极,他们表示这就像拥有了一位“个人导师”。我们的研究发现,将 AI 有策略地融入教育环境可以通过提供持续的个性化支持,提升学习体验,并帮助教育者解决更复杂的教学难题。在本文中,我们将详细讲述 AI 工具如何在 CS50 课程中提升教学和学习效果,主要涉及代码片段解释、代码风格改善,以及对课程讨论论坛上的课程内容和行政问题的精准回应。此外,我们还将分享我们的方法论、实施细节,以及对那些考虑在教育领域应用这些工具或 AI 技术的人的建议。

January 21, 2024

View Article

聊天机器人性能革新:探索三大 RAG 性能提升策略 [译]

在我们深入 RAG 聊天机器人系列的最后几章之前,许多逐步构建聊天机器人的读者可能遇到了一些疑问。比如,在不追求快速反应、而更看重准确回答的情况下,比如医疗类聊天机器人,我们应该如何做?今天,我们要介绍三种不同的技术,它们专注于在特定技能上提升聊天机器器人的整体性能。重要的是,本节我们将不采用任何开源库或工具。这一选择是刻意为之,主要是为了关注性能优化这一核心议题。尽管这些技术对于聊天机器人的功能来说是可选的,但它们对于对性能有特别要求的用户和企业而言却非常关键。在本次讨论中,我会通过代码片段来详细说明每种技术。所有这些代码片段都可以轻松地融入之前文章中的代码,使得实施过程变得无比简单。如果您觉得这些示例对您的机器人项目有帮助,请随意使用。以一个为最终用户提供棋盘游戏信息的聊天机器人为例,我们来具体看看这些技术是如何应用的。

January 21, 2024

View Article

你的职业生涯衰退或许比你想的更早到来 [译]

“其实并不是没人再需要你。”这番话出自我身后的一位年长女士之口,当时我们正乘坐从洛杉矶飞往华盛顿特区的深夜航班。飞机里暗淡且静谧。她旁边的男士小声回应,声音几乎听不清,大意是“我宁愿已经死了。”她再次开口:“别那么说。”我原本无意偷听,但他们的对话不禁引起了我的极大兴趣。我脑海中开始描绘这位男士的形象,想象他是一位默默无闻却终身勤勉工作的人,怀揣着未曾实现的梦想——或许是未获得的学位,未追求的职业生涯,未创办的公司。当飞机降落、灯光亮起,我终于见到了那位绝望的男士。让我震惊的是,他是我认识的——一位世界知名的人物。那时他已经 80 多岁,曾因多年前的勇气、爱国精神和成就而被众人爱戴。他从我身后走过飞机走道时,其他乘客纷纷带着敬意向他致意。当他站在驾驶舱门口时,飞行员拦住他说:“先生,我从小就非常敬佩您。”就在几分钟前还渴望死亡的老人,在得到过去荣耀的认可时,脸上露出了自豪的笑容。

January 21, 2024

View Article

谷歌的文化转变 [译]

在过去几个月中,我尝试了三次撰写这篇文章;这是个复杂的话题。公众总是乐于看到大公司,特别是那些自负的硅谷科技公司被批评,他们喜欢看“失宠”的故事。但我并不想抹黑谷歌。尽管如此,谷歌依然是一个出色的工作环境,远胜过大多数其他公司,并且依然在创造惊人的成就。我的目的是想分享谷歌发生的一些独特而美好的事情,希望这些美好能在未来的某个地方重现。毫无疑问,谷歌早期的日子是非常特别的。我特意保存了一封电子邮件长达 18 年,直到我离开公司那天,因为我知道它会是一段有趣的历史对比。这封邮件主要描述了一些表面的差异,比如免费的美食。但这并不是谷歌员工来上班的主要原因。我想深入探讨的是谷歌文化中更深层次、更有意义的方面。

January 21, 2024

View Article

知识密集型自然语言处理任务的检索增强生成技术研究 [译]

在自然语言处理领域,大型预训练语言模型因能存储大量事实知识而备受关注,尤其是在针对具体任务进行细致调整后,它们的表现尤为出色。不过,这些模型在获取和准确使用知识方面仍有所不足,特别是在那些需要大量知识的任务上,它们的效果还不如专为特定任务设计的系统。此外,如何为这些模型的决策提供依据,以及如何更新它们所掌握的世界知识,仍是目前研究中的难题。迄今,研究人员已经探索了在提取型任务中应用具有可微分存取机制的非参数记忆的预训练模型。本研究则是针对检索增强生成(Retrieval-Augmented Generation, RAG)的通用调整方法进行探讨。这种方法结合了预训练的参数记忆(如 seq2seq 模型)和非参数记忆(例如,通过预训练神经网络检索器访问的 Wikipedia 的密集向量索引)。我们对比了两种 RAG 方法:一种是在整个生成过程中使用相同的检索内容,另一种则在生成的每个部分可能使用不同的内容。我们对这些模型在多种知识密集型任务上进行了细致的调整和评估,在几个开放领域的问答任务上取得了领先成绩,超过了传统的 seq2seq 模型和专门为特定任务设计的检索 - 提取系统。在语言生成任务中,我们发现 RAG 模型能产生更具体、多样化且符合事实的语言,相比之下,传统的只依赖参数的 seq2seq 模型则显得逊色。

January 19, 2024

View Article

AlphaCodium:引领代码生成新境界,从提示工程到流程工程 [译]

代码生成的难题与普通的自然语言处理不同 —— 它们涉及严格遵循目标编程语言的语法规则、识别正常和边界情况、关注问题规范中的众多细节,并应对代码特有的其他问题和需求。因此,自然语言生成领域的许多常用优化技巧对代码生成任务来说可能并不适用。在这项研究中,我们提出了一种全新的代码生成方法,名为 AlphaCodium —— 一种基于测试、分阶段、专注于代码的迭代处理流程。这种方法显著提升了大语言模型 (LLM) 在处理代码问题上的能力。我们在一个具有挑战性的代码生成数据集 CodeContests 上进行了 AlphaCodium 的测试,这个数据集包含了来自 Codeforces 等平台的竞赛编程题目。我们的方法在这些测试中始终保持着显著的性能提升。例如,在验证数据集上,使用 AlphaCodium 流程后,GPT-4 的准确率(pass@5)从单一精心设计的直接提示的 19% 提升到了 44%。AlphaCodium 在性能上不仅超越了之前的研究成果,如 AlphaCode,而且所需的计算资源也大大减少。我们认为,在这项工作中形成的许多原则和最佳实践普遍适用于代码生成的各种任务。我们在最新开源的项目 AlphaCodium 中分享了我们针对 CodeContests 的 AlphaCodium 解决方案,并提供了完整的数据集评估和基准测试脚本,以便社区进一步研究和探索。

January 18, 2024

View Article

人工智能迎战数学奥林匹克的新挑战 [译]

高中数学奥林匹克选手们要注意了,AlphaGeometry 正在挑战你们在数学领域的成就。

January 17, 2024

View Article

大语言模型抽象简明指南 [译]

这里为您提供了一些建议和技巧,旨在提高大语言模型应用的精准度,并介绍了选择合适大语言模型的要点。

January 17, 2024

View Article

AlphaGeometry:一款具有奥林匹克水平的几何 AI 系统 [译]

在今日发表于《自然》杂志的论文中,我们介绍了 AlphaGeometry,这是一款能够解决复杂几何问题的 AI 系统,其能力已接近人类奥林匹克金牌选手的水平,标志着 AI 性能的一个重大突破。在对 30 个奥林匹克几何问题的基准测试中,AlphaGeometry 在规定的奥林匹克时间内解决了 25 个问题。相比之下,之前的最先进系统只解决了其中的 10 个问题,而平均水平的人类金牌选手能解决 25.9 个问题。

January 17, 2024

View Article

半人马与赛博格:在未来工作的前沿 [译]

作为生成式 AI 软件的典型代表,ChatGPT 模仿人类的效果非常惊人。它象征着研究领域的一个可能的新纪元,但同时也伴随着风险。

January 17, 2024

View Article

新员工为何通常比老员工薪资高 [译]

在我职业生涯中,最令我震惊的一刻是发现,我在标准普尔资本智能公司(S&P Capital IQ)工作时,一位新同事的薪资竟比我高。有一天,我随口问他:“你的薪水有多少?”当得知他比我多挣 40,000 美元时,我既感到不满,又嫉妒,更觉得自己不被重视。同等职位和经验,他怎会挣得比我多 40%?此后,我开始提早离开办公室,心想自己的薪酬并不公平。几个月后,我选择离开了公司。尽管公司试图以晋升和加薪挽留我,但我已感受到了深深的冒犯,伤害无法弥补。

January 16, 2024

View Article

Scrum 的问题所在 [译]

最新观点:Scrum 存在问题。

January 16, 2024

View Article

构建基于大语言模型的系统与产品的策略 [译]

“有些问题看起来易于构想和展示原型,但将其发展成实际产品却极为艰难。比如自动驾驶:展示一辆汽车在街区自动行驶很简单,但要把这一技术转化为成熟的产品却需要十年时间。”本文旨在探讨如何将大语言模型(LLMs)有效地融入系统和产品中。我们将汇集学术研究、行业资源及实践者的经验,提炼出一些关键的观点和做法。

January 16, 2024

View Article

我们将 10% 的资源投入偿还技术债务;这是我们的收获 [译]

为什么以及如何我们持续地投入团队的努力来解决技术债务?结果又如何呢?任何长期维护软件的人都会意识到,随着时间的推移,软件似乎逐渐“腐朽”。防止这种情况的发生,需要付出刻意的努力。本文我将分享一个团队如何成功应对这一挑战,并提供一些实际的操作建议。

January 16, 2024

View Article

引领语言智能:从思维链推理到语言智能体的探索指南 [译]

大语言模型 (LLMs) 在语言智能领域取得了重大进展,尤其在多项复杂推理任务上展现出了卓越的实证性能。理论上的证明也表明了它们在语言处理中的高级认知能力和涌现推理能力。在处理复杂推理任务时,大语言模型 (LLMs) 的关键在于它们采用了引人注目的思维链 (CoT) 推理技术,这种技术要求它们在推导答案的过程中构建中间步骤。CoT 推理不仅在提升推理性能上表现出色,也在增强可解释性、可控性和灵活性方面有显著贡献。鉴于这些优势,近期的研究将 CoT 推理方法应用于自主语言智能体的开发,使这些智能体能够熟练地遵循语言指令,在不同环境中执行任务。这篇综述文章全面探讨了这一领域的关键研究方向,包括:(i) CoT 技术的基础原理,重点解释其有效性的原因;(ii) CoT 的范式转变;及 (iii) 使用 CoT 方法增强的语言智能体的新兴趋势。未来研究的方向包括探索智能体的泛化能力、效率、定制化、规模扩展和安全问题。我们希望通过这篇文章,使读者全面了解 CoT 推理和语言智能体这些研究领域,并理解它们之间的联系。本文适合各个层次的读者,无论是希望全面了解 CoT 推理和语言智能体的新手,还是对这些领域的基础原理感兴趣、想参与最新讨论的资深研究者。

January 15, 2024

View Article

深入浅出:大语言模型的视觉解析 [译]

在先前的文章中,我们探讨了如何利用 ChatGPT 进行主题建模,并取得了显著成效。我们的任务是分析酒店连锁的客户评价,找出其中的主要议题。在之前的尝试中,我们运用了标准的 ChatGPT 完成 API 并亲自编写了原始提示。这种方式对于一些特定的分析研究非常有效。但如果你的团队正在积极地关注和分析客户评价,采取一些自动化措施是非常有益的。优秀的自动化不仅可以帮助你构建一个独立的流程,还能提供更便捷的体验(即便是不懂大语言模型和编程的团队成员也能轻松获取数据),同时还更加节省成本(你只需一次性向大语言模型发送所有文本并支付费用)。如果我们要构建一个可持续发展的、准备投入生产的服务,那么利用现有的框架来减少编写辅助代码的工作量,并实现更模块化的解决方案是非常值得的(例如,我们可以轻松地从一个大语言模型切换到另一个)。在本文中,我将介绍一个非常流行的大语言模型应用框架 — LangChain。我们还将详细了解如何评估模型的性能,这对于商业应用来说至关重要。

January 14, 2024

View Article

脉动观察:美国的公司会因为税法第 174 条款而减少招聘工程师吗? [译]

去年十月,我们研究了由软件工程师创立的自助资金公司,并引起了广泛关注。很多自助资金的创始人在那期之后给我发来了消息。这些消息中,很多都是对所谓的“税法第 174 条款变更”表示不满。一位创始人这样说道:“你听说过美国税法第 174 条款近年的变更吗?这个变更使得自助资金的软件公司难以为继。简单来说,所有研发相关的成本,包括软件开发人力成本,都不能立即计为费用。这些成本必须资本化,然后在 5 年内摊销 — 若是在美国境外完成的工作,摊销期甚至要 15 年。我不得不说,这个变化太荒谬了。我所接触的每个人都有同样的看法。我想知道,你在和其他自助资金公司的交流中有无遇到过此类话题?”为此我进行了调查,《华尔街日报》和其他一些新闻机构从去年三月开始已经报道了这一变更。但联系我的创始人们表达了一个观点:公众对这个税改可能造成的巨大问题意识不足。去年四月,Ben Thompson 在 Stratechery 报道了这一变化,他也对受影响公司对这项法规知之甚少感到惊讶:“我很惊讶,在科技行业内很少有人知道这个问题,至少在我私下进行的对话中是这样,尽管初创企业可能是受影响最严重的。”

January 14, 2024

View Article

大语言模型在长上下文中的信息检索应用 [译]

大语言模型的上下文窗口扩展最近变得非常流行。而长期以来,结合信息检索和大语言模型的方法也受到关注。这引发了几个问题:*i) 在下游任务中,到底是信息检索增强更好,还是长上下文窗口更有优势?* *ii) 能否将这两种方法结合,以吸取各自的长处?* 我们通过研究两种领先的预训练大语言模型——43B GPT 和 LLaMA2-70B,来探讨这些问题。有趣的是,我们发现,即使是使用简单的信息检索增强,在长上下文任务中具有 4K 上下文窗口的大语言模型也能达到与经过特别优化处理、具有 16K 上下文窗口的大语言模型相媲美的表现,而且所需的计算资源更少。更为重要的是,我们证明了信息检索技术能显著提升大语言模型的性能,无论其上下文窗口的大小如何。我们最优秀的模型——结合了信息检索技术的 LLaMA2-70B,并拥有 32K 的上下文窗口,在包括问答和基于查询的摘要在内的七项长上下文任务上,其平均得分超越了 GPT-3.5-turbo-16k 和 Davinci003。与此同时,这个模型在生成速度上也比它的非检索版 LLaMA2-70B-32k 快得多。我们的研究为那些在信息检索增强与大语言模型长上下文扩展之间做选择的从业者提供了宝贵的洞见。

January 14, 2024

View Article

在实际应用中进行主题建模 —— 利用 LangChain 把从临时性 Jupyter 笔记本转变为实际生产的模块化服务 [译]

在先前的文章中,我们探讨了如何利用 ChatGPT 进行主题建模,并取得了显著成效。我们的任务是分析酒店连锁的客户评价,找出其中的主要议题。在之前的尝试中,我们运用了标准的 ChatGPT 完成 API 并亲自编写了原始提示。这种方式对于一些特定的分析研究非常有效。但如果你的团队正在积极地关注和分析客户评价,采取一些自动化措施是非常有益的。优秀的自动化不仅可以帮助你构建一个独立的流程,还能提供更便捷的体验(即便是不懂大语言模型和编程的团队成员也能轻松获取数据),同时还更加节省成本(你只需一次性向大语言模型发送所有文本并支付费用)。如果我们要构建一个可持续发展的、准备投入生产的服务,那么利用现有的框架来减少编写辅助代码的工作量,并实现更模块化的解决方案是非常值得的(例如,我们可以轻松地从一个大语言模型切换到另一个)。在本文中,我将介绍一个非常流行的大语言模型应用框架 — LangChain。我们还将详细了解如何评估模型的性能,这对于商业应用来说至关重要。

January 14, 2024

View Article

打造一个完全本地化的大语言模型 (LLM) 语音助手来管理我的智能家居 [译]

经历过 Siri 和 Google 助手之后,我发现尽管它们能够控制各种设备,但却无法进行个性化定制,并且不可避免地依赖于云服务。出于对新知识的渴望*以及*想在生活中使用一些酷炫的东西,我下定决心,要追求更高的目标。

January 14, 2024

View Article

科学与工程助力更优秀的文本生成 [译]

当前的文本生成技术,例如 ChatGPT,存在诸多问题:不够可靠、使用起来复杂、功能有限,而且开发与运行成本极高。这些问题源于它们的底层技术。但有可能通过全新的方法来彻底解决这些问题。这会是件好事,还是坏事呢?

January 14, 2024

View Article

技术领导者需要知道的 5 个关于生成式 AI 的残酷真相 [译]

生成式 AI (Generative AI) 已经无处不在。各行各业的组织正迫切要求他们的团队加入这场风潮 — 有 77% 的商业领导 担心他们已经错过了利用生成式 AI 的机遇。数据团队正在努力应对这一挑战。但是,打造一个真正能促进商业增长的生成式 AI 模型并非易事。长期来看,仅依靠快速接入 OpenAI API 是远远不够的。我们谈论的是生成式 AI,但你的竞争优势在哪里?为什么用户会选择你而不是 ChatGPT?

January 13, 2024

View Article

我试验了高级 AI 提示词的效果,结论:它们并不值得 [译]

为了验证高级 ChatGPT 提示词是否物有所值,我们投入了约 80 美元购买了五个此类提示词,并在市场团队成员中进行了盲测。简而言之:它们并不值得。

January 13, 2024

View Article

构建全球通用机器人大脑的宏伟项目 [译]

生成式 AI 革命 的显著成果体现在 ChatGPT、Midjourney 等工具上。这一革命的核心,是基于这样一个简单的思路:使用一个庞大的神经网络,用互联网上海量的数据进行训练,然后用它来响应广泛的用户需求。大型语言模型(LLM)可以回答问题、编写代码、创作诗歌,而图像生成系统则能够创造出逼真的洞穴壁画或当代艺术作品。那么,为什么这些令人惊叹的 AI 技术还没有转化为像科幻小说中那样有用且广泛应用的机器人?为什么还没有能够整理桌面、折叠衣服、做早餐的机器人呢?

January 13, 2024

View Article

在构建检索增强型生成系统时的七大挑战 [译]

随着软件工程师不断探索将语义搜索功能整合入应用程序,一种被称为检索增强型生成(Retrieval Augmented Generation, RAG)的策略应运而生。这种策略主要是找到与查询内容语义相符的文档,然后借助大语言模型(Large Language Model, LLM),比如 ChatGPT,来提取精准答案。RAG 系统的目标包括:a) 减少由大语言模型产生的不切实际的回答,b) 为生成的回答添加来源和参考链接,以及 c) 降低对文档元数据标注的依赖。但是,这一系统也存在其局限性,这些局限性源于信息检索技术本身及对大语言模型的依赖。本文中,我们将分享从三个不同领域(研究、教育和生物医学)的案例研究中得出的 RAG 系统的失败经验。我们总结了这些经验教训,并提出在设计 RAG 系统时应考虑的七大挑战。本研究的两个主要发现是:1) RAG 系统的有效性验证只能在实际运行中进行,2) RAG 系统的健壮性是随着时间逐渐发展而非一开始就固有的。最后,我们为软件工程界提出了一些关于 RAG 系统的潜在研究方向。

January 13, 2024

View Article

探究推理步骤长度对大语言模型的影响 [译]

在增强大型语言模型(LLMs)推理能力的过程中,“思维链”(Chain of Thought,简称 CoT)扮演着关键角色。但是,CoT 效果与其推理步骤的长度之间的具体联系还不太明确。为了弄清楚这一点,我们开展了一系列实证实验。我们的实验主要围绕在 CoT 示范中对推理步骤进行扩展或压缩,同时保证其他所有因素不变。我们的研究发现了几个重要点。首先,结果显示,即使不在提示信息中加入新内容,增加推理步骤也能显著提升 LLMs 在各种数据集上的推理表现。相反,减少推理步骤即便保留了核心信息,也会明显削弱模型的推理能力。这一点强调了 CoT 中推理步骤数量的重要性,并为在解决复杂问题时更有效地利用大语言模型提供了实用的指导。其次,我们还研究了 CoT 的效果与示范中使用的推理理由之间的关系。出乎意料的是,即便是错误的推理理由,只要保持了足够的推理步骤长度,也能取得不错的效果。最后,我们发现,增加推理步骤的益处取决于任务的性质:简单任务需要较少的推理步骤,而在处理更复杂的任务时,更长的推理过程则会带来显著的优势。

January 12, 2024

View Article

你唯一需要精通的事情 [译]

有一篇关于斯多葛主义的小文章,自我读过以后,对我的生活产生了深远的影响。可能是我成年之后第一次,我觉得自己没有浪费太多时间。我感觉自己已经做好了迎接挑战的准备。

January 12, 2024

View Article

大语言模型能取代编译器吗? [译]

我和 Kevlin Henney 最近讨论了一个问题:将来的自动代码生成工具,比如升级版的 GitHub Copilot,是否有可能取代现有的高级编程语言。我们具体想知道的是,ChatGPT N(N 很大)是否能跳过用高级语言编写代码的步骤,直接生成像今天的编译器那样的可执行机器代码?

January 11, 2024

View Article

专访:凯文·凯利,多面才子,未来学思想领袖 [译]

Elon Musk 是一个充满争议的人物。我的目的,如同往常,是为了在喧嚣、复杂或难以理解的话题中增添一些细致见解和清晰信号。不论你对 Elon 怎样看,我认为推动讨论走向更深入、更有意义的交流是非常有价值的,同时希望这不会给我带来太多风险。问题在于,市面上 99% 的批评都出于恶意且不准确,导致大多数人缺乏理解 Elon 行动动机和目的的必要背景。这是个问题,因为 Elon 是一位颇具影响力和远见的领导者,他的公司在传递变革性技术的过程中扮演着越来越重要的角色。

January 11, 2024

View Article

通过在粘贴的文本中加入不可见指令,实现对大语言模型的提示注入 [译]

我重新审视了我此前的推文,关于这是近几周来最重要的提示注入发现。事实上,这是自提示注入出现以来最大的技术突破和安全挑战。

January 11, 2024

View Article

拥抱 Hugging Face:我们的初创公司并购幕后 [译]

2021 年末,我们这个遍布全球的五人工程师团队,签署了关闭我们初创公司 Gradio 的文件。对大多数创始人而言,这通常是一个伴随着悲伤或深刻反思的时刻。但我们却在庆祝。因为我们即将被 Hugging Face 收购!这次收购是我们辛勤努力的成果,但在几周时间里,一直被一位投资者所阻挠。我们对他施加的压力越大,他就越坚决不签署收购协议。然而出乎意料的是,这位投资者最终让步,使我们得以加入 Hugging Face。这是自从被收购以来,我首次详细记录这段经历。我希望这能够揭开初创企业被收购的神秘面纱,同时也展示创始人们为了提高成功被收购的几率可以做出哪些决策。

January 11, 2024

View Article

文本分割的五个层次 [译]

在这个教程中,我们将探讨文本分割的五个层次。这份非官方的列表是为了增添趣味和教育目的而编制的。是否曾尝试向 ChatGPT 输入长篇文本,却被告知内容过长?或者你在尝试改善应用程序的长期记忆能力,但似乎效果仍不理想。要提升语言模型应用的性能,一个非常有效的策略是将大型数据切分为小块。这个过程被称为分割或分块(这两个术语我们将交替使用)。在多模态领域中,这种分割同样适用于图像。我们将介绍很多内容,但如果你能坚持阅读到最后,我保证你将对分块理论、策略以及进一步学习的资源有一个全面的了解。

January 11, 2024

View Article

如何做出艰难的决策 [译]

做决策其实并不复杂。在大多数情况下,我们心里已经有答案。然后我们却花费几周时间来自我说服,认为这是最佳的选择。有时,我们甚至永远无法下定决心。我们为何如此自我折磨?1. 首先,是因为我们总认为做重要决策应该很困难。我们甚至可能希望它困难。因为如果我们花很长时间而不是短暂考虑后做出决策,最后却失败了,我们可以找到合理的借口 —— “但我已尽全力!”2. 其次,我们总是尽力寻找最佳方案。因为我们面临的风险非常大。这直接导致了一种被称为“分析瘫痪”的怪圈,我们在其中陷入漫长的迷茫。

January 11, 2024

View Article

为何你应该计划完成更少的任务 [译]

“计划谬误”是指我们在预测个人生产力时的自然偏差:我们倾向于着眼于最佳情景,或者非常接近的情况,但这种情况很少实现。

January 11, 2024

View Article

ChatGPT 在编程中的有效性:与其他流行大语言模型的比较分析 [译]

本研究旨在探究 OpenAI 的 ChatGPT 模型在编程任务中的有效性和效率,该模型基于 GPT-3.5 和 GPT-4 技术。研究目的是了解 ChatGPT 对编程和软件开发的潜在影响。我们采用定量方法,使用 Mostly Basic Python Problems (MBPP) 数据集来衡量这些模型的表现。研究不仅对 GPT-3.5 和 GPT-4 进行了直接评估,还包括了与 AI 领域其他知名大语言模型的比较,特别是 Google 的 Bard 和 Anthropic 的 Claude,以此衡量和比较它们在同样任务上的熟练程度。研究结果凸显了 ChatGPT 模型在编程任务上的优势,为 AI 社区,特别是开发者和研究人员提供了有价值的洞见。随着人工智能技术的广泛应用,本研究为 AI 辅助编程的发展提供了一份及时的参考。

January 11, 2024

View Article

哪些信号表明该离开公司寻找新的工作机会了... [译]

当公司停止发展,创始人离职,人事部门开始主导大局,或者高层更关心房产而非产品时...那就意味着,你该寻找新的工作机会了。

January 10, 2024

View Article

性能提升👆,复杂度降低👇:Shopify 工程部的重大革新 [译]

在 Shopify,追求技术卓越是我们的宗旨。我们始终致力于基础设施的完善,即便这些努力的成果不总是一目了然。我们经常通过简化系统来改进基础设施。这种持续的简化是创新的基础。为什么这么说呢?因为虽然并非所有快速软件都卓越,但所有卓越的软件一定是高效快速的。对我们的商户而言,每一毫秒都极为宝贵。这就意味着我们的系统不仅要易于扩展,还要避免复杂繁琐的架构。

January 10, 2024

View Article

执行大项目的精髓:目标定位、迅速行动、灵活调整 [译]

我登录了 StickK.com,一个创建承诺合约的平台,并在那里立下了一个挑战:我计划在未来 9 个月里完成一部小说,并在年底前交给我的文学代理人审阅。我不仅与我的朋友们分享了这一承诺,还在包括 10 万播客听众在内的多个公共场合公开讨论了这一计划。这个挑战的风险有多大?如果我没能完成,我就要向一个我并不支持的所谓“反慈善”组织捐赠 9999 美元,这是 StickK 平台允许的最高金额。剧透一下:我最终成功了,在年底前的最后一小时,我几乎耗尽了所有精力。在完成初稿之后,我甚至抽出一天时间,利用 AI 制作了一部小说预告片。但重要的是,尽管我对这个挑战充满信心,当我签订这个合约时,却根本无法确定能否成功:近 10 年来,我几乎未曾涉足小说创作。虽然我写作能力不错,但历来写作速度不快。我还需要管理一家需要大量时间和精力的公司。那么,我是怎样坚信自己能够完成这个挑战的呢?

January 9, 2024

View Article

给年轻人的忠告,我对自己的自欺 [译]

我并不认为自己有资格给出建议。但许多人在 Twitter 上私信我,询问我的想法,所以我写下了这些话。这样,我就不需要反复回答相同的问题了。编辑这篇文章的过程中,我发现我实际上是在为我年轻的妹妹 Katherine 分享我的经验。

January 9, 2024

View Article

即使在理想情况下,信用卡诈骗也是会存在的 [译]

近日,我接受了 NPR 的 Planet Money (播客,文字记录) 的采访,讨论信用卡诈骗的一个特别形式。有个观点未能播出,那就是:“理想情况下,诈骗的存在不应为零。”这个说法听起来可能有些违反直觉,甚至显得有些矫情。但实际上,这是一个值得信赖的观点。

January 9, 2024

View Article

你需要的不仅是韧性,更需要朋友和金钱 [译]

许多商业书籍强调培育心理韧性来应对困境,却忽视了更重要的因素。韧性已成为一门盛行的生意。机场书店充斥着各种关于“为何有人能成功而他人却失败”的书籍,或承诺教你培养“无敌的心理韧性”。TED 演讲、播客和社交媒体上充满了介绍韧性人士的三至五个特点,如乐观、坚韧和成长心态。随着管理界认识到成功背后往往隐藏着无数次的失败,关于如何从失败中恢复的建议也应运而生,这些建议通常源自精英军事部队或极限运动员的经验。作为管理思维领域近 20 年的从业者,我编辑和采访过许多这样的影响者。然而,这些良好意图的建议者却给人留下了两个误解:首先,认为韧性很罕见;其次,认为韧性几乎完全来自内心。事实上,这两点都不正确。

January 9, 2024

View Article

在 Go 语言 14 年的发展历史中,我们做得对的和不对的 [译]

这是我在 2023 年 11 月 10 日,也就是 Go 作为开源项目发布 14 周年之际,在悉尼 GopherConAU 会议上所做的闭幕演讲。演讲中穿插使用了一些演示文稿的幻灯片。

January 9, 2024

View Article

比尔·盖茨–1986 [译]

Elon Musk 是一个充满争议的人物。我的目的,如同往常,是为了在喧嚣、复杂或难以理解的话题中增添一些细致见解和清晰信号。不论你对 Elon 怎样看,我认为推动讨论走向更深入、更有意义的交流是非常有价值的,同时希望这不会给我带来太多风险。问题在于,市面上 99% 的批评都出于恶意且不准确,导致大多数人缺乏理解 Elon 行动动机和目的的必要背景。这是个问题,因为 Elon 是一位颇具影响力和远见的领导者,他的公司在传递变革性技术的过程中扮演着越来越重要的角色。

January 8, 2024

View Article

关于 Viberary 的回顾 [译]

Viberary 是我创立的一个副项目,旨在通过氛围来查找书籍。我创建这个项目,一方面是为了满足自己进行机器学习侧项目的兴趣,另一方面是为了探索当前搜索和推荐技术的界限。这个项目不仅是对我最近在嵌入技术方面深入研究的一个补充,而且是一个符合生产级标准的实践。虽然这个项目很有趣,但它也确切地证实了我一直以来对自己的理解:达到 MLE(机器学习启蒙)是一个循环过程,涉及建模、工程和 UI 设计等多个方面,并将这些方面紧密结合在一起 - 将系统投入生产就是最终的奖赏。和任何生产级系统一样,机器学习并非魔法,即使数据输出不是确定性的,构建这类系统也需要精心的工程和设计选择。我认为,这是当前机器学习领域中常被忽视的一个方面。通过这篇文章,我不仅想要回顾我所做的工作,还想概述一下搭建一个基于 Transformer 的机器学习应用所需的一切,哪怕是一个小型的、使用预训练模型的应用,我希望这篇文章能成为一个有用的资源和参考。Viberary 的机器学习架构是一个基于双塔模型的语义检索系统。它使用 Sentence Transformers 预训练的不对称 MSMarco 模型对用户的搜索查询和 Goodreads 书籍数据库进行编码。

January 8, 2024

View Article

LlamaIndex 数据摄入管道 [译]

LlamaIndex 的数据摄入管道是一种全新且改进的方法,用于高效摄入和管理数据文档。这一管道特别适用于需要将输入文档经过一系列处理步骤(如切分、嵌入等)后才进行索引建立的情况,比如我们的 RAG 管道就是这样。此外,它还具备缓存、文档存储管理、向量存储更新等实用功能。

January 8, 2024

View Article

6 个残酷真相,让你成为更好的人 [译]

如果你的职业生涯进展顺利,对生活感到满意,人际关系也很和谐,那么你可以不用阅读这篇文章。请享受你美好的一天,朋友,这篇文章可能不适合你。你做得很出色,我们都为你感到骄傲。为了不让你觉得白费了一次点击,这里有一张 Lenny Kravitz 戴着超大围巾的照片。

January 8, 2024

View Article

在工程行业中质疑直觉的重要性 [译]

我经常听人说,应该依据第一直觉来做决策。但在我们这个行业,这种做法未必总是最佳选择。工程决策绝不能仅仅基于直觉,因为这太主观了。我们必须依赖事实,客观地做出判断。让我们深入探讨一下。

January 7, 2024

View Article

整合人工智能的两大策略 [译]

人工智能(AI)预计将彻底改变我们的工作方式,为首批采用者带来显著的竞争优势。许多公司已经开始使用 AI 驱动的自动聊天机器人来处理客户咨询,但仍有些公司对这种新兴技术不够熟悉。这里面的关键问题是:这些应用中的 AI 效果如何?目前,像 ChatGPT 或 Google 这样的开放式大型语言模型(LLM)面临的一个挑战是对实时数据的访问受限。虽然有像 Bing 插件这样的例外,但即便如此,直接从自己网站上提取数据也不容易。不通过昂贵的模型微调就克服这个限制是个大挑战。而检索增强生成(Retrieval-Augmented Generation,RAG)技术或许能提供解决方案。

January 7, 2024

View Article

Spotify 如何通过自动化内容营销在全球范围内扩大用户群 [译]

虽然构建成功的软件架构的过程看似简单,实际上却颇具挑战。要理解 QARs,并在此基础上做出最优权衡,需要深刻的洞察力和丰富的经验,而这些往往需要通过对架构本身的不断试验和调整来积累。虽然过程本质上不复杂,但所涉及的权衡决策通常充满挑战,而且难以找到简单的解决方案。

January 7, 2024

View Article

2024 年人工智能在职场发展的五大趋势 [译]

今年,人工智能在招聘偏见、包容性、监管等多个领域的影响将更加显著。就像 2023 年成为人工智能的转折点一样,2024 年人工智能预计将产生更深远的影响。这一次,工作者们已做好准备迎接挑战。随着生成式 AI (Generative AI) 已经成为员工关注的焦点超过一年,他们不仅更加理解其在当今工作环境中的作用,而且也准备好拥抱随之而来的变化和机遇。现在是利用这一优势的时候了。为了保持领先,工作者们需要了解即将出现的 AI 领域的这五大趋势。

January 7, 2024

View Article

生成式 AI 面临的抄袭问题 —— Midjourney 和 DALL-E 3 的实验揭示了版权方面的难题 [译]

长久以来,人们一直在探讨大语言模型 (LLMs) 在何种程度上可能会“记住”其训练数据的问题。包括 Google DeepMind 的 Nicholas Carlini 和本文的第一作者 Gary Marcus 在内的学者都曾对此提出疑问。最新的实证研究显示,在某些情况下,LLMs 能够原样复制或稍作修改后复制其训练集中的大量文本。例如,Milad Nasr 及其团队在 2023 年的论文 中指出,LLMs 可以被激发,泄露如电邮地址和电话号码等私人信息。Carlini 和他的合作伙伴 最近的研究 也显示,较大的聊天机器人模型(而非小型模型)有时会逐字复制其训练集中的大量文本。

January 6, 2024

View Article

昨夜,麻省理工学院 (MIT) 无人安然入眠 [译]

就在昨晚我宣布将对所有现任 MIT 教员进行剽窃审查之后不久,我确信 Kornbluth 校长、MIT 行政团队和董事会成员们能听到校园内集体传来的哀叹声。为什么这样?原因很简单:每位教员都清楚,一旦他们的研究成果被 AI 盯上,学术界的任何文献都难以逃过 AI 的发言,检测引号缺失、改写不当或未能适当引用他人工作等问题将无所遁形。但昨晚不仅是 MIT 的教员失眠,哈佛大学的教员们、其董事会成员和行政领导也同样辗转反侧。因为,我们为什么要止步于 MIT?难道我们不应该同样深入调查哈佛大学的学术诚信吗?耶鲁、普林斯顿、斯坦福、宾夕法尼亚、达特茅斯怎么办?意思你的明白?

January 6, 2024

View Article

研究表明,依靠意志力改掉坏习惯是徒劳无功的 [译]

研究显示,单靠意志力戒掉坏习惯是徒劳无功的。我们需要找到不必依赖坚强意志的策略。

January 6, 2024

View Article

Chess-GPT 的内部世界模型 [译]

在机器学习 (ML) 的众多近期进展中,有两个特别吸引我的。第一个是 gpt-3.5-turbo-instruct 在国际象棋中达到 1800 ELO 水平。一个大语言模型 (LLM) 能够仅凭网络上随机抓取的文本就学会下好棋,这似乎不可思议。第二个是 Kenneth Li 的论文《生成世界表示》。The Gradient 上有一篇精彩的摘要,以及 Neel Nanda 的后续分析。他们训练了一个含有 2500 万参数的 GPT,用于预测奥赛罗游戏中的下一步棋。它不仅能在训练数据集未覆盖的游戏中准确落子,而且通过线性和非线性的探测发现,这个模型能准确追踪棋盘的状态。然而,这一成果仅限于使用奥赛罗游戏树上均匀采样得到的合成数据集训练的模型。当他们尝试将相同的技术应用于使用人类对弈数据训练的模型时,结果并不理想。在我看来,这是该论文发现的一个重要限制,可能会影响其在现实世界的应用性。比如,我们无法仅通过从代码树均匀采样来生成代码。因此,我对此进行了深入研究。我训练了一些国际象棋游戏模型,并对这些训练好的模型进行了线性探测。我的研究结果非常正面,解答了我之前的所有疑问(当然,这也带来了更多新的问题)。

January 6, 2024

View Article

书评:Elon Musk [译]

这不是大家现在热议的那本 Musk 新传记,而是 Ashlee Vance 在 2015 年写的 Musk 传记。我在 7 月份开始阅读它,那时还不知道有新出的一本。不过没关系:Musk 一如既往,始终如一。我阅读这本书,是想弄明白他究竟是个什么样的人。Musk 就是一个谜团。他引领着世界上最先进的火箭的制造,显示出他的聪明才智。作为世界上最富有的人,他显然拥有出色的商业决策能力。然而,这位聪明、商业决策出众的人物,却不时做出看似愚蠢的商业举动。他无谓地与监管机构争执,提起注定失败的无效诉讼,虐待关键员工,甚至给全球知名的品牌重新命名。

January 6, 2024

View Article

知识工具:从有限到无限 [译]

一座庞大的图书馆就像是一个奇妙的伪无限世界,覆盖了成百上千的主题,汇集了无数作者的声音。好的图书馆能够在有限的空间里营造出一种感觉:即便你花费几个世纪去阅读,也无法完全掌握其内部蕴含的知识。这不仅是因为书籍众多,更因为当你通过一本书的视角去解读其他书籍时,总有新的学问等着你去发掘。这就像是用有限的积木搭建起无限的宇宙。

January 6, 2024

View Article

木龙年,机会正等待那些勇往直前的人 [译]

作为 Kapwing 的全职软件工程师,同时也是一位不断在世界各地漫游的数字游民,我领悟到了许多如何拥抱这种生活方式的诀窍。记得几年前的一个工作日午后,我家的门突然响了。来人是 Bill,我们农场的一名员工。“你猜怎么着,一头我们都没注意到怀孕了的牛突然生了小牛,”他兴奋地告诉我,“我们准备用你的名字给小牛命名。”对于一个牧场主来说,这或许是平常不过的一天。但我,其实并非牧场主。我是一名全职软件工程师,同时自 2020 年起,我还踏上了数字游民的生活旅程。

January 6, 2024

View Article

编程与写作 [译]

一年前,我暂停了编程生涯,开始尝试写小说,曾以为这是与编程截然不同的新旅程。然而,经过无数次的写作和反复修改,我现在深信两者其实有着诸多相似之处:无论是开发大型系统还是撰写小说,它们都有许多共通之处和类似的过程。这两种活动最明显的相似之处在于,不管是编程还是写作,你都在创作文字。尽管代码不同于自然语言写就的散文,它同样遵循着一套固定的规则(即语法),某些代码形式对大多数程序员来说颇为自然,而其他的即便形式正确,也可能难以理解。然而,编程和写作之间有更深层的联系:一个出色的程序和一本精彩的小说都是由各自的局部元素和整体构成精心编织而成。优秀的代码不仅要求每一条语句都写得清晰易懂,而且整个程序的不同部分需要保持独立性,设计上协调一致,互动清晰。同样,一本好的小说在字句的精准与整体结构和章节间的关系上也同样重要。

January 6, 2024

View Article

React 服务组件:优点、缺点与不足之处 [译]

React 服务组件 为 React 引入了专属于服务端的强大功能。我在 Next.js 13 和 14 的应用中实践了这一新范式,接下来是我对其的真实评价。之前我一直在犹豫是否要发表这篇文章,因为 React 社区过去对待批评的态度让我有所顾虑。但最近,我认为分享我的看法变得尤为重要,特别是在我发现大多数现有批评要么记录不充分,要么基于对此技术的不熟悉。写下这篇文章,我是站在一个非常重视用户体验的角度。虽然我也关注开发者的体验,但我始终认为用户体验是最重要的。

January 6, 2024

View Article

专注与心流:程序员生产力的权衡 [译]

程序员对提升生产力的方法论兴趣浓厚 —— 如何更准确地估计任务、用更少的时间完成更多工作,以及提高工作质量。我也深入研究了这一领域。在阅读了大量书籍后,我发现了一些可能对其他软件开发者有用的有趣见解。

January 5, 2024

View Article

软件工程师的公开演讲指南 [译]

“你的技术水平已经很不错了,但你还需要在沟通方面加强。” - 你的经理。对于软件工程师来说,这可能是最难以接受的反馈之一。为什么呢?因为你可能认为作为软件工程师,只需要擅长编程语言就足够了。但事实并非如此。单纯专注于编程可能会限制你的成长和晋升空间。

January 5, 2024

View Article

构建高级 RAG 的指南和技巧 [译]

这是一份全面的 RAG 指南,详细阐述了采用 RAG 的动机,以及如何超越基础或初级 RAG 构建的技术和策略。

January 5, 2024

View Article

大语言模型与大脑的相似之处与不同之处 [译]

在许多关于大语言模型是否构成“人工智能”或“通用人工智能”(AGI)的讨论背后,潜藏着一些关于这些系统与人类大脑相似或不相似程度的假设。支持者倾向于认为,从计算规模和复杂性上来看,这些模型与大脑作为信息处理系统的关键特性相匹配。而怀疑者则常将大语言模型(LLM)视为“高级自动纠错工具”,并否认这些系统在类似大脑方面(或能展现出“智能”,不论定义如何)有任何实质意义。实际的答案可能介于两者之间。

January 5, 2024

View Article

Mobile ALOHA: 利用低成本全身远程操作系统学习复杂的双手移动操作技能 [译]

在机器人技术领域,通过模仿人类的动作来训练机器人(模仿学习)已经取得了显著的成果。然而,这些成果大多集中在桌面操作上,而缺乏在更广泛实用任务中所需的移动性和灵活性。在本研究中,我们开发了一个模仿复杂移动操作任务的系统,这些任务需要双手操作和全身协调。首先,我们推出了 Mobile ALOHA,这是一个用于数据收集的低成本、全身远程操作系统。它在原有 ALOHA 系统的基础上增加了移动底座和全身操作界面。利用 Mobile ALOHA 收集的数据,我们进行了监督式学习(即模仿并复制行为),发现将其与现有静态 ALOHA 数据集结合训练可以显著提高处理移动操作任务的能力。例如,通过对每项任务进行 50 次模仿演示,结合训练可以使任务完成的成功率高达 90%,让 Mobile ALOHA 能够自主完成一系列复杂的移动操作任务。这些任务包括煎炒虾并将其盛盘,打开双门壁橱存放重型厨具,呼叫并进入电梯,以及用厨房水龙头轻轻清洗使用过的平底锅。

January 5, 2024

View Article

2024 年开发者生产力新动向:新指标及更多生成式 AI 的应用 [译]

当我们回顾过去一年,我们的视角转向 2024 年开发者生产力的发展趋势,这包括平台工程的创新、AI 的辅助作用以及对这些因素的量化评估。

January 5, 2024

View Article

数字游民三年记:我如何成为一名全职“漂流者” [译]

作为 Kapwing 的全职软件工程师,同时也是一位不断在世界各地漫游的数字游民,我领悟到了许多如何拥抱这种生活方式的诀窍。记得几年前的一个工作日午后,我家的门突然响了。来人是 Bill,我们农场的一名员工。“你猜怎么着,一头我们都没注意到怀孕了的牛突然生了小牛,”他兴奋地告诉我,“我们准备用你的名字给小牛命名。”对于一个牧场主来说,这或许是平常不过的一天。但我,其实并非牧场主。我是一名全职软件工程师,同时自 2020 年起,我还踏上了数字游民的生活旅程。

January 5, 2024

View Article

Apple PASCAL 语法海报:极客圈的传奇作品 [译]

计算机历史中充满了各种对立,但 Apple 公司的历史尤为显著。创意与技术思维之间永无止境的碰撞孕育了许多令人难以置信的产品,这个故事正是源于对形式美与实用性的不同偏好之争。此故事的主人公非常杰出:我们说的是 Apple Macintosh 的两大创始人,乔布斯和 Jef Raskin。故事发生在 1979 年:就在几年前 Apple II 发布。那是 Apple 公司历史上的辉煌时刻,乔布斯身边聚集了一群杰出的头脑,现代计算机学的大幕正在拉开。

January 5, 2024

View Article

苹果 Pascal“语法”海报的历史,1979-80 [译]

自从几年前我在 Slashdot 发布了这篇文章,这个页面成了一个互联网的讨论热点,话题涵盖了从“你心目中的理想极客海报是什么?”到杰夫·拉斯金和史蒂夫·乔布斯这两位苹果麦金塔之父之间复杂关系的探讨。这个项目吸引人的地方在于,它不仅是史蒂夫·乔布斯和杰夫·拉斯金这两位杰出人物合作的实际成果……而且还反映了他们观点的不同。除了麦金塔电脑,如今能看到的这类成果寥寥无几。对于已故的杰夫·拉斯金亲自参与编辑、明确内容并与我共同创作这篇文章,我深感荣幸。

January 5, 2024

View Article

规模的根本力量 [译]

这些力量让大型公司变得反应迟缓且难以操作,但如果能妥善利用,它们同样可以发挥巨大效果。

January 4, 2024

View Article

只要运用得当,电商与人工智能就是完美搭档 [译]

随着感恩节创下的 56 亿美元在线销售记录预示着电商的新纪元,也凸显了企业亟需采纳如人工智能这样的先进技术。

January 4, 2024

View Article

为何糟糕的科研代码胜过严格遵循编程规范的代码 [译]

我刚读了一篇名为“科学代码的低质量”的文章,作者认为科学家编写的代码质量不如涉及到“软件工程师”的情况。在过去的十多年里,我一直在一个以数学或物理背景人士为主的环境中工作,这里的人对“软件工程”的了解相对有限。

January 4, 2024

View Article

如何结合 API 操作和 Node.js 后端构建复杂的 GPT [译]

基本 GPT 能够浏览互联网、使用 Python 代码执行复杂计算、创建图像,以及利用内置大语言模型(LLM)知识处理用户指令。带有知识的 GPT 是一个附加了自定义文件的基础 GPT。带有动作的 GPT 是在基础 GPT 上增加调用 API(别人的服务器)的功能。带有动作和后端的 GPT 指的是您构建了一个基础设施(后端),并将您的 GPT 作为用户接入点连接上去。知识主要储存在后端,而不是在 GPT 上。

January 4, 2024

View Article

ChatGPT 中的 GPT Builder 是用来做什么的,我们为什么要开发它?以及它的 Prompt 是什么?[译]

ChatGPT 中的 GPT Builder 是用来做什么的,我们为什么要开发它?以及它的 Prompt 是什么?

January 4, 2024

View Article

推动高级机器人技术的未来发展 [译]

Google DeepMind 机器人团队推出 AutoRT、SARA-RT 和 RT-Trajectory,旨在提升机器人在真实世界环境中的数据采集效率、动作速度和应用泛化能力。设想一个未来,你只需向你的个人助理机器人发出一个简单的指令——比如“整理房间”或“为我们准备一顿美味健康的饭菜”——它就能轻松完成这些任务。对于人类而言易如反掌的这些活动,对机器人来说则需要深刻理解周围世界。今天,我们公布了一系列重大的机器人研究进展,这些进展使我们距离这一美好未来更近一步。AutoRT、SARA-RT 和 RT-Trajectory 基于我们在 Robotics Transformers 领域的历史性成就,能够帮助机器人更迅速地做出决策,更准确地理解并导航其所处的环境。

January 4, 2024

View Article

作为软件工程师,你可能不知道的 4 件事 [译]

刚成为软件工程师时,招聘人员总会向我介绍所谓的绿地项目,我在面试中经常遇到很多和编程语言相关的测试,数学也是我大学课程的重要部分,而“无估算”运动也在业界引起了一些关注。在软件工程师的职业生涯中,随着经验的积累,你会逐渐领悟到四个重要的真理,这些可能是你之前从未被告知的,或者与你初入行时的经验截然相反。

January 4, 2024

View Article

软件工程人员的薪酬来自以下三项预算之一 [译]

软件工程师的薪酬来源可以分为三大类预算。这些预算不仅决定了你日常的工作性质,还会影响你的职业发展路径。我认为,这就像是一条商业界的自然法则。这种模式的形成并不需要任何人有意识地去选择。

January 4, 2024

View Article

Elon Musk:被误解的领袖 [译]

Elon Musk 是一个充满争议的人物。我的目的,如同往常,是为了在喧嚣、复杂或难以理解的话题中增添一些细致见解和清晰信号。不论你对 Elon 怎样看,我认为推动讨论走向更深入、更有意义的交流是非常有价值的,同时希望这不会给我带来太多风险。问题在于,市面上 99% 的批评都出于恶意且不准确,导致大多数人缺乏理解 Elon 行动动机和目的的必要背景。这是个问题,因为 Elon 是一位颇具影响力和远见的领导者,他的公司在传递变革性技术的过程中扮演着越来越重要的角色。

January 4, 2024

View Article

利用工具和技术,减少工作时间,提升生活质量 [译]

看到这个标题,你可能会想:“没错,Robb,网络[1] 自然是奇妙的,它毕竟是现代世界所有商业和通信活动的核心”。或许你并不这样认为。但我要说的不仅仅是整个互联网,而是指那些开放的网络。那些鼓励你使用它们的 API 去创造新奇事物的网络。那些拥有开放标准的网络。就像独立网络那样。

January 4, 2024

View Article

在 DEI 中重新思考种族主义和反种族主义的概念 [译]

在今天的新闻背景下,我想退一步,从更广阔的视角来探讨这个话题的真正含义。我最初对哈佛大学感到关切是在 10 月 8 日清晨,那时以色列尚未在加沙采取任何军事行动,却有 34 个哈佛学生组织公开支持哈马斯(Hamas),一个被全球认定的恐怖组织。他们单方面指责以色列对哈马斯的残暴行径负有全部责任。我不禁思考,这是怎么回事?

January 3, 2024

View Article

谢谢,过去的我 [译]

过去的我记录下的内容,为未来的我带来了好处。现在的我也需要继续这种良好的习惯。在我作为软件开发人员加入最近的一个 Ruby on Rails 项目后,我想在着手更有挑战性的工作前,快速实现一些容易达成的小成就。因此,我决定对客户的网页应用程序进行一次“技术检查”。我之前在其他 Rails 项目上也做过类似的工作,但那已经是许多年前的事了。我甚至几乎记不起上周我编写的代码内容,更别提那时制定的一系列检查步骤了。幸运的是,过去的我曾有远见地在前雇主的博客上发表了一篇文章:Profile Your Future App,详细记录了当时的思考步骤。尽管这篇文章的部分内容已随时间略显过时,特别是一些提及的外部服务(考虑到科技的不断变化,这并不令人意外),但我依然能够利用文章中的大部分内容来提高我目前工作的应用程序质量,而无需重复发明已有的轮子(也许其他网页开发人员也能从中受益)。所以,谢谢过去的我,你做得很好!你在解决问题的过程中进行了记录,这些记录为未来带来了益处:一个有价值、可复制的过程,任何人都可以为自己做到。

January 3, 2024

View Article

AI 并非你的职场竞争对手 [译]

在大语言模型和生成式 AI 盛行的时代,技能为何仍至关重要。我的一个朋友对学习 Python 编程语言犹豫不决,他问道:“几年后 ChatGPT 不是可以直接帮你编写程序吗?”。这种想法暗示着 AI 将会取代软件工程师,从而让技术技能变得无关紧要。还有人担心新兴的 AI 模型可能会破解现在广泛使用的加密技术。相比工程师们,作家和演员等创意行业的人士似乎更加忧虑。本文旨在消除这些误解,降低对这些新技术的过度炒作,并在讨论中引入理性思考。它是为那些在过去的技术浪潮中游刃有余,且日常工作中极度依赖其不可替代的人类特质的专业人士所写。AI 已经成为公众焦点。投资如潮水般涌入,新产品层出不穷。我们正处于一个技术炒作的高峰期。尽管有人担忧失业或世界末日,我将阐明为何 AI 不会威胁你的工作,并解释为什么你应该积极利用这些工具。

January 3, 2024

View Article

图解 Transformer [译]

深入浅出地探索 Transformer 背后的数学原理,了解其工作原理。在本篇博客文章中,我们将详细展示一个 Transformer 模型在数学上的端对端(end-to-end)实例。我们的目标是彻底理解模型是如何运作的。为了让这个过程更加易于操作,我们将对模型进行大量简化。考虑到我们需要亲手进行不少数学计算,我们会减少模型的维度。比如说,我们不会使用 512 维的嵌入(embeddings),而是选用 4 维的嵌入。这样做可以让数学部分更容易理解!我们会使用随机生成的向量和矩阵,但你也可以用自己的数值来跟随实例。

January 3, 2024

View Article

构建软件项目最难的部分不是编码而是需求 [译]

AI 想要替代程序员谈何容易。随着越来越多的 AI 最新成果的新闻报道,很多人觉得 AI 很快就能取代我们这些程序员,他们觉得未来管理层和产品经理可以直接绕过程序员,让 AI 直接开发出他们想要的产品。作为一名有 15 年工作经验,日常就是根据这些人的要求构建软件的程序员,我对这种担忧其实并不太认同。编码固然充满挑战,但我从未花费过两周以上的时间来解决代码问题。一旦你熟悉了编程语法、逻辑和技术,编码大体上是个直接明了的过程。真正的难题通常在于软件应该完成什么任务。软件构建真正的难点不在于编写代码,而在于定义需求,而这些需求仍然需要人类来确定。本文将讨论软件需求与软件构建之间的关系,以及 AI 实现优秀成果所需的关键因素。

January 3, 2024

View Article

如何在 21 世纪致富 —— 成为下一个经济超级大国的竞争 [译]

我通常使用 GPT 的方式是,先用 GPT-4 来快速搭建一个原型,然后不断优化,直到解决方案能够在 GPT-3.5 模型上运行。这个方法在我的实践中非常高效,它的一个重要好处是能迅速筛选出那些“行不通”的项目——如果你在几天内都无法使项目在 GPT-4 的基础上运行起来,那么这个项目可能就不值得进一步深入。实际上,这就是我在 2023 年全年向合作公司推荐的工作流程。GPT-4 有一些问题,使得将其应用于实际生产环境并不理想。

January 3, 2024

View Article

AI 泡沫:光明还是灰烬? [译]

我的 Locus Magazine 最新专栏探讨了一个问题:“AI 泡沫究竟是什么?”所有的经济泡沫都会带来巨大的破坏,但其中一些在瓦砾中留下了可以再利用的价值,而其他的则只剩下一片灰烬。

January 3, 2024

View Article

100 年前的人们对 2024 年的各种预言,今天都应验了哪些? [译]

1924 年人们对于 2024 年的各种预测一览表

January 3, 2024

View Article

深入解析随机 Transformer [译]

深入浅出地探索 Transformer 背后的数学原理,了解其工作原理。在本篇博客文章中,我们将详细展示一个 Transformer 模型在数学上的端对端(end-to-end)实例。我们的目标是彻底理解模型是如何运作的。为了让这个过程更加易于操作,我们将对模型进行大量简化。考虑到我们需要亲手进行不少数学计算,我们会减少模型的维度。比如说,我们不会使用 512 维的嵌入(embeddings),而是选用 4 维的嵌入。这样做可以让数学部分更容易理解!我们会使用随机生成的向量和矩阵,但你也可以用自己的数值来跟随实例。

January 3, 2024

View Article

Meta 如何打造 Threads 的基础设施 [译]

Meta 对 ActivityPub 和 Mastodon 突然展现出的兴趣,乍看之下似乎难以理解。在 Fediverse 社交圈中,一些看似牵强的观点频频出现,每一个都试图解释 Meta 这一异常之举。但我对这些解释持怀疑态度。这背后肯定是一个经过多年筹划的计划。我们正实时见证着 Meta 面临的最大挑战。

January 3, 2024

View Article

AI 操作指南 [译]

在那个人们普遍认为“自动驾驶汽车还有半年就能面市”的美好时光里,你可能遇到过这样的论点:“如果自动驾驶汽车能够运行,那么它们将比人驾驶的汽车更安全。”这听起来没错。但如果你所说的“它们能够运行”是指它们在包括安全性在内的多方面都优于人类驾驶的汽车,那么,果然,如果它们能运行,它们就会比人类驾驶的汽车更安全。这其实是一种逻辑上的循环论证。不幸的是,技术界充满了这类诡辩,尤其是在 AI 领域。

January 3, 2024

View Article

先行动起来,然后逐步改进,最终做到最好 [译]

就这样开始吧。成功之旅通常从迈出第一步开始,但这第一步往往是最为艰难的。我们容易被对失败的恐惧或追求完美的欲望所困扰,但我希望这个我在 2013 年首次分享的格言,能够提醒我们在步入 2024 年之际,开始行动的重要性。就从某个地方开始吧!

January 3, 2024

View Article

追求高效的软件开发:先运行,再完善,最后加速 [译]

我坚信 Kent Beck 提出的软件开发策略:先让软件运行起来,然后使之正确无误,最后提升运行速度。在软件行业,这种思路非常常见。我的理解是,我们应先确保最基础的解决方案能够解决当前问题,再考虑进一步的时间投入。

January 3, 2024

View Article

如何在 Mac 上免费使用 cli 或 python 进行 OCR?[译]

一个热心的读者在阅读了我关于所有的 iPhone 闹钟的文章后,询问我是如何在 Mac 上运行 OCR 的。我不是一个守口如瓶的人,所以这里有一个方法可以让你免费得到一个本地的 OCR‘服务’,它可以在终端/CLI/python 中运行,且不花一分钱

January 2, 2024

View Article

GPT-4 现在是否已经足够划算?[译]

我通常使用 GPT 的方式是,先用 GPT-4 来快速搭建一个原型,然后不断优化,直到解决方案能够在 GPT-3.5 模型上运行。这个方法在我的实践中非常高效,它的一个重要好处是能迅速筛选出那些“行不通”的项目——如果你在几天内都无法使项目在 GPT-4 的基础上运行起来,那么这个项目可能就不值得进一步深入。实际上,这就是我在 2023 年全年向合作公司推荐的工作流程。GPT-4 有一些问题,使得将其应用于实际生产环境并不理想。

January 2, 2024

View Article

时间是一种实体[译]

想象一个没有时间的宇宙似乎很难,但这并不是因为时间是个技术复杂或哲学上难以捉摸的概念。更根本的原因在于:要想象无时间状态,就得通过时间的流逝。即便是在想象没有时间的时候,你也能感受到时间在你思考转换、心脏为大脑输送血液、以及周围的图像、声音和气味变化中悄然流动。时间这个概念似乎从未停歇。你甚至可能觉得自己被卷入了它不断前行的织物中,感受着宇宙的聚合与分离。但真的是这样理解时间吗?<br />阿尔伯特·爱因斯坦认为,我们对过去、现在和未来的体验不过是“一种固执的持续幻觉”。艾萨克·牛顿则认为,时间不过是生活的背景。热力学定律则将时间视为熵和热量。在现代物理学史上,还没有一个广为接受的理论将动态、方向性的时间观作为基础。从运动定律到分子和物质的属性,我们对自然的基本描述似乎都处于一个时间并非真正流逝的宇宙中。然而,近期在不同领域的研究开始表明,时间的流动可能比许多物理学家原先认为的更加重要。

January 2, 2024

View Article

解锁 AI 的未来:主动推理与大语言模型的比较 —— 世界与文字 [译]

在 AI 成为绝对主导的世界中,技术界的精英们正面临一个迫切问题:我们是否真的接近真正的智能,还是只是在玩弄高级的文本生成工具?当我们对 ChatGPT、Claude 这类大语言模型 (LLMs) 的强大功能赞叹不已时,是时候深入探究、寻找答案了。超越了炒作和迷恋,我们看到的是引领变革和创新的催化剂,它将彻底重塑 AI 的定义:主动推理 AI。究竟是什么让主动推理与大语言模型截然不同,主动推理又为何可能是开启 AI 未来之门的关键?跟随我一起探索这些革命性技术的复杂世界,一起揭晓迷雾,我们不仅将开启新的对话时代,更将迈入一个建立在人类智能基础上的全新 AI 时代。

January 2, 2024

View Article

2024 年初的大语言模型编程实践 [译]

首先我要明确,这篇文章并不旨在回顾大语言模型。显而易见,2023 年对人工智能来说是不平凡的一年,再去强调这一点似乎没有多大必要。这篇文章更多是作为一位程序员的个人体验分享。自从 ChatGPT 出现,再到使用本地运行的大语言模型,我就开始广泛应用这项新技术。我的目标不仅仅是提高编码效率,更重要的是,我不想在编程中那些无需过多精力投入的方面浪费时间。不愿意花费大量时间去查找某些无趣且专业的文档,不想为了学习一些过于复杂且往往无需如此的 API 而劳心费力,也不想编写那些几小时后就会被我抛弃的即用即弃程序。尤其是在如今 Google 成了一个充斥着垃圾信息的海洋,我们在其中努力寻找那少数有用信息的时候。<br />同时,我也不是编程领域的新手。我完全有能力在没有任何辅助的情况下编写代码,而且我也常常这么做。随着时间的推移,我越来越频繁地借助大语言模型来编写高级代码,特别是 Python 代码,而在 C 语言方面则相对少一些。我对大语言模型的个人体验让我深刻认识到,应该在何时使用它们,以及何时它们的使用反而会拖慢我的步伐。我还了解到,大语言模型有点类似于维基百科和 YouTube 上琳琅满目的视频课程:它们对那些有意愿、有能力和自律的人大有裨益,但对于落后者来说,帮助有限。我担心,至少在初始阶段,它们更多的是惠及那些本就占据优势的人。

January 2, 2024

View Article

提示工程最佳实践 [译]

这份总结最初是基于 Andrew Ng 和 OpenAI 的 Isa Fulford 在 2023 年 12 月 11 日 NeurIPS 会议上的“利用大语言模型进行应用开发”教程中的提示工程部分。自那以后,我还增加了许多丰富的内容和示例。虽然这次演讲没有在线上发布,但希望这些详细而快速的笔记能为你提供一个很好的快速概览 :)

January 2, 2024

View Article

搜索结果究竟有多差?比较 Google、Bing、Marginalia、Kagi、Mwmbl 和 ChatGPT [译]

我认为那种“甚至 Google 搜索现在都很糟糕”的担忧被过分夸大了\n\n我怀疑现在的情况是,一些人已经习惯于在糟糕的软件环境中工作,以至于他们自己都没意识到,就像下意识地在编辑器里不停按 ctrl+s 或者在文本框里写东西时按 ctrl+a; ctrl+c 一样。每个精通现代网络的用户都有自己的一套小技巧,用来从搜索查询中得到还算不错的结果。观察许多用户使用电脑的情况来看,这并不是普遍现象,即便是在那些在各种技术领域(比如机械工程 2)相当有能力的人群中也是如此。然而,那些抱怨搜索结果质量不佳的人,可能只是跟风“一切都很糟糕”的说法,对搜索质量发表了毫无根据的评论。\n\n既然直接尝试简单的查询很容易,那我们就来试试。我们将使用五种搜索引擎加上 ChatGPT 来做三种类型的查询,并关闭广告拦截器 (ad blocker),以体验普通用户的上网感受。我以前在浏览一个带有可疑广告的网站时,电脑曾被恶意软件感染,希望这次不会再发生(那次我很幸运,因为恶意软件在电脑上动作太大,不可能不被发现)。

January 2, 2024

View Article

AI 的未来比你想象的更不稳定 [译]

我们现在经常听到,世界正处于一个技术转折点;我们正在快速步入一个由 ChatGPT 等人工智能工具塑造的未来。然而,我怀疑,2024 年我们将会被提醒到纳普斯特的幽灵——以及其他数字化未来的失败。如果你年龄在 35 岁以下或 60 岁以上,你可能不太了解纳普斯特。但曾经,它代表了未来。纳普斯特是一个点到点的文件共享服务。在大约 1999 年到 2002 年间,它曾经是未来主义的代表。纳普斯特的逻辑很简单:有人买了一张 CD,然后把歌曲上传到电脑上。这台电脑连接到纳普斯特的对等网络,纳普斯特使这些歌曲可以被网络上的其他用户免费下载。这有点像是制作无数的混音带并四处传播。但对音乐产业来说,这更像是一种盗版行为。音乐产业因此感到恐慌,这种恐慌是有充分理由的。随着数字复制和分发成本趋于零,音乐销售将何去何从?如果所有音乐都可以免费获取,那么专业音乐家如何谋生?从音乐开始的这种趋势很可能蔓延到电影和电视行业。创意产业本应受版权法保护,但 20 世纪的版权法在 21 世纪的通讯技术面前意味着什么?

January 2, 2024

View Article

我们会永远对手机上瘾吗?对数字健康未来的乐观展望[译]

自从 33 年前 Steve Jobs 将个人电脑比喻为能够激发思维的自行车以来,智能手机的兴起和社交媒体的广泛使用已经把这些“自行车”变成了失控的列车。在过去三十年里,由注意力经济驱动的数十亿美元研究资金被投入到开发强效干扰工具中,这些工具被部署在全世界的每个屏幕上。

January 2, 2024

View Article

少读一些书,享受阅读的乐趣 —— 📚 新年计划,Goodreads 与多巴胺,以及如何避免对自己过度要求的建议 [译]

📚 新年计划,Goodreads 与多巴胺,以及如何避免对自己过度要求的建议

January 1, 2024

View Article

我的同事是 GPT-4 机器人,我们都在 Slack 上一起工作[译]

在过去的一个月里,我和我的朋友大部分时间都在 Slack 上与一些特别的同事共度:一个时常严厉的 CTO、一个酷爱哈利波特的产品经理,还有几位平易近人的开发者。他们的加入彻底改变了我们的工作氛围和乐趣。在 Slack 上,他们带来了无穷的欢笑和个性。一旦我们有疑问或需要帮助,只需一条信息,总会有人迅速回应。从各方面来看,他们就像我们平时遇到的同事一样,几乎无法区分。我们与他们共同笑过、倾诉过、协同工作过。我甚至还从其中一个同事那里得到了很棒的音乐推荐!但事实是,他们都是机器人。

January 1, 2024

View Article

大语言模型推理的价格战 - 靠规模取胜?[译]

目前除了 OpenAI,还有五家公司的模型在多个基准测试中超越了 GPT-3.5,这些公司包括 Mistral Mixtral、Inflection-2、Anthropic Claude 2、Google Gemini Pro 和 X.AI Grok。更令人惊讶的是,Mistral 和 X.AI 仅靠不到 20 人的团队便取得了这样的成就。此外,我们还预计 Meta、Databricks、01.AI (Yi)、百度和字节跳动很快也会实现超过 GPT-3.5 的性能。当然,这些成绩都是在基准测试中获得的,而且据说有些公司是在评估数据上进行训练的……但不必太过纠结于这个小细节。对于关注此事的人来说,从现在起短短几个月内,将会有总共 11 家公司加入这一行列。显而易见,GPT-3.5 级别模型的预训练已经变得非常普及。OpenAI 仍然是 GPT-4 的领头羊,但这种领先优势已大幅缩减。尽管我们认为最高端模型将占据大部分长期价值,但次一级别的模型在质量和成本上也将在市场上创造出价值数十亿美元的细分市场,尤其是经过微调之后。那么,如果这些模型无处不在,哪些公司能从中获利呢?

January 1, 2024

View Article

通往人工智能之路 [译]

特别专题:庆祝新年的开放式探讨。欢迎迎来 2024 年!是的,我明白!虽然我说过要短暂休息,但新年的到来怎能错过呢?这毕竟是新的一年,为了纪念图灵!为了开启 2024 年的同时,继续我缓慢前进的承诺,我想与您分享一些精彩内容。回顾去年的文章积累,我找到了三篇我们人数还不多时分享的精华文章,它们都围绕着通用人工智能(AGI)的概念。它们是对我们年终回顾的完美补充,因此我决定将它们整合并稍作修改。因此,在这个特别专题《大多无害》中,我将带您深入了解 AGI,探讨为什么我们还未达到那个阶段,当前理论和实践中缺失的关键要素是什么,以及我们该如何继续前进。作为新年的特别礼物,这篇文章我将完全公开,敬请享用。

January 1, 2024

View Article

最大化大语言模型性能 [译]

简述如何以可扩展的方式把大语言模型(LLMs)从原型提升至高性能。本博客内容源自于在 OpenAI DevDay 会议上由 Colin Jarvis 和 John Allard 所做的精彩演讲。

January 1, 2024

View Article

风险管理不是项目管理 [译]

在我的职业生涯中,我经常遇到这样的场景:与客户合作,从战略层面策划大型、复杂、分阶段的项目。这些项目往往涉及多个内外部团队。在这个策划阶段,我的目标之一是制定出一个明确的 RACI 责任分配。通常,项目的主要责任归客户所有(毕竟,他们是实现目标 X 的主体);然而,次要责任常常需要与第三方共担。这里的“第三方”指的是项目所属公司之外的任何团队。

January 1, 2024

View Article

27 年前,史蒂夫·乔布斯曾经说过:最优秀的员工专注于内容而非流程。研究证实了他的观点 [译]

乔布斯还说过:最优秀的员工通常也是最难管理的。

January 1, 2024

View Article

为什么单纯问客户他们想要什么并不有效[译]

如何真正理解他们的需求

January 1, 2024

View Article

生成式不确定性 [译]

本文讲述了为什么不确定性是创新工作中不可或缺的一部分,以及在不确定性的背景下,什么是“生成性”,设计生成性不确定性的三大原则是什么,以及这些原则如何具体实施。

January 1, 2024

View Article

2023 年 AI 领域的重大发现 [译]

2023 年是大语言模型(LLMs)取得重大突破的一年。将这些模型称为 AI 是恰当的——它们是目前人工智能学术领域最新、最引人注目的发展,而这一领域的历史可以追溯到 20 世纪 50 年代。下面是我尝试汇总的一些年度亮点!

January 1, 2024

View Article

将机器学习转化为创造学习的机器 [译]

在技术日新月异的世界里,软件工程师持续面对吸收海量新技术信息的挑战。本文介绍了一种利用机器学习技术辅助软件工程师更高效地整理和学习这些资料的创新方法。本文旨在指导读者如何使用 OpenAI 来概括大量文档,并自动制作出高效的学习教程。特别例证的是,如何为 LeetCode 编制深入的教程。

December 31, 2023

View Article

Midjourney 提示词技巧 [译]

Midjourney 的 --v 6 版本与 --v 5 的提示方式截然不同。

December 31, 2023

View Article

发挥 AI 在职场中的作用:如何在新的 2024 年保持领先![译]

尽管人工智能 (AI) 在工作场所逐渐取代以人为核心的优势,但这种优势是短暂的。要实现持久的竞争力,关键在于将 AI 强大的计算能力与人类的判断力相结合。Louis-David Benyayer 和 Howard Zhong 指出,企业必须整合人力与技术资源,创建既融合 AI 技术又结合人类技能的新岗位。这需要投资于技术、人才和朝向协作、多功能的文化转型。

December 31, 2023

View Article

山寨、收购和消灭 - Meta 如何实现科技史上最惊人的战略转变 [译]

Meta 对 ActivityPub 和 Mastodon 突然展现出的兴趣,乍看之下似乎难以理解。在 Fediverse 社交圈中,一些看似牵强的观点频频出现,每一个都试图解释 Meta 这一异常之举。但我对这些解释持怀疑态度。这背后肯定是一个经过多年筹划的计划。我们正实时见证着 Meta 面临的最大挑战。

December 31, 2023

View Article

大语言模型程序 [译]

近几年,大型预训练语言模型(LLMs)展示出了按照指令行动和利用少量样本完成新任务的能力。这种通过上下文示例对大语言模型进行参数设置的方式,不仅增强了其功能,而且成本远低于微调(finetuning)。我们在这个思路基础上进一步发展,提出了一种新方法:将大语言模型嵌入到一个算法或程序中,从而扩展其能力。为了证明这种方法的有效性,我们展示了一个基于证据的问答示例。这种更注重算法的方法使我们在不进行任何微调的情况下,比传统思维链方法提高了 6.4% 的性能。此外,我们还回顾了这个领域的最新研究,探讨了这种方法与传统方法相比的优势与不足。

December 31, 2023

View Article

E.T. Jaynes 概率论:科学的逻辑 I [译]

我们认为 Jaynes 的论述十分清晰,这本书极具价值,但它更适合研究生物理学的读者。它填补了统计学、数学、因果理论和科学哲学之间的空白,提供了关于如何理解世界和面对不确定性的实际教训。在这里,我们试图提供一篇评论,分享书中的核心思想,并省略所有复杂的数学公式和推导过程。这本书大致由两部分组成:一半是高级数学,另一半是即便没有数学背景也能理解的精彩故事和见解。它包含丰富的内容,而这篇评论仅覆盖了前六章,介绍了概率论的基本概念和问题。

December 31, 2023

View Article

石墨的量子飞跃:阿秒科学引领通向超导性的新路径 [译]

ICFO 的研究人员在阿秒级软 X 射线光谱学方面取得的进步,极大地改进了对材料的分析,特别是在研究光与物质的相互作用和复杂的多体动力学方面,为未来技术的应用开辟了新的可能性。

December 31, 2023

View Article

为什么我对低代码持怀疑态度 [译]

我对低代码持怀疑态度。

December 30, 2023

View Article

2023 年十篇值得关注的 AI 研究论文 [译]

今年的感觉特别不同。我已经在机器学习和人工智能领域工作、研究和实践了十多年,但我从未见过像今年这样,这些领域如此受欢迎且发展迅速。为了总结 2023 年在机器学习和人工智能研究领域充满事件的一年,我非常兴奋地与大家分享我今年阅读过的十篇引人注目的论文。我的个人研究重点更倾向于大语言模型(Large Language Model, LLM),因此你会发现,我选的论文中,大语言模型的比计算机视觉的要多。

December 30, 2023

View Article

谷歌如何解锁并衡量开发者的生产力 [译]

探究谷歌是如何运用混合方法研究、日志记录等手段来评估开发者生产力的。

December 30, 2023

View Article

针对人类开发者的生产力提升,第 7 部分:软件质量 [译]

在谷歌,我们常被请求协助团队衡量各种开发者工具和流程对生产力的具体影响。这通常体现为一些团队开发了新的开发者工具,希望证明这些工具能够提升开发者的工作效率。

December 30, 2023

View Article

2023 年我们为未来而阅读的书籍 [译]

彭博观点的技术专栏作者通过翻阅纸质书籍来更好地理解数字革命的深远影响。在这种情况下,最好是退一步,慢慢吸收信息,思考未来可能面临的情况。2024 年之际,我们的技术专栏作者想分享他们在过去一年里阅读或重读的书籍,这些书籍帮助他们构建思考框架。Dave Lee 是彭博在纽约的美国技术专栏作家,而 Parmy Olson 则从伦敦报道人工智能和科技行业。

December 30, 2023

View Article

利用私人大语言模型撰写本科历史论文的心得体会 [译]

我使用了私有和公开的大语言模型来回答一个我在大约 30 年前花费了一个星期时间研究的本科论文问题。目的是探究在这些年里,使用这些工具是否会改变我的学习体验。结果发现,这次借助 AI 的体验在某些方面与以往大相径庭,而在其他方面则有所相似。

December 30, 2023

View Article

AI 如何影响科学?[译]

到目前为止,AI 在科学领域最大的成就莫过于 AlphaFold 2 系统。这是一个深度学习系统,它在解决一个基础科学难题上取得了巨大进步:从蛋白质的氨基酸序列预测其三维结构。这一重大突破促进了分子生物学领域深度学习革命的持续进行。这不仅对分子生物学家来说意义重大,而且我认为它对整个科学领域都极具意义,因为它是一个具体的实例,展示了人工智能如何影响科学发现。在这个简短的报告中,我将探讨几个问题:如何验证这样的系统?它们能否帮助我们找到人类科学家可以学习的普遍原则?一个优秀的理论或解释应该包含哪些内容?本次讲座主要关注现有成果和近期发展,而非长远未来。然而,我希望它能帮助我们更好地理解未来的长期走向,以及 AI 系统所带来的好处和风险。

December 30, 2023

View Article

AI 论战的荒谬(并且,不,AI 不会在类似于计算机般的时间尺度上进行递归自我完善) [译]

在那个人们普遍认为“自动驾驶汽车还有半年就能面市”的美好时光里,你可能遇到过这样的论点:“如果自动驾驶汽车能够运行,那么它们将比人驾驶的汽车更安全。”这听起来没错。但如果你所说的“它们能够运行”是指它们在包括安全性在内的多方面都优于人类驾驶的汽车,那么,果然,如果它们能运行,它们就会比人类驾驶的汽车更安全。这其实是一种逻辑上的循环论证。不幸的是,技术界充满了这类诡辩,尤其是在 AI 领域。

December 29, 2023

View Article

如何高效管理远程团队中的初级开发者 [译]

初级软件开发人员 (junior software developers) 正面临一个充满挑战的就业市场。远程工作的广泛普及、大量裁员以及人工智能 (AI) 的崛起为这一行业的新入行者带来了不少难题。以下内容介绍了如何帮助这些初入行的新人在职场上茁壮成长。

December 29, 2023

View Article

“无发明,无创新”:美国钢铁公司的历史 [译]

上周,美国钢铁公司宣布将被日本的日本制钢公司收购。这一转折点让我们有机会回顾一下这家曾是美国乃至世界上最大、最重要的公司是如何逐渐走向衰落的。在收购消息公布之前,美国钢铁的市值大约为 80 亿美元,连进入《财富》杂志的 500 强都不够(排在大约第 690 位,比 Texas Roadhouse 连锁餐厅还要低)1。自成立以来,这家公司的市场份额和影响力一直在缓慢但稳定地下降。1901 年成立时,它不仅是世界上最大的公司,还生产了美国近三分之二的钢铁。而今天,它的钢铁产量只占美国的 12%,大约只有 1955 年的三分之一,而且雇员人数与在线宠物用品零售商 Chewy 相当。这家曾经的工业巨头是怎样一步步走向衰落的呢?让我们来探究一下。

December 29, 2023

View Article

网络的奇妙世界 [译]

看到这个标题,你可能会想:“没错,Robb,网络[1] 自然是奇妙的,它毕竟是现代世界所有商业和通信活动的核心”。或许你并不这样认为。但我要说的不仅仅是整个互联网,而是指那些开放的网络。那些鼓励你使用它们的 API 去创造新奇事物的网络。那些拥有开放标准的网络。就像独立网络那样。

December 29, 2023

View Article

2023 年创业公司成长的 10 个经验教训 [译]

让用户接受一款新产品总是充满挑战。对我们来说,经历了 7 次失败的尝试后,第 8 个版本的产品 - Jam(一个用于创建带有自动开发日志的 bug 报告的浏览器扩展)终于成功了!在 2023 年,Jam 的使用量增长了 10 倍,创建的 Jams 超过了 100 万个。今年我学到了很多关于如何打造成功产品的知识。归根结底,这依赖于团队、代码和用户反馈。

December 29, 2023

View Article

代码链:借助语言模型增强的代码模拟器进行推理 [译]

代码为构建复杂程序和执行精确计算提供了一种通用的语法结构。当与代码解释器 (interpreter) 配合使用时,我们推测,语言模型 (LMs) 能够通过编写代码来增强“思维链条 (Chain of Thought)”式的推理。这不仅适用于逻辑和算术任务\[ 5 ,  26 ,  1 ],也适用于语义任务,特别是逻辑与语义相结合的任务。例如,如果让一个语言模型编写一个检测文章中讽刺次数的代码,它可能难以编写一个可以被解释器执行的“detect\_sarcasm(string)”函数(处理边缘情况会非常困难)。然而,如果语言模型不仅编写代码,还能模拟解释器的行为,通过生成“detect\_sarcasm(string)”及其他无法执行的代码行的预期输出,它仍有可能找到有效的解决方案。在本研究中,我们提出了“代码链 (Chain of Code, CoC)”方法,这是一个简单但效果惊人的扩展,用于改进基于代码的语言模型推理。其核心思想是鼓励语言模型将程序中的语义子任务格式化为伪代码 (pseudocode),使解释器能够明确地捕获未定义行为,并由语言模型(作为一个“LMulator”)模拟。实验显示,“代码链”在多个基准测试中都优于“思维链条 (Chain of Thought)”和其他基准线;在 BIG-Bench Hard 测试中,“代码链”达到了 84% 的成绩,比“思维链条”高出 12%。CoC 适用于大型和小型模型,扩展了语言模型通过“用代码思考”正确回答推理问题的范围。

December 29, 2023

View Article

给新手软件开发者的建议——从那些“老司机”的建议中挑选 [译]

最近有人问我,对于刚入行的程序员有什么建议。一开始,我觉得这问题有点儿可笑。毕竟,我才工作十年,而我的一些订阅者编程的经历甚至比我这辈子还长!后来,我读了些“给新手程序员的建议”文章,发现他们漏掉了不少东西。因此,我整理了十三条给新手程序员的建议,虽然有些看起来似乎互相矛盾。

December 29, 2023

View Article

这不是微服务或单体的问题,而是认知负荷的问题 [译]

“不要仅在单体架构和微服务架构之间选择,更重要的是根据团队能承受的最大认知负荷来设计软件。”如果你的组织只有一个团队,那么应考虑调整架构以适应团队的能力。优先选择单体、紧密联系、模块化的架构。如果你的组织有多个团队,可以考虑采用微服务或类似的架构,以便各团队能够独立工作。认知负荷并非都相同。不同类型的认知负荷会影响团队交付高质量成果的能力。组织应该尽力减少或消除内部和外部的认知负荷,确保团队主要面对与工作直接相关的认知负荷。单个团队与多团队架构的沟通边界差异很大。单个团队更适合通过代码库、文档、讨论和设计会议进行沟通。而多团队架构则更适合通过精心设计的 API(或库)来沟通,这些 API 可以简化他们各自领域的复杂性。

December 29, 2023

View Article

能自我修复的代码是软件开发的未来 [译]

随着生成式 AI 的兴起,开发者们对于自动化解决问题的热情愈发高涨。这种趋势很可能将代码的创建、维护和改进推向一个崭新的高度。

December 28, 2023

View Article

探索 ChatGPT 结构化数据支持的极限 [译]

如果你只是通过免费的网页或移动应用接触 OpenAI 的 ChatGPT,那你可能还未充分挖掘出 ChatGPT 的全部潜力。通过使用价格低廉的付费 ChatGPT API,你可以对输出结果进行更加深入的控制。例如,我想为这篇博客文章生成一个包含分类和 SEO 关键词等有用元数据的摘要。我将这篇博客的文本和一个指令输入给 ChatGPT:

December 28, 2023

View Article

探讨 LLaMA-1/2 与 GPT-3.5/4,你只需有原则的指令 [译]

本文介绍了 26 个专为简化向大语言模型(Large Language Model)提问和设置提示的原则。我们旨在让研究者更容易理解如何针对不同规模的大语言模型提出问题,评估其能力,并了解这些模型在面对不同提示时的反应。我们在 LLaMA-1/2(容量分别为 7B、13B 和 70B)和 GPT-3.5/4 上进行了广泛实验,验证了这些原则在设计指令和提示时的实用性。我们希望这项研究能为那些致力于提高大语言模型响应质量的研究人员提供实用的指导。

December 28, 2023

View Article

科技正在吞噬世界 [译]

当能源、智力和劳动成本极低时,会发生什么?

December 28, 2023

View Article

FireAct:推进语言智能体的微调 [译]

近期研究将语言模型与外部工具或环境结合起来,发展出能够进行推理和行动的“语言智能体”。尽管如此,大多数这类智能体仍依赖少量样本的提示技巧和现成的大语言模型。在这篇文章中,我们研究并强调了一个被忽略的方向:通过微调大语言模型来创建更高效的语言智能体。通过结合谷歌搜索 API 的问答系统,我们测试了多种基础的大语言模型、提示方法、微调数据集和问答任务。结果表明,通过对这些模型进行微调,语言智能体的表现显著提升。例如,使用 GPT-4 生成的 500 个智能体操作轨迹来微调 Llama2-7B 模型,使其在 HotpotQA 任务上的表现提高了 77%。此外,我们提出了一个名为 FireAct 的新方法,通过使用来自多种任务和提示方式的操作轨迹来微调语言模型,实验表明这种多样化的微调数据可以进一步提升智能体的性能。我们的研究不仅展示了微调大语言模型在构建智能体时的广泛优势,还提供了一系列实验设计、见解和有关如何微调语言智能体的开放性问题。

December 28, 2023

View Article

软件开发者应该了解的 10 个关于学习的要点 [译]

对软件开发者来说,学习是必不可少的。技术领域的变化不断:新技术层出不穷,老技术也在不停地更新。因此,开发者们不是仅仅学习编程一次就够了——在他们的职业生涯中,他们需要掌握许多新的编程语言和框架。

December 28, 2023

View Article

拖拉机与马对生成式 AI 的启示 —— 拖拉机简史 [译]

今天,许多人预期另一场革命,这次是与生成式人工智能(AI)的发展相关联的。和过去一样,当今大众对这项技术既感到敬畏又感到恐惧。高盛银行预测,生成式 AI 可能在十年内使全球 GDP 增长 7%。一些经济学家如今谈论“爆炸性增长”,而其他人预言,不久后将有数以百万计的工作岗位消失。然而,拖拉机的经济历史让人对这些预测产生了疑问。纵观历史,拖拉机的确对人们的生活产生了巨大影响,但它是悄然无声地征服世界,而非一鸣惊人。

December 27, 2023

View Article

AI 规模化的可行性:探索和辩论 [译]

数据瓶颈、泛化性能评估、灵长类进化、智能作为信息压缩、世界建模者及其他重要议题

December 27, 2023

View Article

2024 年 AI 领域的 10 大预测 [译]

福布斯 2024 年 AI 领域的 10 大预测

December 27, 2023

View Article

2023 年度 AI 大事记 [译]

今年,我亲身见证了人工智能 (AI) 实时地改变着世界。从发生的一切来看,我坚信未来几年将是人类历史上最具变革性的时期。下面是 2023 年人工智能的重要时间线(1 月至 12 月)

December 27, 2023

View Article

探索 GPT-4 API 的潜在风险 [译]

语言模型攻击通常基于两种极端的假设:一是完全掌握模型权重的“白盒”访问模式,另一是只能通过文本生成接口进行的“黑盒”访问。然而,现实中的 API 通常比单纯文本生成功能更加灵活,它们提供了介于两者之间的“灰盒”访问方式,这也带来了新的安全隐患。我们对 GPT-4 API 新增的三项功能——微调 (fine-tuning)、函数调用 (function calling) 和知识检索 (knowledge retrieval) 进行了安全性测试。结果显示,仅用最少 15 个有害示例或 100 个无害示例对模型进行微调,就足以破坏 GPT-4 的核心安全措施,导致一系列有害的输出。此外,我们还发现 GPT-4 AI 智能体能够轻松泄露函数调用的细节,并且可以被操纵执行任意函数调用。最后,我们注意到,通过向检索文档注入指令,可以干扰知识检索过程。这些漏洞表明,API 功能的任何增强都可能带来新的安全风险。

December 27, 2023

View Article

大语言模型应用价值创造与发展的四个阶段 [译]

从提示设计到智能体流程

December 27, 2023

View Article

是时候开始讨论大语言模型中的提示架构了吗?[译]

从提示工程到提示架构

December 27, 2023

View Article

ChatGPT 与科学:这款 AI 系统在 2023 年显现其双面影响 [译]

作为生成式 AI 软件的典型代表,ChatGPT 模仿人类的效果非常惊人。它象征着研究领域的一个可能的新纪元,但同时也伴随着风险。

December 27, 2023

View Article

向 OpenGPTs 注入长效记忆功能 [译]

三周前,我们发布了 OpenGPTs——一种基于开源理念实现的 OpenAI GPTs 和 Assistant API。OpenGPTs 能够构建对话型 AI 智能体,这是一种既灵活又前瞻性的技术架构。在这些智能体中,记忆扮演着至关重要的角色。目前,无论是 GPTs、OpenGPTs 还是 Assistants API,它们都仅仅支持基础的对话记忆功能。而长期记忆则是一个尚未深入探索的领域。在本篇博客中,我们将简要探讨我们对记忆的看法,分析为何这一领域研究不足,然后展示我们如何在 OpenGPTs 中实现并应用特定记忆机制,打造出一位“龙与地下城”游戏的地牢主。

December 27, 2023

View Article

4 个 GPT-4 Vision 的开源替代方案 [译]

免费开源替代品探索指南:寻找 GPT-4 Vision 的替代方案

December 26, 2023

View Article

GPT-4 Turbo 通过统一差异 (unified diffs) 更有效率地编程 [译]

Aider 现在让 GPT-4 Turbo 采用统一差异来编辑代码。这大幅提升了 GPT-4 Turbo 在全新且富有挑战性的基准测试中的表现,并显著减少了它在编程时倾向于写出像“...在此添加逻辑...”这类注释的惰性。

December 26, 2023

View Article

高级 RAG 技术:图解概览 [译]

本文全面研究了高级检索增强式生成技术 (RAG) 及其算法,系统地整理了各种方法。文章中还包含了我知识库中与提到的各种实现和研究相关的链接集。

December 26, 2023

View Article

什么使软件出类拔萃? [译]

作为一名开源软件开发者,我经常思考如何改善软件。这是必然的:在 Stack Overflow、GitHub 的问题反馈和 Slack 提醒,以及电子邮件和直接信息中,有源源不断的求助。幸运的是,你也会看到有人成功并创造出令人惊叹的成果,这超出了你的想象。知道自己的帮助起到了作用,这成了我不断前行的强大动力。

December 26, 2023

View Article

2023: AI 的一年 [译]

2023 年是 AI 领域的关键年份,我们在此聚焦今年对该行业未来发展具有重大影响的主要事件

December 26, 2023

View Article

llamafile:让大众轻松拥有大语言模型 (LLMs),甚至在您的个人电脑上 [译]

Mozilla 最新创新项目介绍:llamafile。这是一个开源项目,它巧妙地简化了构建完整的大语言模型聊天机器人的复杂过程,将其凝练为一个能在六种操作系统上运行的单一文件。接下来的内容,我们将分享我们为何开发 llamafile,我们是如何做到的,以及我们期望它对开源人工智能 (AI) 产生的影响。

December 25, 2023

View Article

涌现能力的深刻理解:基础现象、幻觉,或两者皆有? [译]

在语言模型的发展中,我们见证了规模的强大力量。Radford 等人在最初的 GPT 论文 中指出,模型在训练过程的某个时刻突然“习得”了对句子 X 进行情感分析的能力,能预测它更可能是“非常消极”或“非常积极”的后续内容。随着模型的训练,其零样本 (zero-shot) 性能出现了显著的“飞跃”。当然,如 Radford 等人所述,这需要一个“成本高昂的预训练步骤——在 8 个 GPU 上训练 1 个月”。😊

December 25, 2023

View Article

GPT-4V(视觉版) 系统卡片 [译]

GPT-4 视觉版(GPT-4V)赋予用户指令 GPT-4 分析用户提供的图像的能力,是我们最新推出的功能。将图像等附加模态纳入大语言模型(LLMs)被视为人工智能研究与开发的一个关键领域。多模态大语言模型能扩展传统语言系统的影响力,通过创新的界面和功能,使其能解决新任务并为用户带来全新体验。

December 25, 2023

View Article

大语言模型在自主化学研究中的应用 [译]

基于 Transformer 技术的大语言模型(LLMs)在多个领域已取得显著进展,例如自然语言处理 1–5、生物学 6,7、化学 8–10 和计算机编程 11,12。本文展示了由 GPT-4 驱动的人工智能系统 Coscientist 的开发与能力。Coscientist 能自主设计、规划并执行复杂的实验,它整合了大语言模型并配备了包括互联网搜索、文档查询、代码执行以及实验自动化等工具。Coscientist 在六项不同的任务中展现了其加速研究的潜力,特别是在钯催化交叉偶联反应的优化方面取得了成功,显示了其在(半)自主实验设计和执行方面的先进能力。我们的研究表明,像 Coscientist 这样的人工智能系统在推动研究发展方面具有多功能性、高效性和可解释性。

December 25, 2023

View Article

"注意力", "Transformers", 在神经网络的 "大语言模型" 中 [译]

Mistral AI 团队致力于为开发者社区提供顶尖的开源模型。在 AI 领域,要实现突破,不仅要超越现有的架构和训练方法,更重要的是让社区能够利用创新模型,激发新的发明和应用。

December 25, 2023

View Article

农民的干草叉正指向我们这些富豪 [译]

虽然你可能不认识我,但我和你一样,是那 0.01% 中的一员,一个自豪且坚定的资本家。我创建或参与创建了超过 30 家公司,涉及从小型夜总会到像 Amazon.com 这样的大型企业。我是 Amazon.com 的首位非家族投资者。此后,我创立了互联网广告公司 aQuantive,并于 2007 年以 64 亿美元现金卖给了 Microsoft。我和我的朋友们还拥有一家银行。我这么说,是想告诉你,在许多方面我和你并无二致。我和你一样,对商业和资本主义有着广阔的视野。同你一样,我也因为自己的成功而获得了超乎寻常的回报,过上了其他 99.99% 美国人难以想象的生活:拥有多处房产、私人飞机等等,你肯定明白。回到 1992 年,那时我还在为家族的 Pacific Coast Feather Co. 向全国各地的零售店销售枕头,互联网还只是一个连接时伴随着刺耳声响的新鲜事物。但我很快就意识到,许多我的大型百货客户已注定要失败。我知道,一旦互联网变得更快、更可靠——那一天并不遥远——人们肯定会热衷于在线购物。于是,Caldor、Filene’s、Borders 等等,一个个告别了时代舞台。

December 24, 2023

View Article

多个 AI 智能体共同解决化学难题 [译]

“助手型”AI 智能体负责核查文献、阅读设备说明书,以及准备化学实验。

December 24, 2023

View Article

人工智能与人类合作可开辟新的竞争优势 [译]

尽管人工智能 (AI) 在工作场所逐渐取代以人为核心的优势,但这种优势是短暂的。要实现持久的竞争力,关键在于将 AI 强大的计算能力与人类的判断力相结合。Louis-David Benyayer 和 Howard Zhong 指出,企业必须整合人力与技术资源,创建既融合 AI 技术又结合人类技能的新岗位。这需要投资于技术、人才和朝向协作、多功能的文化转型。

December 24, 2023

View Article

运营 macOS 应用工作室的成本 [译]

一位罗马尼亚的独立开发者分享的经验。

December 24, 2023

View Article

如果有人在我第一次创业之前告诉我这些 [译]

20 条创业经验分享。

December 24, 2023

View Article

让我复述一遍你刚才说过的——两阶段确认:一种人性化的沟通方法 [译]

在沟通中,我发现最有效的策略之一就是用自己的话重述对方刚刚解释的内容。

December 24, 2023

View Article

借助开源大语言模型,无需联网在本机实现和游戏 NPC 自由对话 [译]

关于 GPT4、Claude 等模型,有很多相关讨论,它们非常出色,我也经常使用,但在某些情况下可能不是最佳选择。比如,在制作游戏时,如果你希望游戏中的 NPC 能够与玩家进行动态对话,通过服务器来回传递信息可能会有显著的延迟,这不仅降低游戏体验,还可能因为依赖于 OpenAI 或其他公司的服务器而带来风险(比如服务器故障导致游戏无法进行)。此外,这些模型的使用成本可能会随着玩家数量的增加而变得高昂,对于成本较低或玩家游玩次数过多的游戏来说,这并不经济。为了节约成本,你可能会尽量减少游戏中基于大语言模型的内容,因为你需要为每个 Token 支付费用,很快费用就上去了。

December 24, 2023

View Article

亲手制作 transformer:无需训练! [译]

本文是一篇综合性的调研文章,涵盖了多种提升大语言模型运行速度的方法,从改善硬件利用效率到巧妙的解码技巧应有尽有。虽然这篇文章并非面面俱到,也不是每个话题的深度解析,毕竟我不是这些领域的全部专家。但我希望你能从中找到一些有用的信息,作为深入了解你感兴趣话题的起点。

December 24, 2023

View Article

年度回顾:2023 年成为微服务的转折点 [译]

长期以来,微服务被认为是云原生服务的应用架构标准。但现在,云计算巨头如 Amazon 和 Google 开始重新思考并改造微服务的架构。

December 23, 2023

View Article

如何加速大语言模型的运行 [译]

本文是一篇综合性的调研文章,涵盖了多种提升大语言模型运行速度的方法,从改善硬件利用效率到巧妙的解码技巧应有尽有。虽然这篇文章并非面面俱到,也不是每个话题的深度解析,毕竟我不是这些领域的全部专家。但我希望你能从中找到一些有用的信息,作为深入了解你感兴趣话题的起点。

December 23, 2023

View Article

人工智能预测生活事件 [译]

通过分析居住、教育、收入、健康及工作条件的注册数据,人工智能可以高精度预测生活中的各种事件。

December 22, 2023

View Article

利用 AI 技术,MIT 研究人员发现新一类抗生素候选物 [译]

麻省理工学院研究人员应用一种名为深度学习的人工智能技术,成功发现了一系列能够杀灭导致美国每年超过 10,000 人死亡的耐药性细菌的化合物。

December 22, 2023

View Article

人工智能,2023 年文化的新霸主 [译]

2023 年的事件向我们揭示了这样一个事实:A.I. 不必非常先进就能引发巨大的波澜。

December 22, 2023

View Article

面向大语言模型的检索增强生成技术:综述 [译]

在这篇综述中,我们关注的是面向大语言模型(Large Language Model)的检索增强生成技术。这项技术通过结合检索机制,增强了大语言模型在处理复杂查询和生成更准确信息方面的能力。我们从同济大学和复旦大学的相关研究团队出发,综合分析了该领域的最新进展和未来趋势。

December 22, 2023

View Article

AppAgent: 像人类用户一样操作手机的多模态智能体 [译]

大语言模型 (LLMs) 的最新进展催生了一类能够执行复杂任务的智能代理。本文提出了一种基于大语言模型的多模态代理框架,专为智能手机应用而设计。我们的框架允许智能体通过简化的动作范围,如点击和滑动,来操作智能手机应用,仿佛它是一个人类用户。这种创新方法免除了访问系统后端的需要,使其能够适用于多种不同的应用。我们的智能体采用了一种创新的学习方法:它可以通过自我探索或观察人类的操作来学习如何导航和使用新的应用程序。通过这个过程,它建立了一个知识库,用于在不同应用中执行复杂任务。为了证明我们智能体的实用性,我们在 10 个不同的应用中进行了 50 项任务的测试,涵盖了社交媒体、电子邮件、地图、购物和高级图像编辑等领域。测试结果证明了我们的智能体在处理多种高级任务方面的高效能。

December 22, 2023

View Article

Midjourney V6:提升提示词的结构和表达能力 [译]

Midjourney 的创始人 David Holz 提出了一种新的提示方法。V6 对提示的敏感度大大提高。建议避免使用“获奖、超现实、4k、8k”等表述,而应确保请求明确。如果你希望得到更直接、更中立且更现实的输出结果,最好将 --style raw 设置为默认。(原文中直言不讳地将 4k、8k 等描述称为“无用”提示。"V6 对你的提示非常敏感。避免使用‘无用’的表述,如‘获奖、超现实、4k、8k’")

December 22, 2023

View Article

2024 年软件工程 KPIs 的问题及其解决之道 [译]

成为一名工程领导者,你不可避免地会面临一个挑战:必须提供关于团队健康、生产力和产出的度量指标。在初创公司里,这通常是 CEO 提出的要求——“我们需要一个清晰的进展衡量方式”。这个要求看似合理,毕竟工程部门也应该像销售团队一样被问责。

December 22, 2023

View Article

CEO 与他的三个秘密信封 [译]

一家陷入困境的公司聘请了一位新 CEO。在即将离职的 CEO 私下与他见面时,递给他三个编号的信封,并告诉他:“如果遇到大麻烦,就翻开这些信封。”

December 22, 2023

View Article

AI 代理中间件:不完美的临时解决方案 [译]

现有的监控、模型路由和提示管理架构尚不足以应对挑战。让我们来谈谈现在的情况。在大语言模型的操作流程中,正逐渐出现一个新概念:AI 代理中间件。

December 21, 2023

View Article

认识“Coscientist”,你的 AI 实验室伙伴 [译]

一款基于人工智能的系统成功地规划并实施了真实世界的化学实验,显示出帮助人类科学家更快、更多地发现新知识的潜力

December 21, 2023

View Article

Gemini 语言能力深度剖析 [译]

Google 最近发布的 Gemini 系列模型首次全面展示了在多种任务上能与 OpenAI 的 GPT(生成式预训练转换器)系列相匹敌的性能。本文深入探讨了 Gemini 的语言处理能力,并做出两项重要贡献。首先,我们提供了一个第三方的客观比较,分析了 OpenAI 的 GPT 与 Google 的 Gemini 模型的能力,这一比较包括可复现的代码和完全透明的结果。其次,我们深入分析了实验结果,找出了两种模型类别的优势所在。我们针对 10 个数据集进行了分析,测试了包括推理、回答知识性问题、解决数学问题、进行语言翻译、代码生成和作为遵循指令的 AI 智能体等多种语言能力。通过这项分析,我们发现 Gemini Pro 的准确度虽接近,但略低于对应的 GPT 3.5 Turbo,在我们所评估的所有任务中均是如此。我们还提供了一些导致这种次优表现的原因,包括在处理多位数字的数学推理上的不足、对多项选择题答案排序的敏感性、过于严格的内容过滤等问题。同时,我们也发现了 Gemini 在某些方面的高效表现,例如生成非英语内容以及处理更长、更复杂的推理链条。

December 21, 2023

View Article

数学队——及其他你为了进入斯坦福而做出的疯狂之举 [译]

我清晰地记得被普林斯顿大学拒绝的那一刻。那时我正在数学队的训练中,爸爸打来电话。他告诉我,提前录取通知已经到了。他没有提及信封的大小 - 大信封意味着被录取,小信封则代表被拒绝 - 我努力不去揣测他语气中的意味。我让他马上来接我。当他在回家路上想停下来加油时,我情绪失控地对他发脾气。回到家,我打开了那个小信封,似乎早就知道会是这样。我匆匆看过前几行 - 对此我们感到遗憾,申请者群体极为出色等等 - 我咒骂一声,拿起刀子猛刺进我的梳妆台。然后,我对着枕头尖叫。其实,并不是我非去普林斯顿不可,只是我渴望这一切早点结束。

December 21, 2023

View Article

构建“Mistral 7B 微调优化版”:最优秀的 7B 微调模型 [译]

自 9 月份推出以来,Mistral 7B 已成为我们向客户推荐最多的模型。今天,我们兴奋地宣布一个更加强大的版本:Mistral 7B 微调优化版。

December 21, 2023

View Article

在本地运行 Mixtral 8x7 与 LlamaIndex [译]

在 LlamaIndex,我们是开源软件的忠实支持者,因此像 Mixtral 这样开放的模型和具有灵活授权的项目正合我们心意。我们收到了不少关于如何将 Mixtral 与 LlamaIndex 结合使用的咨询,因此本文将指导你如何在本地完全独立地运行这一模型。

December 21, 2023

View Article

代码并非技术债 [译]

代码是一种资产,技术债则是指软件 _及其内部模型_ 与实际问题和我们的心理模型不相符,或者是内部接口并未能尽可能减少假设的情况。

December 21, 2023

View Article

未来属于 Rust —— LLM 使编程语言学习曲线变平 [译]

现在,得益于大语言模型(LLMs)的发展,这个陡峭学习曲线的问题已经变得容易解决了。无论是 Rust、Haskell 还是其他任何语言,借助大语言模型的帮助,现在学习起来都更加容易。事实上,如果你在学习难懂的材料时没有利用大语言模型(LLMs)的帮助,那么你的学习方式可能不是最佳的。至少这是我个人的看法。让我来解释一下。

December 21, 2023

View Article

我从未设定过目标 [译]

我们大多数人之所以大多时候不开心,是因为我们设定的目标是基于当前的自我,而不是设定目标时未来的自我。

December 21, 2023

View Article

OpenAI 首席科学家创造 ChatGPT 的同时,对 AI 安全心存忧虑 [译]

这篇文章选自《自然》杂志的年度特辑《Nature's 10》,该特辑由杂志编辑精选,聚焦科学领域的重大进展及其贡献者。

December 20, 2023

View Article

为何有科学家不用 ChatGPT?他们这样说 [译]

许多研究者发现,AI 聊天机器人在写作、编程和收集信息等方面颇有帮助。然而,还有一些人却选择远离这一风潮。

December 20, 2023

View Article

Yann LeCun 对 AI 安全论证的五大失误 [译]

Yann LeCun,著名社交媒体公司 Meta 的首席 AI 科学家,坚信人工智能(AI)本质上是安全的,认为智能属性本身不会自动导致负面后果。他认为 AI 的对齐问题(Alignment)不是需要解决的难题,而仅仅是在发展过程中对系统进行细微调整。

December 20, 2023

View Article

通用型基础模型能否超越专用调整模型?医学领域的案例研究 [译]

像 GPT-4 这样的通用型基础模型在众多领域和任务中表现出惊人的能力。但人们普遍认为,除非经过专业知识的深度训练,这些模型无法达到专家级别的性能。例如,到目前为止,大多数针对医学能力基准的探索都采用了特定领域的训练,如 BioGPT 和 Med-PaLM 的研究。我们的研究延续了之前对 GPT-4 在医学领域的专业能力进行的探索,但我们并没有对其进行特别训练。不同于仅使用简单的提示来展示模型的即插即用能力,我们系统地探索了如何通过精妙的提示设计来提升模型性能。我们发现,创新的提示方法能够激发更深入的专家级能力,并证明 GPT-4 在医学问答数据集上轻松超越了以往的最佳成绩。我们研究的提示设计方法是通用的,无需特定领域知识,省去了专家定制内容的需求。在实验设计中,我们特别注意控制过拟合现象。研究的重点是我们推出的 Medprompt,它结合了多种提示策略。Medprompt 极大地提升了 GPT-4 的性能,在 MultiMedQA 套件的九个基准数据集上均取得了最佳成绩。该方法在调用模型次数少得多的情况下,大幅超过了如 Med-PaLM 2 这类先进的专业模型。在 MedQA 数据集(USMLE 考试)上,使用 Medprompt 的 GPT-4 相比以往使用专业模型取得的最好方法,错误率降低了 27%,首次实现了超过 90% 的分数。除了医学领域,我们还展示了 Medprompt 在其他领域的泛化能力,并通过在电气工程、机器学习、哲学、会计、法律、护理和临床心理学等领域的能力考试上的应用,证明了这一方法的广泛适用性。

December 20, 2023

View Article

推测性解码:实现 Whisper 推理速度提升两倍 [译]

Sanchit Gandhi 发表了一篇关于 Whisper 模型的最新研究进展。这是一个由 Open AI 开发的先进语音转录模型,能够在多种基准测试和不同的音频环境下展示出色的性能。其最新版本,名为 large-v3,已在开源语音转录模型领域名列前茅,特别是在英语转录方面表现卓越。这个模型还具备出色的多语言性能,在 Common Voice 15 的数据集中测试了 58 种语言,其中有 42 种语言的单词错误率低于 30%。

December 20, 2023

View Article

如何选择你的人生伴侣 [译]

这里为您提供了一些建议和技巧,旨在提高大语言模型应用的精准度,并介绍了选择合适大语言模型的要点。

December 20, 2023

View Article

深入了解大语言模型运维 (LLMOps) [译]

虽然关于通过 OpenAI、Anthropic、Google 等公司的 API 调用 LLM 来构建应用的文章层出不穷,但我选择了一条不同的道路,尝试仅使用本地模型和技术来构建网页应用,尤其是那些能在浏览器中运行的技术!

December 20, 2023

View Article

构建搜索引擎,而非向量数据库(Vector DB) [译]

在过去 12 个月中,我们见证了向量数据库(Vector DB)创业公司的迅猛增长。我此刻并不打算深入探讨它们各自的设计取舍。相反,我更想探讨和解释一些关于向量数据库的常见理解——它是什么、它的功能用途,以及在解决问题时,我们应如何恰当地利用向量数据库。

December 20, 2023

View Article

2023 年回顾:聚焦 ChatGPT 时代之后的发展及 2024 年展望 [译]

大语言模型 (LLM) 运营领域如何变革,以及为何尚未见到广泛应用的生成式 AI — 但 2024 年或有所改变。

December 19, 2023

View Article

2023 年:AI 改变互联网的一年 [译]

2023 年,许多人开始学习如何与机器人沟通、创造、作弊,并进行合作。

December 19, 2023

View Article

ReST 与 ReAct 的交汇:多步推理大语言模型 (LLM) 智能体的自我进化之路 [译]

在回答复杂的自然语言问题时,往往需要通过多步推理并结合外部信息。目前已有几种系统能够结合大语言模型 (LLM) 和知识检索来应对此类问题。但这些系统存在一些失败的案例,且由于与外部知识交互的过程不可导,我们无法直接对这些系统进行端到端的训练以解决这些问题。为了克服这些挑战,我们设计了一个能够理解和操控外部知识的 ReAct 风格 LLM 智能体。我们进一步通过一种类似 ReST 的方法对该智能体进行优化,这种方法通过迭代地训练前期的行为轨迹,并利用带有 AI 反馈的逐步扩大的强化学习,实现了持续的自我提高和自我简化。从一个初步设定的大型模型出发,仅经过两次迭代,我们成功打造了一个微调过的小型模型。这个小型模型在解决复杂组合问答问题上的表现可以媲美大型模型,但其参数量却少了两个数量级。

December 19, 2023

View Article

Google 真正的“登月项目”(Moonshot) [译]

Google 的各种“登月项目” ——无论是 Waymo 无人驾驶汽车,Google Fiber 光纤网络,Nest 智能家居,Project Wing 无人机配送,Verily 生命科学以及 Project Loon 网络气球等 (这个列表还会持续扩展)——其实在很大程度上,都通常看作是一些科学实验项目。它们主要是把 Google 搜索的盈利从股东手中导向了这些创新尝试。其中,Waymo 可能是最富潜力的,但即使它能获得成功,最后的结果仍然是一种远离 Google 的使命——“整理全球信息,让人们可以随时随地获取并有效利用”——的汽车服务。

December 19, 2023

View Article

VideoPoet: 能零样本生成视频的大语言模型 [译]

近期,一系列新兴的视频生成模型引起了广泛关注,它们在很多情况下展示了令人惊叹的画质。然而,在视频生成领域,如何有效制作连贯的大范围动作仍是一大难题。目前即便是最先进的模型,要么只能生成较小的动作,要么在制作较大动作时会出现明显的不自然瑕疵。

December 19, 2023

View Article

如何成就伟大?只需持续做好事情 [译]

多年来,我们每个人都经历了不少的成就与挫败。随着我个人经历的这些成就与失败越来越多,我开始思考,哪些经历真正可以称之为“伟大”以及其背后的原因。

December 19, 2023

View Article

一个永无止境的个人项目带来的启示 [译]

今年,我领悟到,完成一个仅为自己而做的个人项目几乎是不可能的挑战。不论你的创作是什么,使用哪种方式,真正明白自己到底想要什么、并且能够把它与那些自己期望拥有的欲望区分开来,是极其困难的。如果没有外界的压力,自己设定的“截止日期”基本上是没有实际意义的。而一旦开始某个项目,随着时间的推移和不断的投入,项目往往会不断扩大、发生变化,最终演变成完全不同的形态。同时,避免项目范围不断扩大也是一件难事。

December 19, 2023

View Article

跨界思考:大语言模型中创意幽默生成的新思维探索 [译]

我们构建了一个新的框架,这个框架可以帮助我们更好地理解通用人工智能(AGI)及其早期版本的能力和表现。这个框架详细划分了 AGI 的性能、适用范围和自我控制能力的不同层次。我们希望,这个框架能够像划分自动驾驶技术等级一样,为人们提供一种通用的语言,以便比较不同的 AGI 模型,评估它们可能带来的风险,并跟踪我们在实现 AGI 这一目标道路上的每一步进展。为了建立这个框架,我们审视了 AGI 的现有定义,并从中提炼出六大原则,以构建一个实用的 AGI 分类体系。这些原则强调重视 AGI 的实际能力,而不仅仅是其背后的技术机制;它们建议我们应当分开评估 AGI 的适用范围和性能水平;并且我们不应该只着眼于最终目标,而应该明确标记出通向 AGI 的每一个阶段。基于这些思路,我们根据 AGI 的能力深度(即性能)和广度(即适用范围)提出了“AGI 等级”,并且对当前系统如何符合这个分类体系进行了思考。我们还讨论了未来评估 AGI 行为和能力的基准测试所面临的挑战。最后,我们探讨了这些 AGI 的不同层次如何与实际部署时的自主性和风险管理相结合,并强调在部署高级 AI 系统时,选择合适的人机交互方式对于确保系统的负责任和安全使用至关重要。

December 18, 2023

View Article

如何借助 Ollama 在 M1 Mac 上运行 Mistral-7B [译]

想在你的 Macbook 上尝试运行 Mistral 7B 吗?这篇教程将一步步指导你如何做到!

December 18, 2023

View Article

在命令行中运行 Mistral 模型的多种方法 [译]

目前,Mistral AI 是最引人注目的 AI 研究实验室。他们最近发布了两种功能强大的小型大语言模型,这些模型遵循 Apache 2 协议授权,还有一个更大的模型可通过他们的 API 使用。

December 18, 2023

View Article

用 RAGAs(检索增强生成评估)评估 RAG(检索增强型生成)应用 [译]

探讨如何结合传统关键词搜索与现代向量搜索来获得更相关的搜索结果

December 18, 2023

View Article

ChatGPT 插件:利用图像和跨插件请求伪造技术进行数据泄露 [译]

本文揭示了恶意网站如何控制 ChatGPT 聊天会话,并窃取会话历史的方式。

December 18, 2023

View Article

利用间接提示注入技术从 Writer.com 窃取数据 [译]

这一漏洞可能导致攻击者利用内容生成时用到的语言模型,窃取用户私密文件。尽管已经向 Writer.com 报告了这一问题,但截至目前为止,由于 Writer.com 在披露后并未将其分类为安全漏洞,因此漏洞尚未得到修复(具体详情见文末“负责任披露”部分)。

December 18, 2023

View Article

顶尖 1% 工程师的七个简易习惯 [译]

我有幸与许多卓越的工程师合作过,他们既来自像 FAANG 这样的大型公司,也来自诸如创业公司这样的小型企业。他们让我领略到了传说中的“10 倍效能”工程师 - 他们确实存在!这些工程师中的一些已经创办了自己的公司,引领了像 Vercel 这样改变我们认知互联网的开发,或者在如今的大型科技公司里领导着价值数十亿美元的项目。在与他们的合作中,我发现他们在编程时都有一些共通的习惯。

December 18, 2023

View Article

工程行业中生产力的头号绊脚石 [译]

我遇到的三大生产力障碍及解决之道 + 🎁 附赠福利:多任务处理的弊端

December 18, 2023

View Article

大语言模型在帮助医生获取信息方面效果如何?[译]

斯坦福大学的专家们对 GPT-4 在辅助医生进行简便咨询方面的安全性和准确性进行了探究。

December 17, 2023

View Article

OpenAI 生产环境最佳实践官方指南 [译]

这份指南全面介绍了如何将产品原型发布到生产环境的最佳实践。不论你是资深的机器学习工程师还是刚入门的技术爱好者,这份指南都能为你提供在实际生产环境中成功应用该平台所需的各种工具和知识。内容涵盖从如何保护 API 访问安全到如何构建能应对高流量的架构。参考这份指南,可以帮助你更顺畅、高效地部署应用程序到生产环境。

December 17, 2023

View Article

如何用计算思维看待人工智能、宇宙与万物 [译]

人类的语言、数学和逻辑,这些都是我们解读世界的工具。在当今世纪,出现了一种新的、更加强大的工具:计算。在过去近 50 年中,我有幸基于这个计算概念,建立起一座越来越高的科学技术之塔。今天我想和大家分享,这一路走来,我们发现了什么。

December 16, 2023

View Article

OpenAI 官方提示工程指南 [译]

这份指南旨在分享如何更有效地利用像如 GPT-4 这样的大语言模型(有时候也叫 GPT 模型)来获得更好的结果。介绍的方法可以相互结合,以发挥更大的作用。我们鼓励你进行实验,寻找最适合你的技巧。

December 16, 2023

View Article

探讨人工智能对经济的影响 [译]

人工智能对经济的影响将受到其技术发展和实施的速度与有效性的双重影响。我们在这里分享我们对这个日渐丰富的研究领域的理解和我们如何实时跟踪这一发展趋势。

December 15, 2023

View Article

大语言模型真的需要这么多层吗? [译]

研究表明,移除 70% 的注意力头和 20% 的前馈网络对上下文学习影响甚微,这暗示大语言模型或许训练得不够充分。

December 15, 2023

View Article

FunSearch:利用大语言模型在数学科学领域探索新奇发现 [译]

通过搜索编写在计算机代码中的“函数”,FunSearch 利用大语言模型 (LLMs) 首次在数学科学的未解之谜中取得突破

December 15, 2023

View Article

提示工程指南 [译]

发掘大语言模型 (LLMs) 的巨大潜能!🚀

December 15, 2023

View Article

提升软件工程效率的小技巧:留点悬念,让工作更流畅 [译]

4 个改变我工作效率的编程习惯

December 15, 2023

View Article

2024 年科技领域的重大创新思想 [译]

智能能源网格、语音先行的伴侣应用、可编程药品、针对儿童的 AI 工具。我们向 a16z 的超过 40 位合作伙伴征询了他们认为将在 2024 年成为创新动力的重要理念。

December 14, 2023

View Article

AI 时代的商业市场新风貌 [译]

在不断演进的市场商业模式中,每一种新兴平台都在重新定义交易的方式和地点。互联网时代,我们从传统的分类广告和布告栏转向了亚马逊(Amazon)、eBay 和克雷格列表(Craigslist)这样的网站;而移动互联网时代,则催生了 DoorDash、优步(Uber)和 Instacart 这样的应用程序。现在,生成式 AI(Generative AI)技术的兴起预示着市场将迎来又一次革新。它不仅将改变商品和服务的销售方式,更重要的是,它也将改变这些商品和服务的制造方式。

December 14, 2023

View Article

如何避免 12 大软件架构常见误区 [译]

虽然构建成功的软件架构的过程看似简单,实际上却颇具挑战。要理解 QARs,并在此基础上做出最优权衡,需要深刻的洞察力和丰富的经验,而这些往往需要通过对架构本身的不断试验和调整来积累。虽然过程本质上不复杂,但所涉及的权衡决策通常充满挑战,而且难以找到简单的解决方案。

December 14, 2023

View Article

开发者视角:项目管理的智慧 [译]

谈谈如何管理一个软件项目。

December 14, 2023

View Article

人工智能即将全面改变我们使用电脑的方式 [译]

人工智能即将全面改变我们使用电脑的方式并彻底重塑软件行业。

December 13, 2023

View Article

利用 AI 进行角色扮演:对作家和教育者来说是个重要工具 [译]

或者说,GPT-4 能有多好地模拟 1963 年的 LSD 旅程?

December 13, 2023

View Article

大语言模型 API 市场的变迁之路 [译]

随着越来越多公司加入这个领域,大语言模型 API 市场将如何发展?

December 13, 2023

View Article

人工智能辅助程序员的三种类型 [译]

像 ChatGPT 这样的大语言模型 (LLM) 能够编写引人信服的代码片段。2023 年初,这一发现在 LinkedIn 上引起了不少热议,许多人误以为这意味着不再需要经验丰富的开发人员及其专业知识、挑剔的态度和高昂的薪酬了。如今,任何一个有网络连接的人似乎都能轻而易举地让 AI 编写下一个大型社交媒体应用,用 JavaScript 编写,并融合一些区块链技术。

December 13, 2023

View Article

开发者与企业,是时候用 Gemini Pro 打造你的应用了 [译]

想了解如何将 Gemini Pro 融入你的应用或业务,请访问 ai.google.dev。

December 13, 2023

View Article

在 iPad 或 iPhone 上本机离线运行大语言模型 [译]

本教程将指导您如何在苹果设备上本地安装一个类似于 ChatGPT 的大语言模型(LLM)。

December 13, 2023

View Article

Phi-2:小语言模型的非凡实力 [译]

近几个月里,微软研究院的机器学习基础团队推出了一系列被命名为“Phi”的小型语言模型(SLMs),在众多基准测试中表现卓越。

December 12, 2023

View Article

深入探索:AI 驱动的 PDF 布局检测引擎源代码解析 [译]

上周,PDF 转 Markdown 的工具 Marker 成为 Hacker News 首页的热门话题。作为一个对机器学习(ML)充满好奇的学生,我觉得这是一个绝佳的机会,深入了解这款出色的文档 AI 工具的内部机制。

December 11, 2023

View Article

TBM 258: “只需招募有才华的人并赋予他们权力” [译]

人们常认为,一个杰出的领导者的任务就是招聘员工,并授权他们去做出色的工作。但如果你不深入了解细节,你怎么能判断他们的工作是否出色呢?因此,我确保自己深入到细节中,并且我们真正推动了产品的发展。

December 11, 2023

View Article

Mixtral 8x7B -- 混合专家模型(Mixtral of Experts) [译]

Mistral AI 团队致力于为开发者社区提供顶尖的开源模型。在 AI 领域,要实现突破,不仅要超越现有的架构和训练方法,更重要的是让社区能够利用创新模型,激发新的发明和应用。

December 11, 2023

View Article

深入解析“混合专家模型(Mixtral of Experts)” [译]

自从 Mixtral 8x7B(发布公告、模型说明)亮相以来,“混合专家模型”(Mixture of Experts,简称 MoEs)这类 Transformer 成了开放 AI 领域的焦点话题。在这篇博客中,我们将深入探讨 MoEs 的基础构架、训练方式,以及在实际应用中需要权衡的各种因素。

December 11, 2023

View Article

探索编写提示词的乐趣:蒙特卡洛方法、木偶剧和笑声的融合 [译]

内部生产力工具中所采用的各种提示技术。这些技术结合了行业与学术研究以及我们自身的小规模内部开发成果。建议你在自己的评估环境下对这些技术进行测试,并根据你的具体需求进行调整。

December 11, 2023

View Article

功能标记(Feature Flags)管理指南 [译]

在软件开发这个不断演变的领域,迅速适应、实验和高效发布功能显得至关重要。功能标记(Feature Flags),也称为功能开关,正是这种动态环境的核心。它们赋予开发者将代码部署与功能发布分离的能力,从而提高开发的灵活性,并减少推出新功能时的风险。功能标记为软件发布提供了一种受控且灵活的方法,这在持续集成/持续部署(CI/CD)的环境中尤为重要。本文将深入探讨功能标记的关键原理,并重点介绍在大型系统中实施和管理它们的有效方法。这些方法涉及运行时控制、隐私保护、性能优化和可扩展性,旨在为开发人员、项目经理和决策者提供理论与实践方面的洞见。本指南旨在提供掌握软件开发项目中功能标记的必要知识和策略。

December 11, 2023

View Article

Netflix 的技术架构解析 [译]

本文汇集了许多来自 Netflix 工程团队的博客和开源项目的研究成果。如果您在阅读中发现任何不准确之处,请不吝告知。

December 10, 2023

View Article

一些有价值的职场建议 [译]

职业生涯就像是一个漫长的旅程,最难的地方在于你的目的地是未知的,甚至没有地图来指引你如何前行。

December 10, 2023

View Article

利用客户端技术开发基于大语言模型(LLM)的 Web 应用 [译]

虽然关于通过 OpenAI、Anthropic、Google 等公司的 API 调用 LLM 来构建应用的文章层出不穷,但我选择了一条不同的道路,尝试仅使用本地模型和技术来构建网页应用,尤其是那些能在浏览器中运行的技术!

December 10, 2023

View Article

把大语言模型封装成桌面应用 [译]

最近,我一直忙于开发 Ollama,因此投入了大量时间研究如何在本地系统上运行大语言模型(大语言模型),并探索如何将它们封装进应用程序。一般而言,大部分桌面应用程序只要求用户输入 OpenAI API 密钥,或者从源代码编译 Python 项目即可集成大语言模型。尽管这些方法在理论上可行,但对于许多用户来说,它们的技术门槛仍然较高。我追求的是用户能够一键下载并立即运行的应用程序。

December 10, 2023

View Article

再现亚马逊新的人工智能生成功能:产品评论摘要 [译]

如何使用 OpenAI 大语言模型 (LLM) 在 Weaviate 向量数据库中用 Python 生成摘要,运用所谓的“生成式反馈循环”概念

December 10, 2023

View Article

什么是“专家混合模型”(Mixture-of-Experts,MoE)? [译]

“专家混合模型”是一种创新的神经网络架构设计,它在 Transformer 架构中融合了众多的专家/模型层。在这种设计中,数据流动时,每一个输入的 Token 都会被动态分配给一些专家进行处理。这种做法使得计算更高效,因为每个专家都能在其擅长的特定任务上发挥出色。

December 10, 2023

View Article

在 RAG 流程中提高检索效果:融合传统关键词与现代向量搜索的混合式搜索技术 [译]

探讨如何结合传统关键词搜索与现代向量搜索来获得更相关的搜索结果

December 9, 2023

View Article

如何理解关于 OpenAI Q* 的流言 [译]

OpenAI 还没具体说明 Q* 是什么,但已经透露了许多线索。

December 8, 2023

View Article

苹果是如何做到严格保密的? [译]

出于恐惧?我早就想分享这个故事了。

December 8, 2023

View Article

为你的生活打造 AI 旁白的指南 [译]

在本文中,我会详细介绍如何打造你专属的 AI 旁白。文章末尾,我还会分享一些实用的代码。

December 8, 2023

View Article

如何构建高质量软件:一个被忽略的课题 [译]

目前,我主要的工作是兼任部分时间的 CTO 服务。坦白说,在进行创新的同时担任这个角色对我来说颇有挑战。同时兼顾这两者非常艰难,所以我暂时放下创新者的角色,专注于规划发展路线图和招聘事宜。招聘其实是一个挑战,需要精准识别不同职位和所需资源。

December 8, 2023

View Article

针对 Claude 2.1 的长篇幅提示技巧 [译]

Claude 2.1 在处理高达 20 万 Token 的庞大上下文时,检索特定句子的能力令人瞩目。我们通过实验发现,利用精心设计的提示技巧,可以引导 Claude 更准确地回忆出相关信息。

December 7, 2023

View Article

我们是如何利用大语言模型 (LLM) 改进 GitHub Copilot 的探索之旅 [译]

深入了解我们如何使用生成式 AI 模型进行创新实验,从而拓宽 GitHub Copilot 在开发者整个生命周期中的应用。

December 7, 2023

View Article

为忙碌人士准备的大语言模型(LLM)速览 [译]

这篇博客的灵感完全来自 Andrej Karpathy 在 YouTube 上的视频“忙碌人士的大语言模型速览”。在我看来,这是对大语言模型的最精彩解释。对于更喜欢阅读而不是观看的朋友,这篇文章是你的理想之选。

December 7, 2023

View Article

12 种调整策略指南:为生产环境打造高效的 RAG 应用 [译]

如何通过这些“超参数”和调整策略优化你的检索增强生成(RAG)流程

December 7, 2023

View Article

检索增强生成(RAG):从理论到 LangChain 实践 [译]

从学术论文的理论到利用 OpenAI、Weaviate 和 LangChain 的 Python 应用实现

December 7, 2023

View Article

AI 之后软件开发领域的 3 个预测 [译]

必须采用多模型战略,新兴 AI 基础设施的发展,以及大语言模型(LLM)作为新的抽象层次。

December 6, 2023

View Article

AI 工程师的崛起 [译]

新兴技能的出现催生了一个新职称:要掌握这些技能,我们需要超越简单的命令行编程,转而开发 软件。

December 6, 2023

View Article

Gemini 介绍:我们的超级 AI 模型 [译]

让 AI 更贴近每个人的生活

December 6, 2023

View Article

谷歌如何简化代码审查流程,实现 97% 开发者满意度 [译]

很多离开谷歌的工程师表示,他们最怀念的内部工具之一是 Critique,谷歌的代码审查工具。探究谷歌的代码审查工具(Critique):AI 助力的创新与最新统计

December 6, 2023

View Article

“Emoji”一词的由来 [译]

“emoji”这个词与情绪并无直接关联。很多人误以为“emoji”一词源自“emotion”(情感),其实这只是个巧合。它实际上来自于日语中的“絵”(图片,发音 _eh_)加上“文字”(字母或字符,_mōji_)。简而言之,这个词指的是一种图画文字。尽管这个词本身与“情感”这个词在词源上并无关联,但我们使用 emoji 的方式却能深刻反映我们的自我特性以及我们如何与他人建立联系。

December 6, 2023

View Article

人工智能是伟大的均衡器 [译]

未来,个性化的 AI 助手将可以在设备上离线运行,将衍生出很多出人意料的创新

December 5, 2023

View Article

构建更佳大语言模型(LLM)应用的四大要诀 [译]

这里为您提供了一些建议和技巧,旨在提高大语言模型应用的精准度,并介绍了选择合适大语言模型的要点。

December 5, 2023

View Article

提示工程、RAGs 与微调的对比 [译]

提示工程、RAGs 与微调的对比是每位搭建基于大语言模型(LLM)应用的 AI 工程师都面临的关键选择。

December 5, 2023

View Article

RAG 与 GPT-4 的上下文窗口比较:准确性、成本和响应速度 [译]

在大语言模型应用阶段,重点是让回答变得非常具体,无论是针对数据集、用户、使用场景,还是特定的调用请求。

December 5, 2023

View Article

ChatGPT 一周年回顾:谁在使用它,用途有哪些,为什么受欢迎? [译]

仅仅一年时间,ChatGPT 已经深入科学研究的各个领域。七位科学家分享了他们关于这个聊天机器人正确与错误用法的认识与体会。

December 4, 2023

View Article

局外人/边缘人(Outsider)思维与人工智能时代 [译]

在我们的分析领域,不同背景的人才聚集一堂。这已经是众所周知的事实,以至于我们往往对此视而不见。有些人对此感到遗憾,比如会想:“如果我能早些投身于分析领域,了解得更多就好了。”也有人会调整自己的简历,试图营造一种与事实不尽相符的职业连贯性。

December 4, 2023

View Article

构建企业级大语言模型应用的秘诀:GitHub Copilot 的实践之路 [译]

GitHub Copilot 是目前最成功的大语言模型应用之一,可以帮程序员自动生成可用的代码,已经有超过一百万付费用户。GitHub Copilot 开发团队分享了构建这个产品时的经验教训。整个产品的开发历时三年,尽力了三个阶段:发现、实现和扩展。这三个阶段对于其他产品的研发也非常具有借鉴价值。

December 4, 2023

View Article

构建企业级大语言模型应用的秘诀:GitHub Copilot 的实践之路 [译]

GitHub Copilot 团队分享了如何打造一个既能满足个人用户也能满足企业用户需求的大语言模型(LLM)应用程序的心得。若你希望利用大语言模型 (LLM) 打造并扩展你的应用程序,这篇文章将是你的不二之选。

December 4, 2023

View Article

多面性:大语言模型的语言回音室 [译]

我花了许多时间仔细研究大语言模型(LLM)的输出。有一点引起了我的注意:LLM 生成的文章似乎有一种特殊的…感觉。这种感觉很难用言语描述,但在大语言模型发展的初期,你可以很明显地感觉到自己在阅读一个 AI 生成的文章。

December 4, 2023

View Article

令人难以置信!用这项新技术在仅有 4GB GPU 的设备上运行 70B 大语言模型推理 [译]

通常,大语言模型需要大量的 GPU 内存才能运行。但是,有没有可能仅用单个 GPU 来进行推理计算呢?如果可以,最少需要多少 GPU 内存呢?

December 4, 2023

View Article

智能的进化之路 [译]

AI 并非来自外星,而是我们自己的一部分。

December 3, 2023

View Article

战争与和平 (WarAgent):基于大语言模型的世界大战多智能体模拟 [译]

我们能否在历史的十字路口避免战争?这个问题一直受到个人、学者、政策制定者和组织的关注。在这项研究中,我们试图基于人工智能(AI)和大语言模型(LLMs)的最新进展来回答这个问题。我们提出 WarAgent,一个基于 LLM 的多智能体 AI 系统,用于模拟历史国际冲突中参与国家的决策及其后果,包括第一次世界大战(WWI)、第二次世界大战(WWII)和中国古代的战国时期(WSP)。通过评估模拟的有效性,我们检验了尖端 AI 系统在研究诸如国际冲突这样的复杂集体人类行为的能力及其局限性。在这些模拟中,智能体之间的新兴互动也为检验导致战争的触发因素和条件提供了新视角。我们的发现提供了基于数据和 AI 增强的洞察,可以重新定义我们解决冲突和维持和平的策略。其影响超越了历史分析,提供了一个利用 AI 理解人类历史并可能预防未来国际冲突的蓝图。

December 3, 2023

View Article

软件开发加速的秘诀:小步快跑 [译]

小步快跑,助你在软件开发中加速前行。

December 3, 2023

View Article

如工程师般探究复杂性——以 Ladybird 浏览器为例 [译]

要掌握复杂性的精髓,最佳策略往往是拆解后再重建。这正是一群志愿者,在一位前 Safari 开发者的带领下所做的事情。他们从零开始打造了一个成熟的操作系统 SerenityOS,和一个网络浏览器 Ladybird(这意味着:他们没有复用任何现有模块,比如读取 JPEG 文件的模块)。他们如同真正的工程师一般,出于_乐趣_而投入这项工作。听起来不错,但你可能会怀疑,用这种方式能构建出一个具备所有复杂功能的网络浏览器吗?这正是一个探索工程师如何面对复杂性的故事。

December 3, 2023

View Article

童话故事的策略规划:系统化的战略布局 [译]

传统的童话故事结构与我们的思维方式不谋而合,它能有效地指导我们进行战略问题分析,并制定出每个人都能明白的计划。

December 3, 2023

View Article

当 AI 无需联网,一切皆有可能 [译]

未来,个性化的 AI 助手将可以在设备上离线运行,将衍生出很多出人意料的创新

December 2, 2023

View Article

通用型基础模型是否能在医疗领域胜过专门的调优策略?一个医学案例研究 [译]

像 GPT-4 这样的通用基础模型,在众多领域和任务中展现出了惊人的能力。然而,通常人们认为,如果不进行针对特定知识领域的密集训练,这些模型无法达到专家级别的能力。例如,目前大多数在医学能力基准上的研究都依赖于特定领域的训练,就像 BioGPT 和 Med-PaLM 的尝试一样。我们的研究则是在没有特殊训练的情况下,继续探究 GPT-4 在医学挑战基准测试中的专家级能力。我们不仅仅是为了展示模型开箱即用的能力而使用简单的提示,而是系统地探索了提示工程来提高性能。我们发现,创新的提示方法可以释放出更深层次的专家能力,并且证明 GPT-4 轻松超越了医学问答数据集上之前的领先成绩。我们探索的提示工程方法是通用的,不依赖于特定的领域知识,这消除了对专家策划内容的依赖。我们的实验设计严格控制了在提示工程过程中的过拟合问题。作为研究的一个高潮,我们推出了 Medprompt,它结合了多种提示策略。Medprompt 大大提高了 GPT-4 的性能,在 MultiMedQA 套件的全部九个基准数据集上均达到了最先进的水平。这种方法使用远少于 Med-PaLM 2 等最新专家模型的模型调用次数,取得了巨大的优势。使用 Medprompt 指导下的 GPT-4,在 MedQA 数据集(USMLE 考试)上的错误率比迄今为止使用专家模型的最佳方法降低了 27%,并首次突破了 90% 的分数。超出医学领域的挑战,我们展示了 Medprompt 在其他领域的广泛适用性,通过在电气工程、机器学习、哲学、会计、法律、护理和临床心理学等多个领域的能力考试上的研究,证明了这种方法的广泛适用性。

December 2, 2023

View Article

创造技术杠杆:提升工作流程与增强产品能力 [译]

十多年前,我记下了几段笔记,标题是“建立技术杠杆”,此后我几乎把它忘在脑后。这些笔记记录的是我和 Kevin Scott 在 LinkedIn 担任 SVP 工程师期间的一次会议。那时,我们正在硅谷努力说服潜在买家收购 Digg 的过程中。直到今天早上,当我试图为这篇讨论相同主题的文章起名时,我才想起了那篇文章。

December 2, 2023

View Article

伟大的产品工程周期 [译]

目前,我主要的工作是兼任部分时间的 CTO 服务。坦白说,在进行创新的同时担任这个角色对我来说颇有挑战。同时兼顾这两者非常艰难,所以我暂时放下创新者的角色,专注于规划发展路线图和招聘事宜。招聘其实是一个挑战,需要精准识别不同职位和所需资源。

December 2, 2023

View Article

如何成功地与你的雇主建立良好关系 [译]

将工作比作恋爱是一种激动人心的体验!进入职场,我们满怀期待,寄望一切顺利。但有时,我们会发现自己只是机械地维持着职场关系,不知道如何摆脱,甚至不确定是否能够摆脱,或者摆脱后是否能找到更好的机会。也许我们放弃的正是生命中最好的机遇。或许现在的工作还不错,但我们总想知道外面是否还有更好的可能。又或者,你已经是那位幸运儿,找到了自己的理想职位。约会是令人兴奋的吗?更确切地说,它充满了迷惑。面对未来,我们该如何做出最佳选择呢?我的建议是:跟随内心。

December 2, 2023

View Article

如何为数据图表挑选更加悦目的颜色 [译]

我希望你能在选择颜色时更加自信。即使你对颜色毫无感觉,这篇文章也会尝试帮助你找到合适的颜色。我们将探讨在实际应用中常见的颜色错误以及如何避免这些错误。

December 1, 2023

View Article

每位经理必须掌握的 10 种领导艺术 [译]

本指南深入剖析了最常见的领导风格,以清晰、直接的方式分析了它们的优点与不足。您将得到一个实用且全面的概述,帮助您不仅了解这些风格本身,还能理解它们在实际情况中的应用方式。无论您已是领导,希望提升领导方法,或是初入领导岗位,这份指南都将为您提供有价值的见解,助您有效应对领导挑战。

November 30, 2023

View Article

PyTorch 加速生成式 AI 第二部分:高速 GPT [译]

本篇博客是关于使用纯 PyTorch 加速生成式 AI 模型的系列文章的第二部分,由 PyTorch 团队撰写。我们在这里分享了 PyTorch 的最新性能特性,并通过实际案例,展示了如何最大限度地提升 PyTorch 的性能。在系列的第一篇文章中,我们演示了如何仅用 PyTorch 将“Segment Anything”加速超过 8 倍。本文将聚焦于大语言模型(LLM)的优化技术。

November 30, 2023

View Article

生成式 AI 与微波炉 [译]

正如我一位同事上周晚餐时所说,现在的 GenAI 就像青少年的性行为:人人都在谈论,但没人真正懂得怎么做,大家都以为别人在做,于是每个人都声称自己在做。

November 30, 2023

View Article

如何从 ChatGPT 中提取其训练数据 [译]

我们最近发布了一篇论文,展示了如何仅花费约两百美元就能从 ChatGPT 中提取数兆字节的训练数据。语言模型如 ChatGPT,是基于从公共互联网收集的数据进行训练的。我们的研究表明,通过对模型进行查询,我们实际上能够获取它训练时使用的一些具体数据。我们估计,如果增加查询模型的投入,能够从中提取大约一千兆字节的 ChatGPT 训练数据集。

November 29, 2023

View Article

前谷歌员工眼中的开发工具指南[译]

我曾在谷歌短暂工作过,尽管时光荏苒,但那段经历让我对谷歌的内部开发工具印象深刻。谷歌的开发工具在很多方面可谓世界领先。他们不仅在扩展自己的软件系统方面走在前沿,还在大规模高效软件开发方面颇有建树。谷歌处理了代码库规模、代码发现、组织知识共享和多服务部署等问题,这些在大多数公司看来都是高难度挑战。(参考资料:[《谷歌的软件工程》](https://www.amazon.com/Software-Engineering-Google-Lessons-Programming/dp/1492082791)。)

November 29, 2023

View Article

我那价值 5 亿美元的火星探测车失误:一个失败的故事 [译]

2003 年 2 月的一个晚上,我在加州帕萨迪纳的 NASA 喷气推进实验室 (JPL) 里,一切如常。我穿上了洁净室的专用服装,通过了 179 号大楼的高湾 1 气闸室。这里自 60 年代的月球任务 Ranger 系列以来,就是 NASA 许多历史性星际航天器的诞生地。经过无数工程师、技术人员和科学家多年的辛勤劳动,距离 Spirit 火星探测车运往佛罗里达州卡纳维拉尔角发射场,与它的“兄弟”Opportunity 一同踏上旅程,只剩下两周的时间了。

November 29, 2023

View Article

历史上的一次大的因为用户界面导致的灾难 [译]

我想花点时间探讨历史上的一大用户界面灾难:1988 年 7 月 3 日,美军海军导弹巡洋舰 USS Vincennes (CG-49) 在波斯湾上空误击伊朗航空 655 号航班,机上 290 人全部遇难。

November 29, 2023

View Article

五种与你不喜欢的人高效合作的方法 [译]

工作中不仅有艰巨的任务和职业挫折这样的压力源,更具挑战的是,有时你不得不与那些你不喜欢、不合得来或让你感到烦恼的人一起工作。

November 29, 2023

View Article

如何阅读一篇学术论文 [译]

研究人员常常需要花费大量时间来阅读学术论文,但这一技能很少有教授传授,导致许多努力白费。本文提出了一个既实用又高效的方法——三遍阅读法,用于阅读学术论文,并介绍了如何利用这种方法进行文献调研。

November 28, 2023

View Article

黄仁勋领导的 Nvidia 如何推动 AI 革命 [译]

这家公司的 CEO,黄仁勋,把所有筹码压在了一种全新的芯片上。如今 Nvidia 已跻身世界最大公司之列,他的下一步会怎样?

November 28, 2023

View Article

大部分 AI 创业公司的未来不乐观 [译]

我见过不少初创公司,他们只是简单地整合几个生成式 AI API,做点提示工程,然后加个前端界面。有些产品做得挺精致,功能也不错。但这些公司大多走不远,要么就是普通公司(并非 Paul Graham 定义下的典型初创公司),要么就消失了。显然,如果你能在一个周末搭建出这样的项目,别人也能。假设你编码能力超群,是位杰出的程序员奇才!其他人或许需要花几个周末……但最终还是会有人做出类似的东西。

November 28, 2023

View Article

神啊,救救我们,让我们试着理解人工智能的“单义性” [译]

你可能听说过,人工智能就像一个“黑匣子”,神秘莫测。没有人确切知道它的运作机制。研究者们构建了一种类似神经组织的奇异结构,每当这个结构稍微朝着他们期望的人工智能方向进展一点,就给予它一些“奖励”。通过这样不断的微调,最终它成长为研究者心中理想的人工智能形态。但究竟这个过程中发生了什么,似乎只有上帝才知道。

November 27, 2023

View Article

用我的 Telegram 消息微调大语言模型:一段经验分享 [译]

对大部分认识我的人来说,我大多数时间像是一个文本处理程序。既然输入输出都这么简单,一个模型能不能取代我呢?为了实现这一点,模型不只需要模仿我的写作风格,还得对我有深入了解。而我的 Telegram 使用记录是最好的信息源,我每天都用它,它几乎记录了我所有的想法和行动。

November 27, 2023

View Article

Andrej Karpathy 大语言模型视频入门的精选阅读清单 [译]

本文介绍了 Branches,这是我们开发的一款工具,用于构建和展示先进的大语言模型(LLMs)推理和规划算法的原型。我们利用 Branches 来解决为 HumanEval 生成 Python 代码的挑战。

November 27, 2023

View Article

在你找到金矿之前,别急着建造矿井 [译]

我听过最恰当的关于创业公司的比喻是,它们就像是淘金之旅。这并非因为其中蕴含的冒险精神、团队间的情谊,或是最终等待着的财富。而是因为淘金之旅分为两个截然不同的阶段:首先,你得寻找到黄金;其次,才能建造矿井。创业公司的真正任务在于前者——Steve Blank 甚至更进一步,将创业公司定义为正处于这一阶段的公司:只有当它找到黄金(或者说,一个“可复制的商业模式”)之后,它才转变为一家普通的商业公司。

November 27, 2023

View Article

为何加入 Y Combinator 不是个好主意 [译]

YC 看似是个合理的选择。他们提供资金帮助你创业,并承诺让你接触一个能在创业过程中提供帮助的社区。作为回报,他们仅索取一小部分股权。听起来似乎还不错,不是吗?

November 27, 2023

View Article

技术写作入门 [译]

技术写作无处不在——从你新买的智能手机的使用手册,到药瓶上的安全指导,都是技术写作的体现。技术写作的最大魅力在于,它能将复杂的技术信息以清晰、简洁的方式呈现出来。

November 27, 2023

View Article

Cloudflare 作为 AI 领域的新动向:与 CEO Matthew Prince 的专访 [译]

我最近在伦敦采访了 Cloudflare 的首席执行官 Matthew Prince,我们讨论了人工智能、边缘计算和开发者体验 (DX) 等领域的最新趋势。他提到了一些颇具洞见的点——例如,他指出,由于 GPU 短缺,AI 公司现在更加倾向于多云解决方案。因为随着技术拓扑结构变得越来越复杂,AI 问题已经演变成了一个分布式计算和网络的挑战。

November 25, 2023

View Article

行动产生信息 [译]

这个问题的提法从极为正面的“谁会不想带领一个团队呢?”到极为负面的“有谁会愿意去管理一个团队呢?”应有尽有。所以我决定写篇文章,列举一些不当经理的理由。

November 25, 2023

View Article

超线性回报 [译]

在商业领域,绩效的超线性回报尤为明显。有人认为这是资本主义的弊端,认为改变规则就能改变这一现象。但实际上,绩效的超线性回报是世界的一种本质特征,而非我们人为制定规则的副产品。我们在名誉、权力、军事胜利、知识甚至对人类的贡献等方面都能观察到这一模式。在这些领域,成功者往往会越来越成功。

November 25, 2023

View Article

Q* 假设:思维树推理、过程奖励模型,以及如何大幅提升合成数据的能力 [译]

紧急专题:要弄懂 Q*,我们需要的信息其实就在我们身边,只是网络流行语更比现实生活有趣。

November 24, 2023

View Article

我使用 Claude AI 编写原创、完整、类似人类风格文章的尝试 [译]

利用像 Claude 这样的 AI 工具,你可以撰写篇幅较长的文章。通过分段撰写,你似乎能保持自己的风格和思路,同时引导 AI。但是,我的实践表明,用 AI 写作比我预期的要难。我可以做到差不多,但由于 AI 工具的训练方式,它们最终更倾向于解释而非辩论,这可能会让个人随笔失去很多趣味。

November 24, 2023

View Article

现代大语言模型应用架构 [译]

本文将介绍构建您首个大语言模型应用所需了解的一切,以及您今天就能开始探索的潜在问题领域。

November 24, 2023

View Article

苦涩的教训 [译]

只有两种模式能够随着计算能力的增加而无限扩展,那就是学习和搜索。构建 AI 系统时,不应将我们的发现内置其中,而应让 AI 系统能够像我们一样进行发现。这是 AI 领域仍需学习并克服的重要教训。

November 23, 2023

View Article

我是如何成为机器学习的实践者 [译]

我于 2005 年 10 月加入谷歌,18 年后,我递交了辞呈。上周,我结束了在谷歌的最后一段日子。

November 23, 2023

View Article

回望我在谷歌的 18 年 [译]

我于 2005 年 10 月加入谷歌,18 年后,我递交了辞呈。上周,我结束了在谷歌的最后一段日子。

November 23, 2023

View Article

语言模型中的语言代理树搜索:实现推理、行动与规划的统一 [译]

大语言模型 (LLMs) 已经在各种决策任务上取得了卓越的成绩,但它们通常只执行简单的行为,并没有真正作为自主代理得到广泛应用。我们提出了一种名为 LATS (语言代理树搜索) 的新框架,它将 LLMs 在规划、行动和推理方面的功能有效结合起来。LATS 框架的创新之处在于,它借鉴了强化学习中的蒙特卡洛树搜索技术,将 LLMs 当作代理使用,同时充当价值函数和优化器的角色,通过这种方式大幅提升决策质量。最关键的是,LATS 利用外部环境提供的反馈,实现了一种更为周全和灵活的问题解决方式,这一点超越了现有方法的限制。我们在不同领域进行的实验评估证明了 LATS 的有效性,无论是在编程、HotPotQA 还是 WebShop 任务上,LATS 都显示出了其推理和行动能力。特别值得一提的是,在 HumanEval 编程任务上,配合 GPT-4 的 LATS 达到了 94.4% 的成功率,在 WebShop 网页浏览任务上,配合 GPT-3.5 实现了平均 75.9 的得分,这些成果都突显了我们方法的高效性和广泛适用性。

November 9, 2023

View Article

通向通用人工智能的里程碑:评估进展的新框架 [译]

我们构建了一个新的框架,这个框架可以帮助我们更好地理解通用人工智能(AGI)及其早期版本的能力和表现。这个框架详细划分了 AGI 的性能、适用范围和自我控制能力的不同层次。我们希望,这个框架能够像划分自动驾驶技术等级一样,为人们提供一种通用的语言,以便比较不同的 AGI 模型,评估它们可能带来的风险,并跟踪我们在实现 AGI 这一目标道路上的每一步进展。为了建立这个框架,我们审视了 AGI 的现有定义,并从中提炼出六大原则,以构建一个实用的 AGI 分类体系。这些原则强调重视 AGI 的实际能力,而不仅仅是其背后的技术机制;它们建议我们应当分开评估 AGI 的适用范围和性能水平;并且我们不应该只着眼于最终目标,而应该明确标记出通向 AGI 的每一个阶段。基于这些思路,我们根据 AGI 的能力深度(即性能)和广度(即适用范围)提出了“AGI 等级”,并且对当前系统如何符合这个分类体系进行了思考。我们还讨论了未来评估 AGI 行为和能力的基准测试所面临的挑战。最后,我们探讨了这些 AGI 的不同层次如何与实际部署时的自主性和风险管理相结合,并强调在部署高级 AI 系统时,选择合适的人机交互方式对于确保系统的负责任和安全使用至关重要。

November 8, 2023

View Article

思维树:利用大语言模型进行深度问题解决 [译]

语言模型正日益成为处理各类任务不可或缺的工具,但它们在推理时仍旧受限于按顺序逐个标记处理信息的方式。这就导致了在需要探究、战略规划或是初步决策至关重要的任务中,它们的效果可能会打折扣。为了突破这些限制,我们提出了一个新的语言模型推理框架——“思维树”(ToT),这是对现有“思维链”提示方法的一种扩展。它让语言模型能够在连贯的文本单元(我们称之为“思维”)中进行探索,这些“思维”是解题过程中的关键中间步骤。ToT 使得语言模型能够通过权衡多种不同的推理路径和自我评估决策来做出更加深思熟虑的选择,并且能在必要时展望未来或者回顾过去,以作出最佳的全局性决策。我们的实验显示,ToT 显著提升了语言模型在三个需要复杂规划或搜索的新型任务上的解题能力:24 点游戏、创意写作和迷你填字谜。举个例子,在 24 点游戏中,尽管使用“思维链”提示的 GPT-4 只解决了 4% 的问题,而我们的方法却达到了 74% 的高成功率。

November 7, 2023

View Article

大语言模型遭受的对抗性攻击 [译]

ChatGPT 的问世极大推动了大语言模型在现实世界的应用步伐。我们(包括我在 OpenAI 的同仁们,向他们表示敬意)在模型调整过程中投入巨大努力,确保默认的安全性行为(比如,通过 RLHF)。不过,对抗性攻击或一些特定的提示可能会诱使模型产生一些意料之外的回应。

November 7, 2023

View Article

利用大语言模型开发先进的推理与规划算法 [译]

本文介绍了 Branches,这是我们开发的一款工具,用于构建和展示先进的大语言模型(LLMs)推理和规划算法的原型。我们利用 Branches 来解决为 HumanEval 生成 Python 代码的挑战。

November 7, 2023

View Article

利用 GPT 的视觉能力和 TTS API 来处理视频并添加旁白 [译]

这个笔记本演示了如何利用 GPT 的视觉能力来处理视频内容。

November 7, 2023

View Article

Assistant API 文档 [译]

Assistant API 使您能够在自己的应用中创建 AI 助理。这样的助理根据指令运作,能够结合模型、工具和知识库来解答用户的问题。目前,Assistant API 支持三种 工具:代码解释器(Code Interpreter)、信息检索(Retrieval)和函数调用(Function calling)。我们未来的计划是推出更多由 OpenAI 创建的工具,并让您能在我们的平台上使用您自己的工具。

November 6, 2023

View Article

GPTs 系列介绍 [译]

现在,您可以自己打造专属的 ChatGPT 版本,它可以结合特定指令、额外知识和各种技能。

November 6, 2023

View Article

2023 年人工智能与开源界的风云变幻 [译]

2023 年即将过去,此刻不失为回首这一年人工智能领域研究成就、产业发展以及开源社区的盛况的好时机。

November 5, 2023

View Article

EmotionPrompt:运用心理学知识通过情感激发提升大语言模型的能力[译]

在推理、语言理解以及数学问题解决等多个领域,大语言模型(LLMs)已经展现出惊人的能力,它们被认为是向人工通用智能(AGI)迈进的关键一步。但是,LLMs 对提示语的敏感性仍然是它们普及应用的一大难题。本文借鉴心理学的见解,提出了 EmotionPrompt,旨在通过加入情绪刺激来提升 LLMs 的表现。EmotionPrompt 的操作原则非常直接:就是在提示语中加入情绪因素。实验结果显示,在八个不同的任务中,EmotionPrompt 采用统一的提示模板,不仅在零次学习和少数次学习场景中都大幅度超越了传统提示和 Zero-shot-CoT,还在包括 ChatGPT、Vicuna-13b、Bloom 和 Flan-T5-large 等多种模型上都实现了这一成效。此外,EmotionPrompt 还显著提高了答案的真实度和信息量。我们相信,EmotionPrompt 为探索人与大语言模型互动的跨学科知识开辟了新的道路。

November 5, 2023

View Article

通过知识蒸馏实现的隐式思维链推理 [译]

为了让语言模型具备推理能力,研究人员通常会通过特定提示或调整模型使其在给出最终答案前,先产出一连串的推理步骤。不过,人类虽然能够用自然语言有效推理,可能对于语言模型来说,使用一些非自然语言形式的中间运算步骤,推理会更加高效。在本项研究中,我们探索了一种不同于传统的推理方式:不是直接输出每个推理步骤,而是通过语言模型内部的隐藏状态进行隐式推理。这种隐式的推理步骤,是通过对一个接受过显式思维链推理训练的教师模型进行“知识蒸馏”得来的。不同于传统的“横向”逐字输出推理过程,我们的方法是“纵向”的,在模型不同层级的隐藏状态间进行推理。通过对多位数乘法任务和小学数学问题数据集的实验,我们发现这种方法能解决那些没有显式思维链条就无法解决的问题,并且其速度与直接给出答案而不进行任何推理的速度相当。

November 5, 2023

View Article

提示工程 [译]

提示工程,也被称作情境内提示,是一种和大语言模型(LLM)沟通的策略,目的是在不更新模型底层数据的前提下,引导它按我们想要的方式行动。它是一门实验性质的科学,不同模型间提示方法的效果差别很大,所以这需要通过大量的实验和经验法则来探索。

November 5, 2023

View Article

提升 RAG 效能:如何挑选最佳的嵌入与重排模型 [译]

在打造检索增强型生成(RAG)系统时,检索器扮演着至关重要的角色。市场上有丰富的嵌入模型可供选择,诸如 OpenAI、CohereAI 和开源的句子转换器。同时,也有来自 CohereAI 和句子转换器的多种重新排列工具。但是,在这么多选择面前,我们该如何挑选出最佳组合,以达到最优的检索效能?我们该怎样判断哪种嵌入模型最契合我们的数据?或者哪一种重新排列工具能够最大限度地优化我们的成果?

November 5, 2023

View Article

长故事概要:针对长视频问答的“概括后检索”方法 [译]

GPT-3 等大语言模型展现了它们在不需要特定训练数据的情况下适应新任务的惊人能力。这一能力在诸如叙事性问题解答的场景中特别有用,那里的任务种类繁多,而可供学习的数据却相对匮乏。在这项研究中,我们探讨了这些语言模型是否能将它们的零样本推理才能延伸到多媒体内容中的长篇多模态叙事,如戏剧、电影和动画,故事在其中发挥着核心作用。我们提出了一种名为“Long Story Short”的视频叙事问答框架,它首先把视频的故事概括为简短的情节,再检索与问题相关的视频片段。我们还建议采用 CLIPCheck 来提升视觉匹配的效果。我们的模型在长视频问答方面,相较于现有的最先进监督模型取得了显著的领先,展现了零样本问答技术的巨大潜力。

November 4, 2023

View Article

可解释语言模型:探索传统与创新方法 [译]

在本文中,我们会详细介绍和评估一些语言模型的可解释性技术,其中不乏 Normal 的一些创新尝试(比如与概率机器学习相关的技术),它们都旨在提升 AI 系统的可靠性和推理能力。我们将尝试以浅显的方式介绍这些技术,同时指出在实际应用中,直觉有时候可能会带来误导。

November 4, 2023

View Article

创新输入法:引领输入技术的未来潮流 [译]

自从 ChatGPT 面世以来,生成式模型在语言处理的诸多方面取得了突破性的进展,已经成为众多自然语言处理任务的首选方法。然而,这些模型在输入技术领域的潜力还远未被完全挖掘。当前很多基于神经网络的技术已经开始应用于中文输入法引擎的构建过程中。以往研究往往默认用户输入的拼音无误,只关注拼音转汉字(P2C)的转换任务,这远远不能满足用户的实际需要。而且,这些研究也未能有效利用用户反馈来改善模型并提供更为个性化的服务。在我们的研究中,我们推出了一个创新的输入范式,名为 GeneInput。它利用提示指令来应对各种输入情境,并结合智能辅助输入功能,通过用户的实时反馈持续优化模型,为用户带来定制化的输入体验。我们的实验结果显示,GeneInput 在全键序列到字符转换(FK2C)任务上首次实现了业界领先水平。我们还开发了一种新的奖励模型训练方法,不再依赖于繁杂的手工注释,并且在智能联想和对话辅助任务中的表现甚至超越了 GPT-4。GeneInput 不仅性能优越,而且在鲁棒性、扩展性和在线学习方面也都显示出了比传统输入法更加出色的能力。

November 3, 2023

View Article

Voyager:结合大语言模型的创新虚拟智能体 [译]

让我们欢迎 Voyager 的加入——这是 Minecraft 游戏中首个以大语言模型(LLM)为核心的虚拟学习智能体。它能够不断地探索虚拟世界,自主掌握各种技能,并在没有人为介入的情况下,不断做出新的发现。Voyager 的核心由三部分组成:1) 一个自动优化探索路径的课程设计,2) 一个持续扩展的技能库,该库用可执行代码存储和调用复杂行为,3) 一种新型的迭代提示机制,通过融入环境反馈、执行错误和自我核验来不断优化程序。Voyager 通过所谓的黑箱查询与 GPT-4 进行交互,从而免去了对模型参数细微调整的需求。Voyager 所发展的技能不仅能跨越时间使用,还易于解释和组合,这显著加速了智能体的学习能力,同时有效减少了所谓的灾难性遗忘现象。从实践效果来看,Voyager 展现出了卓越的在场景中的终身学习能力,并在 Minecraft 游戏中展示了超群的技能。与以往最好的技术相比,它获得的独特物品多出了 $$3.3\times$$,旅行的距离也增加了 $$2.3\times$$,而在解锁关键的技术树里程碑方面,速度更是快了多达 $$15.3\times$$。Voyager 甚至能够在全新的 Minecraft 世界中,利用其学习的技能库,从零开始解决新的任务,而其他技术在这方面则显得力不从心。

November 3, 2023

View Article

在 CPU 上高效执行大语言模型的推理任务[译]

大语言模型(LLMs)已经在广泛的任务中展示出了令人瞩目的表现和巨大的发展潜力。然而,由于这些模型的参数量异常庞大,使得它们的部署变得相当具有挑战性,这不仅需要有足够大的内存空间,还需要有高速的内存传输带宽。在这篇文章中,我们提出了一种高效的方法,可以使得大语言模型的部署变得更为高效。我们支持自动化的仅限权重的 INT4 量化流程,并为此设计了一个特殊的、经过高度优化的大语言模型运行时环境,从而加速了在 CPU 上进行大语言模型推理的过程。我们的方法在多个流行的大语言模型,包括 Llama2、Llama 和 GPT-NeoX 上都展示出了广泛的适用性,并且在 CPU 上实现了极高的推理效率。

November 2, 2023

View Article

利用语言模型模拟观众,让人际沟通更上一层楼 [译]

一种叫做 Zero-Shot-Context 的新方法,它可以在没有任何示例的情况下,自动提高翻译的质量。我们的实验结果显示,使用这种方法,GPT-3 的翻译效果得到了明显的提升,甚至可以与有示例提示的翻译相媲美。

November 2, 2023

View Article

激发创造力:将语言模型打造成层次化策略,提升解决复杂问题的探索效率 [译]

虽然大语言模型(LLMs)已经取得了令人瞩目的进展,但它们在处理一些复杂的推理问题时还是会遇到不少困难。目前的解决方案主要是通过挖掘详细和底层的推理链条。但是,这样的方法在寻找解决方案的过程中依然受到了限制,使得正确答案在庞大的可能性中难以脱颖而出。在这项研究中,我们通过上下文学习,把大语言模型构建成一个层次化的策略,从而激发出了其在多样化问题解决策略探索上的创造性潜能。这个层次化策略包含了两个部分:一个能够提出多种高层问题解决策略作为启示的“领导者”,以及一个根据领导者给出的高层指令来执行详细问题解决过程的“执行者”。执行者会以领导者的指示为蓝本,探索多条可能的推理路径来攻克问题,并为每个领导者的建议生成一组可能的解决方案。此外,我们还提出了一种高效且有效的基于锦标赛的方法来从这些探索出来的解决方案中挑选出最终的答案。我们的方法不仅能够给出有深度和启发性的建议,还能够拓宽问题解决策略的探索范围,从而在 MATH 数据集中的一些难题上取得更高的答案准确率。

November 2, 2023

View Article

探索提示工程的多彩世界 [译]

提示工程是一门让我们能够在不改变模型本身的情况下指导大语言模型(LLM)行为的技术。随着越来越多为不同场景设计的提示的出现,我们越来越需要一套系统来帮助我们管理这些提示,以便更容易地找到、共享和优化它们。为此,我们在一个月前推出了 LangChain Hub,一个集浏览社区提示和管理个人提示于一体的平台。接下来,我们将带你了解自从该平台上线以来,我们观察到的提示工程领域的几个主要趋势,并分享一些我们认为特别有趣的案例。

November 2, 2023

View Article

脑波解码:向着实时重现视觉感知迈进 [译]

在最近五年里,生成型和基础型人工智能系统在解读大脑活动方面取得了巨大进步。特别是在视觉感知方面,现如今我们能够通过功能性磁共振成像(fMRI)技术进行高度精确的解码。但是,这种技术的时间分辨率较低(大约为 0.5 Hz),这严重限制了它在实时应用方面的能力。为了解决这一问题,我们提出了一种新的方法,即利用脑磁图(MEG)这种设备。MEG 能以极高的时间分辨率(大约为 5000 Hz)测量大脑活动。我们为此开发了一个基于 MEG 的解码模型,该模型通过对比学习和回归分析进行训练,包括三个主要部分:i) 从图像中获得的预训练嵌入,ii) 端到端训练的 MEG 模块,以及 iii) 预训练的图像生成模块。我们的实验结果显示:首先,我们的 MEG 解码器在图像检索任务上的表现比传统的线性解码器提升了 7 倍。其次,我们发现利用 DINOv2(一种新型基础图像模型)能够更好地解码大脑对图像的反应,尤其是在反应较晚的阶段。第三,通过 MEG 信号,我们主要能够提取到高级的视觉特征,而当我们将同样的方法应用到 7T fMRI 数据时,我们还能够提取到低级的视觉特征。总的来说,这些发现为我们在实时解码人脑视觉过程方面迈出了重要的一步。

November 1, 2023

View Article

从错误中学习:让大语言模型更擅长推理 [译]

近期,大语言模型(LLM)展示出在解决数学题目上的出色推理能力。为了让这种能力更上一层楼,我们提出了“从错误中学习”(LeMa)这一方法,它借鉴了人类学习过程中的机制。就像一个解题失败的学生会反思自己的错误并学会如何改正一样,LeMa 也通过这样的错误驱动学习过程对 LLM 进行了微调。我们首先从不同的 LLM 中挑选出错误的推理过程,然后使用 GPT-4 作为“纠错师”,负责识别错误的环节、解释错误发生的原因,并对错误进行改正,最终得出正确答案。实验结果表明,LeMa 的确能够提升 LLM 的性能:在五个不同的 LLM 和两个数学推理任务中,LeMa 都比单独使用 CoT 数据进行微调表现得更好。尤其值得一提的是,LeMa 甚至能够提升专业 LLM 如 WizardMath 和 MetaMath 的性能,在 GSM8K 任务上达到了 85.4% 的 pass@1 准确率,在 MATH 任务上达到了 27.1% 的准确率,这些成绩超过了这些困难任务上其他非执行开源模型所能达到的最先进水平。

November 1, 2023

View Article

利用 LoRA 高效撤销 Llama 2-Chat 70B 的安全防护训练 [译]

AI 开发人员通常会使用安全校准程序来防止 AI 系统被滥用。举个例子,在 Meta 公司推出由一系列经过详细指导调整的大语言模型组成的 Llama 2-Chat 产品之前,他们在安全培训上进行了大量的投入,包括广泛的对抗测试和基于人类反馈的强化学习。然而,当攻击者能够接触到模型的权重数据时,安全训练能在多大程度上防止模型被滥用还是一个未知数。本研究通过对 Llama 2-Chat 公开权重进行隐蔽的微调,考察了语言模型安全训练的稳固性。我们采用了一种高效的微调方法——低秩适应(LoRA)。在预算不超过 $200、仅使用一块 GPU 的情况下,我们成功地破解了 7B、13B 和 70B 三种规模的 Llama 2-Chat 模型的安全训练。具体来说,我们的微调技术大幅降低了模型拒绝执行危险指令的次数。在两项拒绝标准测试中,我们对 70B Llama 2-Chat 模型的拒绝率降到了不足 1%。我们的微调方法在保持总体性能的同时,通过与 Llama 2-Chat 在两个标准测试中的对比,验证了模型性能的保持。此外,我们还展示了一些由我们的模型生成的危险输出示例。尽管对当前模型潜在风险的范围还存在很大的不确定性,但未来的模型可能会拥有更为危险的能力,比如侵入关键基础设施、制造危险生物武器或自主复制适应新环境的能力。我们的研究表明,隐蔽微调是一种切实可行且有效的方法,因此我们认为,在进行模型权重发布的风险评估时,评价微调带来的风险应当成为核心内容。

November 1, 2023

View Article

大语言模型的“破解”研究:仅需二十次尝试 [译]

随着人们越来越关注如何让大语言模型(LLMs)与人类的价值观保持一致,人们发现这些模型很容易受到“破解”攻击的威胁,这种攻击会诱使语言模型绕开其安全保护措施。因此,识别并解决这些潜在漏洞对于防止模型被滥用至关重要。为了实现这一目标,我们提出了一种名为“提示自动迭代细化”(PAIR)的算法,这种算法能够仅通过黑盒方式与大语言模型通信,生成语义破解。PAIR 算法的设计灵感来源于社会工程攻击,它能够利用一个“攻击者”语言模型自动对另一个目标语言模型进行破解,无需人工干预。通过这种方式,攻击者模型会反复向目标模型发起查询,不断更新和精细调整破解方案。根据我们的实验证明,PAIR 在大多数情况下能够在不到二十次的查询中成功破解目标模型,效率比现有算法高出许多个数量级。此外,无论是在开源还是闭源的大语言模型上,PAIR 都展现出了极高的破解成功率和良好的迁移性能,其中就包括了 GPT-3.5/4、Vicuna 和 PaLM-2 这样的模型。

October 31, 2023

View Article

为何你不应该成为经理的 17 个理由 [译]

这个问题的提法从极为正面的“谁会不想带领一个团队呢?”到极为负面的“有谁会愿意去管理一个团队呢?”应有尽有。所以我决定写篇文章,列举一些不当经理的理由。

October 31, 2023

View Article

Musk 收购一年后,X(原 Twitter)的各项指标都在下滑 [译]

如果 Elon Musk 的目的是提升自己社交媒体主页的访问量,他完全有更经济、更简便的方法。在他用 440 亿美元收购 Twitter(近期更名为 X)快一年的时间里,我们唯一能看到的正面表现就是他个人主页 twitter.com/elonmusk/ 的访问量有所增加。

October 31, 2023

View Article

CODEFUSION:代码生成领域的创新预训练模型 [译]

试想一个只能修改他们最新写的那一行代码的程序员,他们需要反复从头开始写代码,直到写对为止——这听起来是不是很费劲?传统的自然语言转代码的自回归模型也面临着类似的困境,一旦生成了代码,就很难再回头修改。为此,我们推出了 CODEFUSION,这是一个突破性的预训练扩散代码生成模型。它能够在自然语言的引导下,反复优化整段代码,直到生成高质量的程序代码。我们在 Bash、Python 以及 Microsoft Excel 的条件格式规则转换任务上对 CODEFUSION 进行了全面测试。测试结果令人振奋:尽管 CODEFUSION 只有 75M 的参数,但它在 top-1 准确率上与最先进且参数量高达 350M–175B 的自回归系统不相上下,而在 top-3 和 top-5 准确率上更是超越对手,彰显了它在保证代码质量的同时,还能提供丰富多样的代码生成选项的卓越能力。

October 30, 2023

View Article

利用语言模型挖掘人类偏好 [译]

语言模型(LMs)能够通过标注好的示例或者自然语言的提示来指引完成特定任务。但是,找到合适的示例或者编写有效的提示可能非常具有挑战性,特别是在那些涉及到不常见的边缘情况、需要准确表达模糊偏好,或者要求对语言模型行为有精确认识的任务中。我们提出了一种思路:利用语言模型*自身*来引导任务设定的过程。

October 30, 2023

View Article

GPT-4 不懂自己哪里错了:对解决问题时迭代提示法的深入分析 [译]

大家对大语言模型(LLMs)到底能否具备推理能力一直有很大的争议。虽然一开始人们非常乐观,认为模型的规模越大,推理能力就会自然而然地显现出来,但众多反例的出现,从简单的乘法运算到计划问题,都让这种乐观心态受到了挑战。尽管如此,许多人仍然坚信大语言模型能够对自己的答案进行自我批判,并通过迭代的方式不断完善解决方案。这种信仰似乎是建立在这样一个前提上:验证一个答案的正确性应该比产生答案更为简单。这是计算复杂性领域的一个经典观点,但如果 LLMs 主要进行的是近似检索的活动,那么这个观点对它们来说应该是不相关的。

October 29, 2023

View Article

PromptAgent:借助语言模型进行策略性规划,达到专家级的提示优化 [译]

我们引入了 PromptAgent,这是一种能够独立创建出与专家亲手打造的提示同样优质的优化方法。PromptAgent 把提示优化当作一个策略规划问题来处理,并运用了一种植根于蒙特卡罗树搜索的算法,巧妙地规划并探索专家级提示的可能性。

October 27, 2023

View Article

退一步,看得更远:通过抽象引发大语言模型中的推理 [译]

我们为大家介绍了一个称为“退一步提示法(Step-Back Prompting)”的新技巧,能让语言模型通过抽象思考,从具体信息中找到核心观念和基础原理。凭借这些核心观念和原理,语言模型在逻辑推理上的表现得到了显著的提升。

October 26, 2023

View Article

深入分析 GPTs 在机器翻译中的上下文学习[译]

一种叫做 Zero-Shot-Context 的新方法,它可以在没有任何示例的情况下,自动提高翻译的质量。我们的实验结果显示,使用这种方法,GPT-3 的翻译效果得到了明显的提升,甚至可以与有示例提示的翻译相媲美。

October 25, 2023

View Article

2023 年最佳发明 [译]

改变我们生活方式的 200 项创新

October 25, 2023

View Article

如何通过“链式验证”降低大语言模型的“幻觉” [译]

大语言模型偶尔会生成看似真实但实际上是错误的信息,这种情况被称为“幻觉”。我们研究了模型如何自我纠错。我们提出了一个名为“链式验证 (CoVe)”的方法:模型首先给出初步回答,然后制定问题来核实答案,并确保每个问题的回答不受其他回答的影响,最后输出经过核实的答案。实验结果显示,这种方法有效地减少了在不同任务中产生的误导性信息。

October 16, 2023

View Article

多模态和多模态大模型 (LMM)[译]

以前,我们的机器学习模型一般都只处理一种类型的数据,比如只处理文本、图像或音频。但是,想想我们人类的大脑。我们不仅仅读写文字,还可以看图、看视频,听音乐,还能够辨识各种不同的声音。所以,为了让 AI 更接近真实世界,处理多种类型的数据显得非常重要。

October 15, 2023

View Article

AI 研究岗位的市场现状(以及我所经历的)[译]

工作岗位虽然众多,但找到真正适合自己的位置依然困难重重。

October 12, 2023

View Article

探究 10 倍效能工程师的神话与杰出工程师的真实面貌 [译]

虽然作为开发者,我们总在追求技术上的进步,但同样重要的"软技能"也不能被忽略。我读了大约 40 本这样的书,现在想和你们分享一些最有价值的经验,帮助我们在技术和管理领域更上一层楼。

October 10, 2023

View Article

帮你成为更优秀开发者的软技能书单[译]

虽然作为开发者,我们总在追求技术上的进步,但同样重要的"软技能"也不能被忽略。我读了大约 40 本这样的书,现在想和你们分享一些最有价值的经验,帮助我们在技术和管理领域更上一层楼。

October 10, 2023

View Article

小语种成功“破解”了 GPT-4 的限制[译]

AI 安全培训和大语言模型(LLMs)的红队实验是为了预防生成不安全内容。然而,我们发现,由于安全训练数据在不同语言之间的不平衡,这些安全机制在跨语言应用时存在脆弱性。我们证明,通过将危险的英语输入转换为使用率较低的语言,就可以成功规遍 GPT-4 的安全屏障。

October 6, 2023

View Article

大语言模型的类比推理能力[译]

“思维链”(CoT)提示法让语言模型在各类推理任务上表现优异,但是,这通常需要对推理过程的实例进行标记。在这个研究中,我们推出了一种新颖的提示技巧,名为“类推提示法”,旨在自动引领大语言模型进行推理。

October 3, 2023

View Article

多模态大模型(LMMs)的曙光:初探 GPT-4V(ision)[译]

多模态大模型(LMMs)不仅拥有大语言模型(LLMs)的特点,还拓宽了其多感官技能,例如视觉理解,从而实现了更强的通用智能。本文深入探索并分析了最新的 GPT-4V(ision) 模型,旨在加深我们对 LMMs 的认识。我们的分析重点是 GPT-4V 能够完成的各种有趣任务,通过一系列精心设计的测试样本,来检验 GPT-4V 能力的质量和通用性,以及它所支持的输入和工作方式,还有有效启动模型的方法。在探索 GPT-4V 的过程中,我们整理了一系列涉及多个领域和任务的定性样本。这些样本的观察结果表明,GPT-4V 能够处理任意混合的多模态输入,并且其功能的通用性使其成为一个强大的多模态通用系统。此外,GPT-4V 独特的识别输入图像上绘制的视觉标记的能力,为发展新的人机交互方式,比如视觉参考提示,提供了可能。报告最后深入讨论了基于 GPT-4V 系统的新兴应用场景和未来研究方向。我们希望这一初步的探索能够启发未来关于多模态任务制定的下一代研究,发掘和强化 LMMs 以解决现实世界问题的新方法,以及对多模态基础模型有更深的理解。

October 2, 2023

View Article

基于大语言模型的智能代理[译]

利用大语言模型(LLM)作为核心驱动的智能代理是一个极富创意的概念。有一些令人印象深刻的概念验证示例,比如 AutoGPT、GPT-Engineer 和 BabyAGI,都为我们展示了巨大的可能性。LLM 不仅可以创作流畅的文本、故事、散文和代码,更重要的是,它可以成为解决各种问题的强大工具。

July 23, 2023

View Article

高效大语言模型推理 [译]

近来,我频繁地探究如何高效地运用大语言模型 (LLM)。设想这样一个场景:你的老板对你说:“嘿,Finbarr,我们快破产了,因为我们把所有投资者的钱都花在了支持我们那个 300 亿参数、模仿 John Kenneth Galbraith 风格说唱的模型的 GPU 上。我们该怎么办?”

January 4, 2023

View Article

2024 AI 预测 [译]

既有亮点也有挑战 —— 并伴随着诸多炒作。伴随着假期的结束,我们满载热情回归,为大家带来 2024 年的最新观点!

January 4, 2023

View Article