翻译

翻译的一些我觉得不错的科技文章。

什么是 GPT？通过图形化的方式来理解 Transformer 架构 [译]

GPT 是 Generative Pre-trained Transformer 的缩写。首个单词较为直接，它们是用来生成新文本的机器人。"Pre-trained" 指的是模型经历了从大量数据中学习的过程，这个词暗示了该模型还有进一步在特定任务中进行额外训练和微调的可能。然而，最后一个词，才是真正重要的部分。Transformer 是一种特定类型的神经网络，一个机器学习模型，它是现今 AI 高速发展的核心创新。我希望通过这个视频和接下来的章节，以一种便于理解的方式，阐述 Transformer 内部实际发生的过程。我们将逐步探索流经它的数据。

April 2, 2024

什么是 GPT？通过图形化的方式来理解 Transformer 中的注意力机制 [译]

深入浅出地解释 Transformer 和大语言模型 (LLMs) 中心机制——注意力机制（Attention）。

April 2, 2024

在 AI 淘金潮中，企业究竟富得有多少？ [译]

Nvidia 和 Microsoft 只是冰山一角

April 1, 2024

GitHub 如何成为代码托管的领头羊，超越 SourceForge [译]

自高中起，我便开始编程。我还隐约记得，曾与一位朋友共同利用 TortoiseSVN 分享代码，开发了一款安卓游戏。大学期间，我学会了从 GitHub 克隆仓库以获取计算机科学作业。之后，在实习期间，我开始使用 GitHub 审核和合并合并请求（PR）。像我这样在过去十年内步入职业生涯的大多数开发者，可能都有着类似的经历——不论是参与开源项目还是公司私有团队，GitHub 都成了源代码和代码更改的代名词。

April 1, 2024

八位 Google 员工开创了现代 AI 的新纪元，揭秘他们的故事 [译]

他们因缘际会，对一项创意产生了浓厚的兴趣，并共同撰写了“Transformers”论文——这是近代史上最具里程碑意义的技术革新。

April 1, 2024

探索合成语音的挑战与机遇 [译]

我们将分享一次 Voice Engine 小型试验项目的经验教训，这是一款能够创建定制语音的模型。

March 29, 2024

吴恩达：AI 智能体工作流引领人工智能新趋势 [译]

我期待与大家分享我在 AI 智能体方面的发现，我认为这是一个令人兴奋的趋势，所有涉及 AI 开发的人都应该关注。同时，我也对所有即将介绍的"未来趋势"充满期待。

March 28, 2024

AI 与训练 AI 替代自己的工人的矛盾 [译]

随着企业引进人工智能（AI）以提升工作效率，一个不适感的矛盾出现了：员工往往需要培训那些未来可能会取代他们的系统。AI 伦理倡导者 Madison Mohns 分享了三个领导原则，旨在既拥抱技术进步，又重视同事的福祉——为构建一个人工智能能够增强人类潜力的未来而铺路。

March 26, 2024

揭秘内部：OpenAI 的 Sora 模型如何运作 [译]

在这篇博客文章中，我们将深入剖析 Sora 模型背后的一些技术细节。我们还将探讨我们对这些视频模型可能产生的影响的看法。最后，我们将讨论我们对于用于训练 Sora 等模型所需计算资源的想法，并预测了训练计算与推理相比的情况，这对于预估未来 GPU 需求具有实质的参考价值。

March 25, 2024

Sora：初体验 [译]

我们从创意界得到了极具价值的反馈，这对我们模型的完善大有裨益。

March 25, 2024

在开放世界中的通用智能体 [译]

Jim Fan 在 NVIDIA GTC 2024 上的演讲：《在开放世界中的通用智能体》

March 24, 2024

李飞飞对话英伟达首席科学家：人工智能的高速革命及其对人类的影响 [译]

如果说去年的 GTC 炉边谈话，黄仁勋与 OpenAI 首席科学家 Illya 进行的是一场对技术未来的漫谈，那今年这场炉边谈话就是李飞飞对人类未来的呼吁。

March 23, 2024

Perplexity 的创始人 Aravind Srinivas 与 Stripe 的 David Singleton 炉边谈话 [译]

这段 Perplexity 的创始人 Aravind Srinivas 与 Stripe 的 David Singleton 炉边谈话的视频非常值得一看，Perplexity 很坦诚的分享了 Perplexity 的创业历程、内部运作、招人、从其他大公司学到的经验以及未来展望等话题。

March 23, 2024

生成式 AI 的未来 [译]

我对低代码持怀疑态度。

March 22, 2024

未曾踏足的路径 [译]

目前，开发者们正经历双重的心理压力。一方面，持续不断的裁员让整个行业在较短时间内失去了更多的岗位，这种情况自二十多年前的互联网泡沫以来前所未有。那些曾经门庭若市的资深开发者现在却连一个回应都难以获得。而随着 Devin 的推出，AI 带来的威胁突然显得更加紧迫。

March 21, 2024

Sam Altman- OpenAI、GPT-5、Sora、Board Saga、Elon Musk、Ilya、Power & AGI | Lex Fridman 播客 [译]

本文是 Lex Fridman 播客的一期节选，主题是 OpenAI 的 CEO Sam Altman 与 Lex 的对话。Sam Altman 是 OpenAI 的 CEO，该公司是 GPT-4 的背后推手，ChatGPT, Sora, 也许有一天，会成为建立通用人工智能的那家公司。这是 Lex Friedman 播客。

March 19, 2024

软件开发的未来展望 [译]

当大语言模型 (LLMs) 能够创作出图像、文本和代码时，它们在创意领域引发了极大的关注。起初，这些创作令人啼笑皆非，比如画出手部奇怪的人物、产生错误的事实和代码的幻觉。然而，随着时间的推移，情况正在逐步且稳定地改善。在这些模型诞生之前，人们常常反对将这些任务自动化，认为机器无法进行创造性思维。但现在，这一论点正变得越来越站不住脚。那么，我们的下一步该往哪里走？

March 18, 2024

Nicolai 对微软 CEO Satya Nadella 的访谈 [译]

在这次独家采访中，我们有幸与微软 CEO Satya Nadella 进行对话。微软，作为全球市值最高的公司，其领导者的思维方式和对未来的见解无疑对我们所有人都有着重要的启示。Nadella 在采访中分享了他对科技行业未来、AI 的角色、以及个人成长和领导力的深刻见解。以下是这次富有启发性对话的整理稿。

March 17, 2024

创业指南 [译]

本指南特别适合初步了解初创企业领域的朋友们。对于那些已经阅读过 YC 合伙人大量著作的人来说，这里的内容可能并不陌生——我们的目标是把它们汇聚于此。

March 14, 2024

开发者们正面临前所未有的压力 [译]

March 13, 2024

WhisperKit [译]

Whisper 项目已经让我们看到了一个不远的未来：快速、免费并且几乎没有错误的翻译和转录技术无处不在。这一进步激励了许多开发者在保证最大性能的同时，以最少的阻力改进并部署这一技术。

March 12, 2024

实验性的辅助“元”提示 [译]

Claude 2.1 在处理高达 20 万 Token 的庞大上下文时，检索特定句子的能力令人瞩目。我们通过实验发现，利用精心设计的提示技巧，可以引导 Claude 更准确地回忆出相关信息。

March 11, 2024

技术细节：简单说“不是高深莫测”（单调与 bors 的历程）[译]

我去年编写了一个程序，名字叫做 bors，现在来聊聊它以及它的一些前身的故事。这篇技术分享可能会让大多数人觉得乏味至极，但如果你的饭碗是靠编程挣的，那么我建议你不妨花一点时间看看。

March 9, 2024

聊天 GPT 与语气：如何避免发出机器人的声音 [译]

许多作家借助 ChatGPT 或其它 AI 聊天机器人来调整和优化他们的文风。然而，AI 在传递微妙的情感上仍显笨拙**。一些 AI 用户已经分享了几个小技巧，这些技巧可以帮助产生更优质的文本，并解决 AI 面临的问题。** 但实际效果如何呢？我进行的研究表明，利用已有的文本并请求多种回复，可以让输出更加自然。而使用特定的语气词则效果不明显。

March 9, 2024

微服务的“死亡千刃” [译]

软件行业正在重新领悟一个老教训：复杂性是致命的

March 8, 2024

人工智能应该开放吗？ [译]

如果 OpenAI 想要通过牺牲人类免受恶意 AI 的安全，以获得更好的防止人们试图控制 AI 的安全，那么他们需要提出比我迄今为止看到的任何东西都更有力的理由，以证明后者的风险有多么严重。

March 7, 2024

谷歌的恐惧文化 [译]

深入谷歌 DEI 思维模式的内核，探究了 Gemini 失败的根源

March 7, 2024

OpenAI 和 Elon Musk [译]

我们一直致力于实现 OpenAI 的使命。OpenAI 的使命是确保全人类能从人工通用智能 (AGI) 中受益，这不仅意味着我们要构建既安全又有益的 AGI，也意味着我们要努力创造广泛分布的利益。现在，我们将分享我们如何实现这个使命的理解，以及我们与 Elon 的关系的一些事实。我们打算驳回 Elon 的所有主张。

March 6, 2024

“提示注入”与“破解”并不是一回事 [译]

我注意到很多人在讨论“破解”时误用了“提示注入”这个术语。这种误用已经变得如此普遍，以至于我怀疑我们是否还能纠正回来。语言的含义（特别是新近创造的术语）源于人们的使用习惯。尽管如此，我还是想尝试澄清这一点，因为我相信这两者之间的区别至关重要。

March 6, 2024

商业报道记者指南 [译]

本文揭示了我搜集到的关于 OpenAI 计划（经过调整）于 2027 年打造达到人类水平的通用人工智能（AGI）的信息。虽然不是所有的信息都容易证实，但希望足够的证据能够让你信服。

March 5, 2024

探索 Claude 的新纪元 [译]

在今天，我们兴奋地宣布 Claude 3 模型系列的问世，这一系列模型在多项认知任务上重设了行业的新高标准。这个家族包括了三款顶尖模型，它们按能力高低排列：Claude 3 Haiku、Claude 3 Sonnet 以及 Claude 3 Opus。每一款模型都在前者的基础上提升了性能，使得用户能够根据他们的具体需求，找到智能水平、响应速度和成本之间的完美平衡。

March 5, 2024

揭秘 OpenAI 至 2027 年打造通用人工智能的蓝图 [译]

March 4, 2024

Sora：探索大型视觉模型的前世今生、技术内核及未来趋势 [译]

Sora，一款由 OpenAI 在 2024 年 2 月推出的创新性文转视频生成式 AI 模型，能够依据文字说明，创作出既真实又富有想象力的场景视频，展现了其在模拟现实世界方面的巨大潜能。本文基于公开技术文档和逆向工程分析，全面审视了 Sora 背后的技术背景、应用场景、当前面临的挑战以及文转视频 AI 技术的未来发展方向。文章首先回顾了 Sora 的开发历程，探索了支撑这一“数字世界构建者”的关键技术。接着，我们详细探讨了 Sora 在电影制作、教育、市场营销等多个领域内的应用潜力及其可能带来的影响。文章还深入讨论了为实现 Sora 的广泛应用需克服的主要挑战，例如保证视频生成的安全性和公正性。最后，我们展望了 Sora 乃至整个视频生成模型技术未来的发展趋势，以及这些技术进步如何开创人机互动的新方式，进而提升视频创作的效率和创新性。图 1：Sora —— AI 视觉生成的重大突破。

February 29, 2024

为什么随着年龄增长，我们感觉时间似乎流逝得更快 [译]

36 岁的一年似乎比我小时候甚至十几岁的时候要短得多。这似乎是宇宙间的不公——我们的寿命更短了，而每一年过得也更快了。

February 27, 2024

谷歌 Deepmind 发布首个生成式交互环境模型 Genie [译]

我非常激动地分享 @Google DeepMind 开放创新团队的最新进展 🚀。我们推出了 Genie 🧞，这是一个从互联网视频中学习而来的创新世界模型，能够根据图像提示创造出无限种可操作的 2D 世界。

February 26, 2024

Gemini 与 Google 的文化观 [译]

Google，乃至更广泛的科技公司界，对于偏见的指控向来敏感，这种态度也延伸至图像生成领域。我理解这种在描绘假设场景时的谨慎态度。然而，很多图像反映的是真实历史。

February 26, 2024

V-JEPA：迈向 Yann LeCun 先进机器智能（AMI）愿景的新里程碑 [译]

我们人类对周遭世界的认知大多来源于观察——尤其是在生命的早期阶段。就拿牛顿的第三定律来说：甚至婴儿或是猫，在将物品从桌上推下观察其落下后，都能直观感受到“物体上抛必将下落”的道理。这种认知不需长时间的教导或阅读海量书籍就能获得。你的内部世界模型——基于对世界的心理构建的理解——帮你预测了这一切，并且极其高效。“V-JEPA 是让机器更实际理解世界、实现更广泛推理与规划能力的一大步。”Meta 的副总裁兼首席 AI 科学家 Yann LeCun 表示，他在 2022 年首次提出了 Joint Embedding Predictive Architectures（JEPA）概念。“我们旨在打造能够像人类一样学习、通过构建内部世界模型来适应和有效规划，以完成复杂任务的先进机器智能。”

February 22, 2024

Gemma：推出全新的顶尖开放模型 [译]

Gemma 承载着对负责任 AI 开发的承诺，它采用了与 Gemini 模型相同的研究成果和技术基础。

February 21, 2024

AI 像水一般普遍 [译]

水对我们而言，是生命之源、无所不在且看似毫无差异。AI，特别是生成式 AI 应用，亦复如此。

February 20, 2024

探索 Sora：视频制作的魔法 [译]

Sora 的视频质量似乎是不可能的，所以我深入研究了它的工作原理它使用了扩散（从噪声开始，细化到期望的视频）和 Transformer 架构（处理连续的视频帧）。

February 20, 2024

新手如何为演讲制作精美的幻灯片 [译]

在多年的会议演讲经历中，我发现自己喜欢设计幻灯片，为每个话题创造新的视觉主题，这不仅令人兴奋，也成为了我投入准备演讲的动力。许多人询问我关于技巧和推荐工具，因此，在这篇指南中，我想分享一些我的经验心得，并介绍**三个简单步骤**，帮助你在接下来的会议季为你的演讲幻灯片增色添彩！

February 20, 2024

视频生成模型：构建虚拟世界的模拟器 [译]

我们致力于在视频数据上开展生成模型的大规模训练。具体来说，我们针对不同时长、分辨率和宽高比的视频及图像，联合训练了基于文本条件的扩散模型。我们采用了一种 Transformer 架构，这种架构能够处理视频和图像潜在编码的时空片段。我们的最大型号模型，Sora，能生成高质量的一分钟视频。我们的研究显示，扩展视频生成模型的规模是向着创建能够模拟物理世界的通用工具迈出的有前途的一步。

February 16, 2024

Sora 的工作原理（及其意义） [译]

OpenAI 的新型文本到视频模型为电影制作开启了新篇章

February 16, 2024

大语言模型提示工程综述：技巧与应用领域 [译]

在扩展大语言模型 (LLM) 及视觉 - 语言模型 (VLM) 能力方面，提示工程已成为关键技术。它通过特定任务的指令，即提示，提升模型效能，无需更改模型核心参数。这些提示能够通过给定的指令直接引导预训练模型完成下游任务，从而实现模型行为的精确调控。这些提示既可以是指导模型的自然语言说明，也可以是激发相关知识的向量表示。提示工程作为一个新兴领域，在多种场景下展现了其强大的应用潜力，包括问答系统、常识推理等。尽管如此，这一领域的方法和技术仍缺乏系统性的整理和理解。本文通过系统性概述提示工程的最新进展，并按应用领域进行分类，旨在填补这一空白。我们对每种提示方法进行了详细总结，包括其方法论、应用案例、相关模型及数据集。同时，我们探讨了各方法的优缺点，并提供了一个包含数据集、模型及关键技术点的分类图和表格。通过这一系统性分析，我们能够更深入地理解这个快速发展的领域，并指出未来研究的方向和挑战。

February 15, 2024

AI 或许真的能助力中产阶级重塑辉煌 [译]

人工智能（AI）并不一定会夺走我们的工作。相反，它为我们提供了一个机遇，那就是将专业知识推广至更广泛的劳动者群体。

February 15, 2024

直截了当：展示给我提示符。 [译]

通过截获 API 调用，迅速掌握难以解读的大语言模型框架。

February 15, 2024

“提示工程师”：一个即将过时的职业 [译]

关于未来职业的讨论已经铺天盖地，我也曾深入探讨过从机器人管家到气候难民等多个领域。而在 AI 创造的众多工作中，最近一年多来，“提示工程师”这一职业引起了广泛关注。

February 14, 2024

如何使用 ChatGPT Api 和 Node.js 对 Youtube 视频内容进行摘要 [译]

本期，我将介绍一个教程，告诉你如何利用 Node.js 构建一个系统，该系统能够通过 Youtube 视频链接，利用 OpenAI 提供的 completions api（也就是 ChatGPT 所基于的 API）来生成视频内容的摘要。

February 14, 2024

OpenAI 的最终挑战 [译]

关于《纽约时报》与 OpenAI 版权诉讼结果的思考

February 13, 2024

关键人才是发展的瓶颈 [译]

“这家公司缺乏焦点”这句话让我感到困惑。公司不是应该通过增加员工来扩大其业务范围，进而提高专注度吗？事实上，这是有道理的：例如，谷歌有超过 100 个产品，远超任何初创公司的产品数量。但从另一个角度看，鉴于谷歌拥有约 20 万员工，100 个产品似乎又显得不足。以 Instagram 为例，它最初只有不到 13 名员工就成功推出了产品。按照这个效率，谷歌理论上应该能推出更多的产品。那么，是什么导致了这种差异？大型科技公司为什么不能推出更多的产品呢？

February 12, 2024