WhisperKit [译]
Whisper 项目已经让我们看到了一个不远的未来:快速、免费并且几乎没有错误的翻译和转录技术无处不在。这一进步激励了许多开发者在保证最大性能的同时,以最少的阻力改进并部署这一技术。
March 12, 2024
View ArticleWhisper 项目已经让我们看到了一个不远的未来:快速、免费并且几乎没有错误的翻译和转录技术无处不在。这一进步激励了许多开发者在保证最大性能的同时,以最少的阻力改进并部署这一技术。
March 12, 2024
View ArticleClaude 2.1 在处理高达 20 万 Token 的庞大上下文时,检索特定句子的能力令人瞩目。我们通过实验发现,利用精心设计的提示技巧,可以引导 Claude 更准确地回忆出相关信息。
March 11, 2024
View Article我去年编写了一个程序,名字叫做 bors,现在来聊聊它以及它的一些前身的故事。这篇技术分享可能会让大多数人觉得乏味至极,但如果你的饭碗是靠编程挣的,那么我建议你不妨花一点时间看看。
March 9, 2024
View Article许多作家借助 ChatGPT 或其它 AI 聊天机器人来调整和优化他们的文风。然而,AI 在传递微妙的情感上仍显笨拙**。一些 AI 用户已经分享了几个小技巧,这些技巧可以帮助产生更优质的文本,并解决 AI 面临的问题。** 但实际效果如何呢?我进行的研究表明,利用已有的文本并请求多种回复,可以让输出更加自然。而使用特定的语气词则效果不明显。
March 9, 2024
View Article软件行业正在重新领悟一个老教训:复杂性是致命的
March 8, 2024
View Article如果 OpenAI 想要通过牺牲人类免受恶意 AI 的安全,以获得更好的防止人们试图控制 AI 的安全,那么他们需要提出比我迄今为止看到的任何东西都更有力的理由,以证明后者的风险有多么严重。
March 7, 2024
View Article深入谷歌 DEI 思维模式的内核,探究了 Gemini 失败的根源
March 7, 2024
View Article我们一直致力于实现 OpenAI 的使命。OpenAI 的使命是确保全人类能从人工通用智能 (AGI) 中受益,这不仅意味着我们要构建既安全又有益的 AGI,也意味着我们要努力创造广泛分布的利益。现在,我们将分享我们如何实现这个使命的理解,以及我们与 Elon 的关系的一些事实。我们打算驳回 Elon 的所有主张。
March 6, 2024
View Article我注意到很多人在讨论“破解”时误用了“提示注入”这个术语。这种误用已经变得如此普遍,以至于我怀疑我们是否还能纠正回来。语言的含义(特别是新近创造的术语)源于人们的使用习惯。尽管如此,我还是想尝试澄清这一点,因为我相信这两者之间的区别至关重要。
March 6, 2024
View Article本文揭示了我搜集到的关于 OpenAI 计划(经过调整)于 2027 年打造达到人类水平的通用人工智能(AGI)的信息。虽然不是所有的信息都容易证实,但希望足够的证据能够让你信服。
March 5, 2024
View Article在今天,我们兴奋地宣布 Claude 3 模型系列的问世,这一系列模型在多项认知任务上重设了行业的新高标准。这个家族包括了三款顶尖模型,它们按能力高低排列:Claude 3 Haiku、Claude 3 Sonnet 以及 Claude 3 Opus。每一款模型都在前者的基础上提升了性能,使得用户能够根据他们的具体需求,找到智能水平、响应速度和成本之间的完美平衡。
March 5, 2024
View Article本文揭示了我搜集到的关于 OpenAI 计划(经过调整)于 2027 年打造达到人类水平的通用人工智能(AGI)的信息。虽然不是所有的信息都容易证实,但希望足够的证据能够让你信服。
March 4, 2024
View Article《大模型应用开发极简入门:基于 GPT-4 和 ChatGPT》推荐序
March 1, 2024
View ArticleSora,一款由 OpenAI 在 2024 年 2 月推出的创新性文转视频生成式 AI 模型,能够依据文字说明,创作出既真实又富有想象力的场景视频,展现了其在模拟现实世界方面的巨大潜能。本文基于公开技术文档和逆向工程分析,全面审视了 Sora 背后的技术背景、应用场景、当前面临的挑战以及文转视频 AI 技术的未来发展方向。文章首先回顾了 Sora 的开发历程,探索了支撑这一“数字世界构建者”的关键技术。接着,我们详细探讨了 Sora 在电影制作、教育、市场营销等多个领域内的应用潜力及其可能带来的影响。文章还深入讨论了为实现 Sora 的广泛应用需克服的主要挑战,例如保证视频生成的安全性和公正性。最后,我们展望了 Sora 乃至整个视频生成模型技术未来的发展趋势,以及这些技术进步如何开创人机互动的新方式,进而提升视频创作的效率和创新性。图 1:Sora —— AI 视觉生成的重大突破。
February 29, 2024
View Article36 岁的一年似乎比我小时候甚至十几岁的时候要短得多。这似乎是宇宙间的不公——我们的寿命更短了,而每一年过得也更快了。
February 27, 2024
View Article我非常激动地分享 @Google DeepMind 开放创新团队的最新进展 🚀。我们推出了 Genie 🧞,这是一个从互联网视频中学习而来的创新世界模型,能够根据图像提示创造出无限种可操作的 2D 世界。
February 26, 2024
View ArticleGoogle,乃至更广泛的科技公司界,对于偏见的指控向来敏感,这种态度也延伸至图像生成领域。我理解这种在描绘假设场景时的谨慎态度。然而,很多图像反映的是真实历史。
February 26, 2024
View Article这个来源于之前我在聊 Sora 的时候,总结了 Sora 的价值和可能的盈利方向,我把这部分内容单独摘出来再整理一下。
February 24, 2024
View Article我给年轻人做副业的建议:重点不是你要不要做副业,而是你有没有设置长远的职业目标。不需要很长远,但三五年的目标是要有的。
February 24, 2024
View ArticleSora 将如何改变我们的生活?
February 22, 2024
View Article我们人类对周遭世界的认知大多来源于观察——尤其是在生命的早期阶段。就拿牛顿的第三定律来说:甚至婴儿或是猫,在将物品从桌上推下观察其落下后,都能直观感受到“物体上抛必将下落”的道理。这种认知不需长时间的教导或阅读海量书籍就能获得。你的内部世界模型——基于对世界的心理构建的理解——帮你预测了这一切,并且极其高效。“V-JEPA 是让机器更实际理解世界、实现更广泛推理与规划能力的一大步。”Meta 的副总裁兼首席 AI 科学家 Yann LeCun 表示,他在 2022 年首次提出了 Joint Embedding Predictive Architectures(JEPA)概念。“我们旨在打造能够像人类一样学习、通过构建内部世界模型来适应和有效规划,以完成复杂任务的先进机器智能。”
February 22, 2024
View ArticleGemma 承载着对负责任 AI 开发的承诺,它采用了与 Gemini 模型相同的研究成果和技术基础。
February 21, 2024
View Article水对我们而言,是生命之源、无所不在且看似毫无差异。AI,特别是生成式 AI 应用,亦复如此。
February 20, 2024
View ArticleSora 的视频质量似乎是不可能的,所以我深入研究了它的工作原理 它使用了扩散(从噪声开始,细化到期望的视频)和 Transformer 架构(处理连续的视频帧)。
February 20, 2024
View Article在多年的会议演讲经历中,我发现自己喜欢设计幻灯片,为每个话题创造新的视觉主题,这不仅令人兴奋,也成为了我投入准备演讲的动力。许多人询问我关于技巧和推荐工具,因此,在这篇指南中,我想分享一些我的经验心得,并介绍**三个简单步骤**,帮助你在接下来的会议季为你的演讲幻灯片增色添彩!
February 20, 2024
View Article简单来说 Runway 是基于扩散模型(Diffusion Model)的,而 Sora 是基于 Diffusion Transformer。
February 17, 2024
View Article我们致力于在视频数据上开展生成模型的大规模训练。具体来说,我们针对不同时长、分辨率和宽高比的视频及图像,联合训练了基于文本条件的扩散模型。我们采用了一种 Transformer 架构,这种架构能够处理视频和图像潜在编码的时空片段。我们的最大型号模型,Sora,能生成高质量的一分钟视频。我们的研究显示,扩展视频生成模型的规模是向着创建能够模拟物理世界的通用工具迈出的有前途的一步。
February 16, 2024
View ArticleOpenAI 的新型文本到视频模型为电影制作开启了新篇章
February 16, 2024
View Article在扩展大语言模型 (LLM) 及视觉 - 语言模型 (VLM) 能力方面,提示工程已成为关键技术。它通过特定任务的指令,即提示,提升模型效能,无需更改模型核心参数。这些提示能够通过给定的指令直接引导预训练模型完成下游任务,从而实现模型行为的精确调控。这些提示既可以是指导模型的自然语言说明,也可以是激发相关知识的向量表示。提示工程作为一个新兴领域,在多种场景下展现了其强大的应用潜力,包括问答系统、常识推理等。尽管如此,这一领域的方法和技术仍缺乏系统性的整理和理解。本文通过系统性概述提示工程的最新进展,并按应用领域进行分类,旨在填补这一空白。我们对每种提示方法进行了详细总结,包括其方法论、应用案例、相关模型及数据集。同时,我们探讨了各方法的优缺点,并提供了一个包含数据集、模型及关键技术点的分类图和表格。通过这一系统性分析,我们能够更深入地理解这个快速发展的领域,并指出未来研究的方向和挑战。
February 15, 2024
View Article人工智能(AI)并不一定会夺走我们的工作。相反,它为我们提供了一个机遇,那就是将专业知识推广至更广泛的劳动者群体。
February 15, 2024
View Article通过截获 API 调用,迅速掌握难以解读的大语言模型框架。
February 15, 2024
View Article关于未来职业的讨论已经铺天盖地,我也曾深入探讨过从机器人管家到气候难民等多个领域。而在 AI 创造的众多工作中,最近一年多来,“提示工程师”这一职业引起了广泛关注。
February 14, 2024
View Article本期,我将介绍一个教程,告诉你如何利用 Node.js 构建一个系统,该系统能够通过 Youtube 视频链接,利用 OpenAI 提供的 completions api(也就是 ChatGPT 所基于的 API)来生成视频内容的摘要。
February 14, 2024
View Article关于《纽约时报》与 OpenAI 版权诉讼结果的思考
February 13, 2024
View Article“这家公司缺乏焦点”这句话让我感到困惑。公司不是应该通过增加员工来扩大其业务范围,进而提高专注度吗?事实上,这是有道理的:例如,谷歌有超过 100 个产品,远超任何初创公司的产品数量。但从另一个角度看,鉴于谷歌拥有约 20 万员工,100 个产品似乎又显得不足。以 Instagram 为例,它最初只有不到 13 名员工就成功推出了产品。按照这个效率,谷歌理论上应该能推出更多的产品。那么,是什么导致了这种差异?大型科技公司为什么不能推出更多的产品呢?
February 12, 2024
View Article我正坐在夏威夷一座 10,000 英尺的高山之巅,面前是一块 30 英尺的巨屏,同时也在奥斯汀一家咖啡馆里的桌旁。我敢说,周围的人肯定在偷拍我,然后把照片发给朋友,让他们一起笑我是个怪人。最近这一周,我的生活变得不可思议。我的奇幻之旅始于 30 年前的 1990 年,那时候我的父母带我去波士顿的海港世界贸易中心参观一场名为“虚拟现实展”的活动。我站在一个小圆台上,工作人员给了我一个塑料枪,又戴上了一个笨重的头盔。瞬间,我仿佛穿越到了一个卡通世界,穿着军装,手里拿着真枪。台旁的另一个人也以卡通形象出现,同样手持枪械。在一阵笨拙的挥舞和射击后,我被工作人员请出,为下一个人让出位置。
February 12, 2024
View Article我一直在网站服务和移动应用开发领域工作,但这最终变得有些单调。回想起高中时代,我曾是焊接俱乐部的一员,那时起我就有种想挑战更高难度问题的渴望。两年前,我开始在阿姆斯特丹寻觅机遇,最终加入了 Monumental。如今,我在这里致力于利用机器人技术自动化建筑施工,首先从砖石工作开始。当系统顺利运行,亲眼见证一堵墙慢慢建成时,那份成就感是难以言喻的。相比之下,看到别人忙于加密货币或金融科技的项目时,我总感觉如果我去做那些事情,肯定会感到极度无聊。
February 12, 2024
View Article事实证明,木工的精髓与软件工程并无太大差异:在软件工程中最美妙的时刻莫过于构建你自己的工具,这是一种充满目的的工作。
February 12, 2024
View Article谷歌通过分析用户与搜索结果页面的互动数据——例如点击某个结果、返回再点击其他结果——来优化其搜索结果的排名。多年来,这种方法帮助谷歌在搜索相关性上保持领先,因为相比其他搜索引擎,谷歌拥有更丰富的用户互动数据。但在 2018 年末,谷歌工程师们意识到,随着语言模型的发展,它们最终能够仅凭网页的文本内容,而无需任何用户反馈,就理解网页的含义。这一发现表明,即使是一个小型的创业公司也有可能挑战谷歌在搜索领域 20 年的领先优势。谷歌资深软件工程师 Eric Lehman 在观察到谷歌的 BERT 语言模型在处理搜索结果页面上的“网页答案”时取得的初步成果后,写了一封电子邮件,警告 AI 技术可能对公司构成重大威胁。
February 12, 2024
View Article我们真的有学过如何进行良好的交谈吗?事实上,并没有。似乎人们总期望我们能自然地学会这门技艺...难怪很多人的沟通技巧并不尽如人意。如何才能成为那种人们乐于交谈的人呢?为了回答这个问题,我整理了大量的研究和专家访谈,让我们一起把这些知识转化为实际可行的技巧。
February 11, 2024
View ArticlePrompt of "Tutor Me" GPT
February 7, 2024
View ArticlePrompt of "Scholar GPT" GPT
February 7, 2024
View Article一个有意思的 80 年代调试磁带驱动器故障的小故事
February 6, 2024
View Article我将教你成为一位超级谈判高手。(或者至少成为一个有些古怪但能力出众的亿万富翁谈判家,听起来是不是有点酷?)认真说,这篇文章将深入讲解整个谈判流程,并且详细讨论如何成功谈判工作报价的最后四条规则。
February 6, 2024
View Article这篇文章是我们论文《构建你自己的产品副驾驶(Copilot):挑战、机遇与需求》的非正式总结。
February 6, 2024
View Article通过检索增强的语言模型,我们能更灵活地跟上世界的变化,并融入更广泛的知识。但现有的大多数方法只能从资料库中取得短小连贯的文本片段,这限制了对文档整体情境的深入了解。我们提出了一个创新的做法:通过递归地嵌入、分类和概括文本块,我们从底层向上构建了一个分层总结的树状结构。在进行推理时,RAPTOR 模型能够从这棵树中检索信息,使我们能够在不同层次上整合长篇文档的信息。通过控制实验,我们发现,相比传统的检索增强语言模型,在多个任务上采用递归概括检索的方法显著提高了性能。特别是在需要复杂多步推理的问答任务上,我们的方法取得了前所未有的效果。举个例子,结合 RAPTOR 的检索能力和 GPT-4 的强大计算,我们在 QuALITY 问答基准测试上实现了 20% 的准确率提升。
February 5, 2024
View Article如何克服检索增强生成中的关键难题
February 4, 2024
View ArticleChatGPT 正在逐步改变我们熟悉的工作模式。无论是协助小企业处理行政工作,还是为网页开发者编写 React(React)组件,它的实用性不言而喻。在 interviewing.io,我们对 ChatGPT 如何改变技术面试的方式进行了深入思考。一个关键问题是:ChatGPT 会不会让面试作弊变得更加容易?想要了解答案,不妨看看这段 45 秒的视频。视频里,一位工程师利用 ChatGPT 精准回答了面试官的问题。
February 1, 2024
View Article2023 年第四季度财报电话会议
February 1, 2024
View Article我们将深入了解构建企业级 RAG (Retrieval-Augmented Generation) 系统的复杂世界。网络上虽然不乏关于简易 RAG 系统的文章,但要构建一个坚固的企业级解决方案,过程却充满未知。许多开发者甚至不知道构建 RAG 系统时最关键的决策是什么...这篇博客不只是理论探讨,更是一个实践指南,旨在助您一臂之力!我们将从保障安全的关键措施到查询重写如何影响用户体验,提供实用的洞见和实际案例。无论您是资深开发者还是技术领袖,都请准备好深入探索先进的企业级 RAG 系统的世界!
February 1, 2024
View Article