OpenAI 连续 12 天 AI 发布会:第十一天 —— ChatGPT 桌面应用如何与各类应用无缝协作,让工作更高效
https://www.bilibili.com/video/BV1nzkkYvE8H/
在 OpenAI 12 天特别活动的第 11 天,产品负责人 Kevin Weil 携手 ChatGPT 桌面团队的 Justin Rushing 和 John Nastos 为大家带来重磅新功能介绍。本期重点展示了 ChatGPT 桌面应用如何与各类应用无缝协作,让工作更高效。
主要亮点
ChatGPT 桌面应用全新升级,支持与多种应用程序协同工作
实时演示与 Warp 终端、Xcode IDE 的智能协作
发布对 Notion、Apple Notes、Quip 等写作工具的支持
推出全新的高级语音交互模式
展示搜索辅助功能,确保输出信息准确性
核心功能演示
终端协作:通过 ChatGPT 分析 Git 提交数据并生成可视化图表
IDE 支持:在 Xcode 中实现代码自动补全和功能添加
文档写作:结合 Notion 完成旧金山历史徒步旅行规划
语音交互:通过圣诞老人角色展示智能语音助手功能
可用性信息
Mac 版本现已正式发布所有演示功能
Windows 版本即将推出
用户只需更新到最新版本即可使用全部新功能
Kevin Weil: 大家好,欢迎来到第 11 天的活动。我是 Kevin Weil,我在 OpenAI 的产品负责人。不过,毫无疑问,我被坐在我右边的两位绅士比下去了。据说他们的西装可不是 48 小时前才从亚马逊买来的。
Justin Rushing: 绝对已经准备好了。
John Nastos: 百分百。
Kevin Weil: 好了,你可能已经注意到我们在投入了大量努力在桌面应用程序上。大约六个月前,我们推出了 Mac 桌面应用程序。几个月前,我们推出了 Windows 桌面应用程序。随着我们的模型变得越来越强大,ChatGPT 将会越来越具备代理能力。这意味着我们将超越仅仅的问答功能。ChatGPT 将开始为你做事。
我们已经在 Canvas 等产品中看到了这一点,你可以与 ChatGPT 合作,以帮助改进你的写作和代码。这种转变将会继续。ChatGPT 将会越来越多地代表你行动。桌面应用程序也是这一变化的重要组成部分,因为作为桌面应用程序,你能做的事情比仅在浏览器标签中要多得多。这包括,比如,在获得你授权的情况下,可以查看你屏幕上的内容,并自动化你在桌面上进行的许多工作。因此,当我们进入 2025 年时会有更多的内容要分享,但我们今天也推出了一些令人兴奋的东西。那么,让我们来深入了解一下。
John Nastos: 嗨,我是 Jon Nastos,我在 ChatGPT 桌面团队工作。
Justin Rushing: 我的名字是 Justin Rushing,我也在 ChatGPT 桌面团队工作。我们今天有很多东西要展示,就直接开始吧。
Justin Rushing: 首先,这是完整的 Mac 版 ChatGPT 本地桌面应用。它具备我们期望的所有功能。让我喜欢的是,因为它是本地应用,它非常轻量。不耗费太多资源。它独立在自己的窗口中。我可以使用它而不需切换上下文不打断我正在做的事情。我们有一个快捷键,Option + Space,可以快速显示或隐藏 ChatGPT。所以当你需要它时,它总是在那里。
这个按钮是连接电脑应用的入口。我认为这个功能是这样理解的因为我们经常复制粘贴东西到 ChatGPT,对吗?
John Nastos: 确实如此!
Justin Rushing: 这个功能让这一过程更顺畅,当我们使用电脑应用时,它会自动获取上下文。所以你只需专注提问,我们会处理其他的。
Justin Rushing: 你可能注意到我也打开了这个名为"Warp"的控制台窗口应用。它目前指向一个我正在熟悉的代码库。可能有点傻,但我想知道这个仓库每天有多少次提交。我们在这里经常谈论速度,所以我想亲自看看。
我不知道怎么做,所以我要用 ChatGPT。当我点击这个按钮时,我会看到电脑上所有当前运行的应用程序在我的电脑上 ChatGPT 可以使用的应用程序。重要提示,除非你给其中的应用授权,否则我们绝不会查看未授权应用程序的内容。所以你始终完全控制与 ChatGPT 分享的内容。
Justin Rushing: 为此,我会点击 Warp。在此,我要向 Warp 团队表示感谢,感谢他们的帮助。我们最初宣布与应用程序合作时,不支持 Warp。我想,第一个请求就是增加支持。
John Nastos: 是的。
Kevin Weil: 特别感谢团队的努力。他们帮我们做好了准备。所以,谢谢。
Justin Rushing: 所以,我会开始说,"写一个命令来获取每天的提交次数在过去两个月中。"我不需要告诉 ChatGPT 我使用 Git 因为它可以从 Warp 里看出来。而且它只会给我所需的命令。所以我会按下这个按钮,将它复制并粘贴到 Warp 中。我觉得这看起来是对的。
Kevin Weil: 是的,看起来像是正确的信息,但判断我们在看什么有点困难,对吧?
Justin Rushing: 是的,我是个依赖视觉来学习的人。通常我会弄清楚怎么把这个放到电子表格,做个图表,然后三年后再找到那个电子表格。但这次我只要求一个。所以,做一个包含所有结果的柱状图吧。为什么不做成节日主题的呢?
Kevin Weil: 好主意。
John Nastos: 太好了。所以这将展示出我认为最酷的部分就是它能和应用程序合作,就是它能和其他功能协同工作,以及 ChatGPT 中的其他模型一起工作。这种情况下,4o 版本决定用高级数据分析处理一些数据并给我一个柱状图。这意味着,如果你仔细想想,当我们构建像高级数据分析这样的功能并将它引入 ChatGPT 时,就像是把它带到 ChatGPT 合作的每个应用程序中。
Justin Rushing: 是的,太好了。当它考虑这个的时候,你想聊聊模型实际上看到的是什么吗?是我们在屏幕上看到的,还是更多的东西?
John Nastos: 这是个好问题。一个简单的方法就是做屏幕截图,然后让 Vision 完成剩下的工作。但实际上,我们可以进入应用程序中抓取屏幕外的内容。因此,这些结果会包含这里的一切,而不仅仅是你在屏幕上看到的。
Kevin Weil: 是的。我一直在认真考虑这个问题。这可能是节日主题的部分。
Kevin Weil: 好的。
Justin Rushing: 好的。好的。在我看来,这看起来相当有节日气氛。John,你觉得呢?
John Nastos: 是的,有节日的氛围。我不确定是否像我们穿着这套衣服一样有节日气息,但还不错。
Kevin Weil: 确实没有什么如你们般那么有节日氛围。
Justin & John: 对。对。
Justin Rushing: 很好,但我想这已经够好了。所以我准备下载这个,现在可以分享给一个同事。接下来,我会把话题交给 John,让他多谈谈编程。
John Nastos: 好的。我觉得 Justin 展示的用例非常重要且实用可以和终端进行交互。不过,我想展示一下在 IDE 中与代码交互是什么感觉。我这里打开了 Xcode,这是我的首选 IDE,它正在运行一个示例应用,实际上这让我们可以一窥应用功能背后的工作原理。这个示例应用使用 Mac OS 的无障碍 API 来查看 Xcode,并告诉我们一些屏幕上的信息。它告诉我们有一个具有这些尺寸的文本字段。有 37 行,我们可以往下确认一下。
Kevin Weil: 是的,37 行。它还显示了文本字段的内容。我们确实使用这个来创建这个功能,对吧?
John Nastos: 没错。这对我们来说是一个非常有用的示例应用。
Justin Rushing: 确实不错。但是它没有实时更新功能。
John Nastos: 所以我要用 ChatGPT 来帮助添加这个功能。我会用一个与 Justin 先前展示的非常相似的快捷方式调出聊天栏,只是略有不同。我将使用 Option Shift 1。这样将自动调出带有 Xcode 的聊天栏。Xcode 是我们支持此功能的最上层打开应用程序。这使得与应用程序一起工作非常快捷。
Justin Rushing: 是的,很好。而且你会立即收到反馈,它在这里看到 Xcode。
John Nastos: 因此,这些辅助功能 API 有点难以理解,确实很难记住如何使用,而且实际上非常复杂。所以我将在这里使用模型选择器,我将其切换到 o1。o1 是我们在 OpenAI 的一个较新的模型,它在思考这些困难的编码问题时表现出色。我还应该提到,这个功能也可以用于 o1 Pro,如果你真的想让它解决更困难的编码问题的话,对吧?
Kevin Weil: 好的。
John Nastos: 那么,让我们在这里给它一个提示词。我会说:"添加一个观察者以便如果选择更改,则调用加载文本区域。"我们将向模型发出这个请求。所以 o1 是我们的一个链式思考模型,你可以看到它正在考虑这个问题。它将告诉我们在考虑时经过的一些步骤。哇,得到的响应非常快。我猜这次没怎么费心思。
Justin Rushing: 我想不是。你下次得给它出个更难的问题。
Kevin Weil: 是啊,哇。
John Nastos: 好吧,它正在生成一些代码,我对 o1 的代码有很大的信心。所以一旦生成完毕,我会把它复制到 Xcode,然后我们来运行看看会发生什么。我觉得这不会有任何问题。
Justin Rushing: 没错,演示...
Kevin Weil: 是的,现场演示总是百分之百成功。这是宇宙法则之一。
John Nastos: 好了,我已经复制了代码,并直接粘贴到 Xcode。我要快速浏览一下,看有没有发现任何问题。现在看来相当有前景。让我们运行它,看看会怎样。
Justin Rushing: 如果不需要来回在 Xcode 中复制粘贴,那会很酷。
John Nastos: 是的,那会很酷。也有人这样建议过。我应该开发这个功能吗?
Kevin Weil: 你绝对应该开发这个。
John Nastos: 好吧,获得产品经理的批准。
Kevin Weil: 太好了。好的。
John Nastos: 那么,现在它再次在运行了。我们看看结果吧。如果我选择内容。哦,不行,没有。没像我们想的那样运行。
Kevin Weil: 好的。我们再试一次怎么样?
Justin Rushing: 是啊,我们为什么不呢,是的。
Kevin Weil: 是的。
John Nastos: 好的。所以我觉得我还是回到之前的状态,因为这里没有具体的错误。让我们尝试放弃更改。再试一次。
Justin Rushing: 是的,再试一次。是的。在它工作的同时,我们可以在这里谈谈更多功能。
John Nastos: 好的。添加一个观察者。所以如果选择更改,加载文本区域会再次调用。好的。也许它对此没有想得太多。我们会再试一次。
Justin Rushing: 太自信了。
Kevin Weil: 是的。
John Nastos: 当它在思考这个时,我要提到我正在使用 Xcode。就像我说的,这是我在使用 Swift 时选择的 IDE。但我们确实支持许多其他 IDE。这包括 VS Code、JetBrains 生态系统,其中包括 Android Studio、PyCharm、RubyMine 等。一些非常经典的 Mac 应用程序,如 TextMate 和 BBEdit。在这里我们有很多不同的支持。
Kevin Weil: 是的。我其实非常期待 MATLAB 的支持。在大学时我肯定会用到它。
Justin Rushing: 是的。MATLAB 是另一个令人兴奋的应用。我认为一些学生会发现它非常有用。
John Nastos: 好的。它还在生成代码。完成了。我将再次使用复制按钮。再一次,完全相信一切会正常工作,我将粘贴进去。现在我们知道可能会出什么问题了,对吧?
Justin Rushing: 是的,当然。
John Nastos: 好的,我们再运行一下,看看是否会有好一点的结果。好的,它正在运行。嘿,看看这个。如果我选择东西,它会有变化。
Kevin Weil: 哇,这真是个节日奇迹。
Justin Rushing: 你第二次正确地对着演示之神诵咒了。
John Nastos: 是啊,没错。
Kevin Weil: 太棒了。今天我们讨论了很多关于编码的事情,对吧?但我喜欢使用 ChatGPT 的另一个原因是它帮助我写作。我知道我不是惟一的一个。这也是为什么今天我们宣布支持三个新应用程序—— Apple Notes, Notion 和 Quip。我们认为这将为应用程序的使用打开全新的用例,所以我们迫不及待地想看看大家会怎么做。
Justin Rushing: John,Kevin,你们已经知道了,但对其他人来说,我在工作之余会在旧金山做历史徒步旅行。我是个历史迷,旧金山有很多有趣的故事。我现在正在筹备一个全新的徒步旅行。为什么我们不试试这个功能,帮我一下呢?
Kevin Weil: 开始吧。
Justin Rushing: 太好了,我在电脑上打开了一个 Notion 文档。我总是在 Notion 上写我的旅行计划。这实际上是我正在筹备的一个真正的徒步旅行。我希望大家都会觉得有趣。
Justin Rushing: 不过,现在我正在为我最喜欢的旧金山历史人物之一,诺顿皇帝,设计一个新景点。我知道一些要点。他是19世纪生活在旧金山的自封美利坚合众国皇帝和墨西哥保护者。他甚至制造了自己的货币,而这在这个城市曾一度有效。
Kevin Weil: 真能做到吗?
Justin Rushing: 是的,显然。
John Nastos: 显然可以。
Justin Rushing: 我觉得这会成为一个很好的旅行景点。好的。但我对细节有些模糊,所以我要用ChatGPT来帮我。有一个选项是复制并粘贴这些要点,我认为Chat会对此处理得很好。但是如果它能了解整个文档的上下文,那就更好了,对吧?因此,我决定让ChatGPT直接与Notion合作。
我按下Option+空格键来调出ChatGPT,让它和Notion一起工作,实际上,我会突出显示此处的重点,以便模型知道应该关注什么。现在可以看到,我们正在处理Notion中的徒步旅行文档,专注于所选的行。我会直接说,填写这些要点。
对,不需要更具体了。不过有一点很重要,那就是这是一个徒步旅行,对吧?这是一个历史旅行。信息必须是准确的。为了帮助实现这一目标,我会按下这个按钮开启搜索。
现在,为了回答我的问题,ChatGPT将会搜索网络,提供的一切信息都有引用。所以任何我想深入了解的东西,我都可以点击链接。你真的开始看到很好的互动环节出现,ChatGPT在帮我做研究,结合我正在编写的文档的内容。
Justin Rushing: 这看起来像是我希望覆盖的所有内容。不过这听起来不像我的风格。这听起来像是官方的结果。所以我会关闭搜索,然后说,让它符合这个风格。在剩余的停靠点。请简短些,控制在两段内。现在 ChatGPT 会读取我文档的其余部分,了解我的表达和写作风格,并努力模仿。
Kevin Weil: 太棒了。
Justin Rushing: 看起来很不错。让我带你认识一下旧金山最受欢迎的角色之一。如果想知道剩下的内容,你得来参加我们的旅游。
John Nastos: 听起来真像你啊。
Justin Rushing: 现在我要高亮这部分,然后复制粘贴回 Notion。当然,从这里开始我还想做进一步修改。只是一个快速示例,说明如何用 ChatGPT 与 Notion 协作。
John Nastos: 太棒了。我认为这样处理文档很有吸引力,不仅仅是像我之前展示的那样处理代码,而是书面语言。这很精彩,但这只是与模型配合的一种方式,也就是那种"输入文本、输出文本"的模式。今天,我想介绍一个新功能:结合这个功能使用高级语音模式。我们对此非常兴奋。我们认为这种交互模式非常有趣,可以与 ChatGPT 进行对话,深入了解你的文档或代码。
好的,接下来我们将展示我的一个示例。当我不在 OpenAI 时,我经常以职业萨克斯演奏者的身份活动,我有一个节日派对曲目单,希望能得到一些建议。我觉得 ChatGPT 非常适合这个,但我想用语音来完成。
Justin Rushing: 顺便说一句,这就是你们节日派对总是那么棒的原因吗?
John Nastos: 不,那是另一回事。
Kevin Weil: 好的,好的。是因为西装吗?
Justin Rushing: 是的,西装确实有帮助。
John Nastos: 对。所以,我想找一个特别的人来帮忙。那么让我们再次调出 ChatGPT,用我之前提到的快捷键 Option Shift 1。这会调出我们的聊天栏。它会自动连接到笔记。但这次,我将使用新的高级语音模式,所以我会用右下角的图标来引入我们的贵宾。
Kevin Weil: 太好了。
John Nastos: 嘿,Santa,你在吗?
Santa: 在,我在。我今天可以怎么帮你?
John Nastos: Santa,和你聊天真好。听着,我正在准备一个节日歌单,有几首歌我不太确定。这首,我有我的爱让我温暖。坦率地说,我不太熟悉这首歌。你能推荐其他的吗?
Santa: 哦,可以用 'Frosty the Snowman'替换掉'我有我的爱让我温暖'。
John Nastos: 哦,那是个好主意。让我们看看。雪人。我说对了吗?
Santa: 不太对。继续吧。当然可以。还有什么是你想知道的关于假期歌单的?
Kevin Weil: 我觉得圣诞老人对编辑感到无聊,但是我们可以继续。
John Nastos: 咱们聊聊第二套的最后一首歌,《友谊地久天长》。我意思是,这有点沉闷。我希望有更有活力的东西让你和小精灵们一起跳舞。你觉得呢?我该换成什么?
Santa: Ho, ho! 用《欢乐颂》替代是个完美的选择。它欢快、节庆,而且一定能让每个人跳舞。Ho, ho, ho!
John Nastos: 圣诞老人,我认为这是个好主意。我觉得这首歌真的会很受欢迎。我觉得这样与语音模型互动是一个很好的方式来与文档交流,并得到实时反馈。
Kevin Weil: 非常正确。好消息,就在我们上这个直播之前,其实我们按下了按钮,把我们刚才展示的所有功能发布了。现在它们应该在你的电脑上可用了。只需确保你更新到最新的 macOS 版 ChatGBT 应用。
John Nastos: 太好了。
Kevin Weil: 所以这就是第 11 天的内容。今天我们主要讲如何使用桌面应用程序查看、理解和自动化你在 ChatGPT 上的工作。这项功能已经在 Mac 桌面应用程序上推出了,大约 20 分钟前发布,Windows 版本即将推出。我非常喜欢这些桌面应用程序,它们在你工作时运行于后台,只需一个快捷键就能及时帮上忙。
这就是第 11 天的内容。我们还剩下一天。明天早上,我们将迎来第 12 天。我们准备了超级令人兴奋的内容,千万不要错过。
John Nastos: 是的,我们迫不及待地想让你使用这些新功能,我们真的非常兴奋。但与此同时,我得开始练习圣诞老人推荐的这些东西。
Kevin Weil: 好吧,让我们看看。