AppAgent: 像人类用户一样操作手机的多模态智能体 [译]

摘要

大语言模型 (LLMs) 的最新进展催生了一类能够执行复杂任务的智能代理。本文提出了一种基于大语言模型的多模态代理框架,专为智能手机应用而设计。我们的框架允许智能体通过简化的动作范围,如点击和滑动,来操作智能手机应用,仿佛它是一个人类用户。这种创新方法免除了访问系统后端的需要,使其能够适用于多种不同的应用。我们的智能体采用了一种创新的学习方法:它可以通过自我探索或观察人类的操作来学习如何导航和使用新的应用程序。通过这个过程,它建立了一个知识库,用于在不同应用中执行复杂任务。为了证明我们智能体的实用性,我们在 10 个不同的应用中进行了 50 项任务的测试,涵盖了社交媒体、电子邮件、地图、购物和高级图像编辑等领域。测试结果证明了我们的智能体在处理多种高级任务方面的高效能。

图 1: 我们的多模态智能体框架在操作智能手机应用方面的多样应用。通过在 10 个不同应用中的 50 个任务的测试中,我们展示了这一模型在现实世界中的适应性和高效性。
图 1: 我们的多模态智能体框架在操作智能手机应用方面的多样应用。通过在 10 个不同应用中的 50 个任务的测试中,我们展示了这一模型在现实世界中的适应性和高效性。

1 引言

大语言模型(LLMs),如 ChatGPT OpenAI (2021) 和 GPT-4 OpenAI (2023) 的兴起,在人工智能和自然语言处理领域是一大创新。这些模型标志着机器理解和生成人类语言的一次根本变革,其复杂性和多功能性前所未有。这个领域最激动人心的进展之一是 LLMs 超越传统的语言处理器角色,变成能够执行复杂任务的 AI 智能体。这种转变在如 AutoGPT Yang et al. (2023a) 和 MetaGPT Hong et al. (2023) 的项目中尤为明显,它们展现了 LLMs 在涉及高级认知功能如推理、规划和协作的任务中的实际应用。这些进展极大地扩展了 LLMs 的应用领域,不仅局限于简单的语言处理,而是革新了技术和日常生活的多个方面。

然而,这些基于 LLM 的智能体过去主要依赖文本信息,限制了它们与环境的感知和互动。最新版本的 GPT-4 引入了视觉能力,这是一个关键性的突破。通过集成处理和解读视觉信息的能力,这些模型现在不仅能理解文本,还能捕捉到通过文字难以表达的环境信息。这增强了 LLMs 的上下文理解、模式识别和对视觉提示的响应能力,为它们提供了更全面、更互动的世界体验。

在我们的研究中,我们致力于开发一种新型的多功能智能体,这种智能体能利用多模态大语言模型(大语言模型)的视觉能力来执行过去仅靠文字智能体无法完成的任务。具体来说,我们研究了一种既新奇又具挑战性的用途:创建一个能够操作手机中任何应用程序的智能体。*这种方法与目前像 Siri 这样的智能手机助手大不相同,Siri 是通过访问手机系统的后端和调用功能来工作的。*与此相反,我们的智能体通过类似人类的方式与手机应用互动,例如在手机屏幕上轻点和滑动。我们的智能体有几个显著优势:首先,它不需要访问系统的后端,这使得它可以广泛应用于各种不同的应用程序;其次,这种方式更加安全,保护隐私,因为不需要深度整合进手机系统;最后,通过在应用程序的用户界面(界面)层面上操作,它可以适应应用界面的变化和更新,确保了长期的适用性和灵活性。

然而,要开发出一个能够操作各种各样手机应用的多模态智能体是非常具有挑战性的。现有研究表明,要让目前的模型适应实际操作任务,需要大量的训练数据,而且收集足够的应用操作演示数据来训练这种智能体是一项巨大的挑战。此外,不同的应用程序有着各自独特的用户界面,图标含义和操作逻辑各不相同,我们还不确定这些调整后的模型能否有效地适用于那些它们之前没有见过的应用程序。

本论文展示了一个多模式 AI 代理框架,它能像真人一样操作各种智能手机应用。我们的框架通过一种独特的训练阶段进行学习,此阶段让 AI 代理通过自定义的一套指令自由地与各种应用进行互动,同时从这些互动行为中获得训练和学习。这些互动行为都会被记录和归档,从而帮助 AI 代理更好地掌握如何操作和管理这些应用。一些实际的人机操作展示也可以加快这个训练过程。在完成这个探索阶段后,AI 代理可以通过参考根据当前状态构建的文件来操作应用,无需调整大语言模型(LLM)的参数,也无需针对每个应用收集大量的训练数据。

为了证明其有效性,我们对此 AI 代理进行了严谨的测试,包括在 10 种不同的应用中完成了 50 项不同的任务,测试应用包括社交媒体、即时通讯软件、电子邮件、地图、购物网站,甚至复杂的图像编辑应用。量化的结果及用户的反馈都在证明我们的这一设计具备显著优势,主要表现在适应性强,用户友善,并且在许多不同应用情景中都能快速地学习和操作。这些证明了我们的 AI 代理在智能手机应用的操作领域具有极大的潜力,可以成为一款多用途且高效的工具。

简而言之,本论文的主要贡献可以概括为以下几点:

  • 我们开源了一个多模式 AI 代理框架,聚焦于我们的自定义行为空间,使其能操作各种智能手机应用程序。
  • 我们提出了一种新的探索策略,使 AI 代理能学习和掌握新出现的应用。
  • 通过在多款应用上进行广泛实验,我们验证了我们框架的优势,证明了其在 AI 辅助智能手机应用操作领域的潜力。

图 2: 我们为操作智能手机应用而设计的多模态智能体框架概览。该图表展示了我们框架的双阶段方法。在探索阶段,智能体与智能手机应用互动,通过其互动结果来学习,并构建一份全面的参考资料。在部署阶段,智能体根据这份资料来有效操作和导航各种应用程序。
图 2: 我们为操作智能手机应用而设计的多模态智能体框架概览。该图表展示了我们框架的双阶段方法。在探索阶段,智能体与智能手机应用互动,通过其互动结果来学习,并构建一份全面的参考资料。在部署阶段,智能体根据这份资料来有效操作和导航各种应用程序。

2 相关研究

2.1 大语言模型 (Large Language Model)

ChatGPT OpenAI (2021) 和 GPT-4 OpenAI (2023) 的推出,标志着自然语言处理技术的重大进步。这些新型大语言模型(LLMs),如 Touvron et al. (2023a, b);Zeng et al. (2022);Taori et al. (2023);Zheng et al. (2023) 等研究所示,不同于早期的大模型,它们能进行多轮对话,并且能够理解并执行复杂的指令。GPT-4V 中加入的视觉处理能力,如 Yang et al. (2023b) 所述,是一个里程碑式的进展,使得该语言模型能够分析和解释视觉数据。这一新增功能极大拓宽了 AI 的应用范围,让 GPT-4 能够胜任从问题解决、逻辑推理、工具使用、API 调用到编程等多样化任务。近期的研究,如 Yang et al. (2023c);Yan et al. (2023) 显示,GPT-4V 能够理解包括智能手机应用中的简单用户界面(UIs)在内的各类图像。不过,在面对新应用及其不常见的用户界面时,GPT-4V 也面临着挑战,这正是我们研究所关注的重点问题。在开源界和研究领域,LLaMA 系列(如 Touvron et al. (2023a, b) 提出的)是最受欢迎的类似项目,它们已经经过微调,具备了类似于 ChatGPT 的对话能力,并采用了类似的仅解码器架构,如 Taori et al. (2023);Zheng et al. (2023) 所述。在 LLaMA 的基础上,还有许多多模态大语言模型,例如 LLaVA(Liu et al. (2023b, a))、ChartLlama(Han et al. (2023))和 StableLLaVA(Li et al. (2023)),它们也展示了与 GPT-4V 类似的视觉处理能力。

尽管如此,与 GPT-4V 相比,这些开源模型在性能上仍有差距,显示出了未来发展的潜在空间。

2.2 大语言模型作为智能体

使用大语言模型(LLM)作为执行复杂任务的智能体越来越受到关注。像 AutoGPT Yang 等人(2023a)、HuggingGPT Shen 等人(2023)和 MetaGPT Hong 等人(2023)的项目展示了这一趋势。这些项目不仅处理基本的语言任务,还涉及需要高级认知功能的活动,比如软件开发  Qian 等人(2023); Chen 等人(2021)和游戏设计  FAIR 等人(2022); Park 等人(2023); Xu 等人(2023)。在这方面,Yao 等人(2023)提出了一种创新方法,通过在 LLM 中结合推理和行动,大幅提高它们的决策和交互能力。基于 LLM 的智能体利用高级的语言和推理技能与环境互动,执行需要理解背景、做出决策和通过互动学习的任务 Liu 等人(2023c); Gur 等人(2023); Xie 等人(2023)。在需要类似人类认知能力的应用领域,这类智能体非常关键。

Wang et al. (2023)、Furuta et al. (2023)、Brohan et al. (2022, 2023)、Reed et al. (2022) 等研究显示,新兴的多模态大语言模型 (LLM) 智能体能处理文本、图像、音频和视频等多种输入类型,从而大幅扩展了大语言模型的应用领域。这种多功能特性极大增强了基于大语言模型的智能体,使它们在与环境的互动和完成复杂任务方面更为高效,如在物理世界中完成家务 Ahn et al. (2022),使用程序化工具创建 3D 资产 Sun et al. (2023),或同时掌握超过 600 项跨领域任务 Reed et al. (2022)。我们的研究贡献在于开发了一种操作智能手机应用的智能体,这种智能体能够解析操作系统的屏幕截图,显示出其灵活性和适应性,成为各种应用场景中的重要工具。

3 研究方法

本节详细阐述了我们创新的多模态智能体框架的研究方法。该框架赋予智能体以人类行为方式与智能手机应用交互的能力。首先,我们介绍了实验环境和行动空间,这是系统的基本组成部分。其次,探索阶段中,智能体通过自主交互或观察人类示范来学习应用功能。最后,在部署阶段,我们解释了智能体如何利用所学知识执行高层次任务。

3.1 环境和操作空间

实验环境:我们的实验是在一个命令行界面 (CLI) 上进行的,这个界面让 AI 智能体可以与智能手机应用交互。在实验中,我们选择了 Android 操作系统。AI 智能体接收两种关键输入:一是显示应用界面的实时屏幕截图,二是一个 XML 文件,里面详细描述了可交互的元素。为了让 AI 智能体能更好地识别和操作这些元素,我们为每个元素分配了一个独一无二的标识符。这些标识符或者直接来自 XML 文件中的资源 ID,或者是由元素的类名、尺寸和内容组合而成。在截图上,这些元素以半透明的数字显示,这样 AI 智能体就可以准确地进行交互,而不需要指定屏幕上的具体位置,从而提高了操控手机的精准度。

操作空间:我们的 AI 智能体可以执行的操作模仿了人类常用的智能手机操作,如点击和滑动。我们设计了四个基本功能:

  • Tap(element:int):\mathtt{Tap(element:int):}  此功能模拟对屏幕上编号的界面元素进行点击操作。比如,tap(5)\mathtt{tap(5)}  意味着点击编号为‘5’的元素。

  • Long_press(element:int):\mathtt{Long\_press(element:int):}  此功能模仿长按界面元素(持续 1 秒)。

  • Swipe\mathtt{Swipe} (\mathtt{(} element:int\mathtt{element:int}direction:str\mathtt{direction:str}dist:str)\mathtt{dist:str)}: 该功能允许 AI 智能体在指定方向(上、下、左、右)和距离(短、中、长)上滑动某个元素。例如,swipe(21,up",medium")\mathtt{swipe(21,`up",`medium")}  表示在编号为‘21’的元素上向上滑动中等距离。

  • Text(text:str):\mathtt{Text(text:str):}  为了避免使用低效的虚拟键盘输入,此功能可直接在文本输入区域输入文字,适用于虚拟键盘出现时。例如,text("Hello,world!")\mathtt{text("Hello,world!")}  代表输入“Hello, world!"。

  • Back():\mathtt{Back():}  一个系统级别的功能,用于帮助 AI 智能体返回到上一个界面,尤其适用于退出不相关的页面。

  • Exit():\mathtt{Exit():}  这是一个专门用于结束进程的功能,通常在成功完成任务后调用。

这些事先定义好的动作是为了简化 AI 智能体(AI Agent)的交互过程,尤其是免除了对精确屏幕坐标的依赖,这一点对于大语言模型(LLM/Large Language Model)在准确预测方面是一个挑战。

3.2 探索阶段

通过自主互动进行探索。探索阶段是我们这个框架的关键部分。在此阶段,智能体通过尝试和错误的方式,学习智能手机应用的各种功能和特性。智能体被赋予一个任务,在这个过程中,它自主地与用户界面(UI)元素进行互动。智能体通过执行不同动作并观察应用界面上的变化,从而理解应用的工作原理。由大语言模型驱动的智能体会分析每个动作前后的屏幕截图,试图理解 UI 元素的功能和特定动作的影响。这些信息随后被整合进一个文档中,记录了不同元素上应用的动作所产生的效果。当某个 UI 元素被多次操作时,智能体会基于之前的记录和当前的观察来更新文档,以此提升信息质量。为了提高探索效率,如果当前的 UI 页面似乎与应用的主要任务无关,例如广告页面,智能体就会停止对该元素的进一步探索。这时,它会利用 Android 系统的 Back() 功能回到之前的界面。这种目标导向的探索方法相比于随机探索(例如深度优先搜索和广度优先搜索),能更有效地确保智能体专注于对应用有效运作至关重要的元素。智能体还会利用大语言模型中关于用户界面的现有知识,以提高探索的效率。当智能体完成了分配给它的任务,探索就会停止。

通过观看演示来探索。另一种替代且往往更有效的探索方法是让智能体观察人类的演示操作。这些演示向智能体展示了高效使用应用的示例,特别是那些可能难以通过自主互动发现的复杂功能。在这种方式中,人类用户操作应用,而智能体则进行观察,记录人类所使用的元素和动作。这种策略有效地缩小了探索范围,避免了智能体与那些与应用无关的页面进行交互,使其成为一种比自主互动更为高效和有条理的方法。

3.3 部署阶段

在经过探索阶段的积累后,AI 智能体已具备执行复杂任务的能力。面对特定任务时,它会依据一系列步骤行动,每个步骤都涉及获取当前用户界面(User Interface, UI)的截图和一个动态生成的文档。这个文档详细阐述了 UI 元素的功能及其对当前 UI 页面的影响。此外,提示中还包含了所有可用动作的详尽解释。在每一步中,智能体首先描述自己对 UI 的观察,然后表达自己关于任务和观察的思考。接着,它通过激活可用功能来执行动作。每进行一次动作,智能体都会总结之前的互动历史和当前步骤中的行为。这些信息随后被纳入下一个提示,为智能体提供了类似记忆的功能。这种精确的操作方法提升了智能体动作的可靠性和可解释性,有助于作出更明智的决策。当智能体判断任务已完成时,部署阶段便告终止,此时它可以通过执行“退出(Exit)”动作来结束过程。

图 3: 三款应用的定性任务评估。这幅图展示了在 Google Maps、Gmail 和 Lightroom 上执行的三种不同任务的定性成果。它体现了 AppAgent 在不同应用场景中准确感知、推理和执行任务的能力。由于篇幅限制,部分非关键细节已被省略。
图 3: 三款应用的定性任务评估。这幅图展示了在 Google Maps、Gmail 和 Lightroom 上执行的三种不同任务的定性成果。它体现了 AppAgent 在不同应用场景中准确感知、推理和执行任务的能力。由于篇幅限制,部分非关键细节已被省略。

方法文档动作空间成功率(SR)\uparrow奖励\uparrow平均步骤数
GPT4(基准)原始2.2%0.64.0
我们的48.9%3.56.9
AppAgent自动探索我们的73.3%5.14.4
观看演示我们的84.4%4.75.1
手工制作我们的95.6%5.55.5

表 1: 在 AppAgent 性能中评估设计选择。此表格展示了 AppAgent 不同设计元素的对比。主要发现包括:我们自研的行动空间 (action space) 在效率上胜过传统行动空间;探索阶段,结合自动交互和观察人类示范,显著提高了 AI 智能体的表现;而自动生成的文档在效果上与手动编制的文档不相上下。

方法文档来源行动空间平均排名 ↓使用工具数
GPT4 (基准)自研2.302.4
AppAgent观看演示自研1.955.8
手工编制自研1.754.0

表 2: Lightroom 应用图像编辑任务的案例研究。我们通过用户研究来评估不同方法在图像编辑方面的效果。我们的 AI 智能体比 GPT-4 (基准) 的结果更佳。

4 实验

本节将介绍我们对多模态大语言模型 (Large Language Model, LLM) 框架的评估,结合了定量和定性实验。我们的主要目标是检验 AI 智能体的整体性能及其有效操控多样智能手机应用的能力。

4.1 实验设置

为全面评估我们的方法,我们构建了一个涵盖 10 个流行应用的基准测试,每个应用承担不同功能。包括 Google 地图、Twitter、Telegram、YouTube、Spotify、Yelp、Gmail、TEMU、时钟和 Lightroom。故意选择这些多样化应用,是为了测试 AI 智能体在不同功能和界面上的适应性。特别地,为深入了解智能体的视觉处理能力,我们以 Adobe Lightroom —— 一款图像编辑应用为例进行案例研究。此研究帮助我们评估 AI 智能体在视觉任务处理及其在应用内解读和操纵图像的能力。探索阶段,我们将步骤上限设为 40 步;在测试阶段,步骤上限为 10 步。在这些实验中,我们运用了最新的多模态大语言模型 GPT-4,它擅长高效处理图文混合输入。这一特性使得 AI 智能体能够流畅地解读和互动应用中的视觉与文本信息。

4.2 设计与分析

基准测试

为了全面评估我们多模态智能体框架的性能,我们考虑了多种设计方案及其对智能体表现的影响。我们通过不同配置的实验,探索了智能体的行为特点。首先,我们测试了在没有参考文档的情况下 GPT-4 的表现,并对比了它在原始动作 API 和我们简化的动作空间下的性能。然后,我们尝试了几种为智能体制定指导文档的方法,包括自主探索生成的文档、观察人类演示,以及作为标准对照的手工制作文档。

性能比较

我们采用了三个关键指标来评估不同方法的性能:
成功率 (SR):该指标反映了智能体在应用中成功完成任务的平均频率。如果智能体在 10 步内未完成任务,就算作失败。
奖励:为了更精确地衡量表现,我们设计了一个奖励模型。对于应用中的每项任务,我们对不同的 UI 页面打分,UI 页面越接近目标,得分越高。这意味着即使智能体没完成任务,它根据最终状态仍能获得一定积分。
平均步数:我们还记录了在选定应用中成功完成任务所需的平均步数。

结果分析

我们在表  1 中展示了实验结果的比较。报告了 9 个先前描述的 10 个应用中 45 个任务的平均性能,其中排除了 Lightroom,因为评估其任务完成度存在不确定性。结果显示,我们简化的动作空间显著提升了 GPT-4 的基线性能。我们注意到大语言模型(LLM)在生成精确的 xy 坐标方面存在挑战,而我们的简化动作空间有效克服了这一问题。此外,自主探索和观察人类演示生成的文档表现出色,其结果不仅超越了 GPT-4 基线,而且与人工编写的文档相媲美,展现了我们设计在提升智能体在各类应用中性能的有效性。

定性观察

在图  3 中,我们展示了智能体在执行不同任务过程的示例。这些定性观察旨在展示智能体在准确感知、推理和响应任务方面的能力。欲了解更多关于我们智能体能力的信息,请访问我们的项目网页,网页上还包含了更多演示视频。

4.3 案例研究

为了深入探索我们智能体的视觉处理能力,我们利用 Adobe Lightroom(一款流行的图像编辑软件)进行了深入的案例分析。这个案例的重点在于评估智能体处理视觉任务的能力,这是之前仅依赖文字的模型所无法实现的。Lightroom 作为一款集成了丰富编辑工具的图像软件,要求执行诸如选择合适工具、调整图像参数等多样操作。这个案例研究全面考量了智能体的综合性能。此外,图像编辑任务的多样性也让我们有机会评估智能体解决问题的能力。我们准备了五张存在问题的图片,比如对比度低和过曝光。我们应用了不同版本的模型来编辑这些图片,并开展了一项用户研究,对比了不同方法的编辑效果。我们还统计了图像编辑中平均使用的工具数量,从而为编辑过程的复杂性提供了额外的参考。所有模型都接受了“优化这张图片,直到你认为它看起来不错”这一任务,而没有特定指出图片的具体问题。结果的对比展示在 表 2 中。结果显示,我们的模型在利用文档方面明显优于 GPT-4 的基线模型,这突出了文档在设计中的作用。通过观看演示生成的文档与手工制作的文档产生了相似的结果,这证明了探索阶段的有效性。我们还发现,在有文档辅助的情况下,智能体倾向于运用多种工具来提升图片质量,而 GPT-4 基线模型则使用的工具较少。

5 结论

在这篇论文中,我们提出了一个新型的多模态智能体框架,该框架利用大语言模型的视觉能力,以类似于人类的方式操控智能手机应用。我们的方法免除了对系统后端访问的需要,带来安全性、适应性和灵活性上的优势。我们的基于探索的学习策略使智能体能够迅速适应那些拥有陌生用户界面的新应用,使其成为处理各种任务的多用途工具。我们在多个应用上的广泛实验凸显了智能体在处理多样化高级任务方面的能力,也强调了其适应性和学习效率。

限制。我们的研究选择了简化的智能手机操作方式,目前不支持如多点触控和复杂手势等高级控制功能。这种限制可能在一些复杂场景中影响智能体的应用范围。然而,我们将这视为未来研究和开发的一个重要方向。

6 引用

  • Ahn et al. (2022)↑Michael Ahn, Anthony Brohan, Noah Brown, Yevgen Chebotar, Omar Cortes, Byron David, Chelsea Finn, Chuyuan Fu, Keerthana Gopalakrishnan, Karol Hausman, Alex Herzog, Daniel Ho, Jasmine Hsu, Julian Ibarz, Brian Ichter, Alex Irpan, Eric Jang, Rosario Jauregui Ruano, Kyle Jeffrey, Sally Jesmonth, Nikhil Joshi, Ryan Julian, Dmitry Kalashnikov, Yuheng Kuang, Kuang-Huei Lee, Sergey Levine, Yao Lu, Linda Luu, Carolina Parada, Peter Pastor, Jornell Quiambao, Kanishka Rao, Jarek Rettinghouse, Diego Reyes, Pierre Sermanet, Nicolas Sievers, Clayton Tan, Alexander Toshev, Vincent Vanhoucke, Fei Xia, Ted Xiao, Peng Xu, Sichun Xu, Mengyuan Yan, and Andy Zeng. 2022.Do as i can and not as i say: Grounding language in robotic affordances.In arXiv preprint arXiv:2204.01691.
  • Brohan et al. (2023)↑Anthony Brohan, Noah Brown, Justice Carbajal, Yevgen Chebotar, Xi Chen, Krzysztof Choromanski, Tianli Ding, Danny Driess, Avinava Dubey, Chelsea Finn, et al. 2023.Rt-2: Vision-language-action models transfer web knowledge to robotic control.arXiv preprint arXiv:2307.15818.
  • Brohan et al. (2022)↑Anthony Brohan, Noah Brown, Justice Carbajal, Yevgen Chebotar, Joseph Dabis, Chelsea Finn, Keerthana Gopalakrishnan, Karol Hausman, Alex Herzog, Jasmine Hsu, et al. 2022.Rt-1: Robotics transformer for real-world control at scale.arXiv preprint arXiv:2212.06817.
  • Chen et al. (2021)↑Mark Chen, Jerry Tworek, Heewoo Jun, Qiming Yuan, Henrique Ponde de Oliveira Pinto, Jared Kaplan, Harri Edwards, Yuri Burda, Nicholas Joseph, Greg Brockman, et al. 2021.Evaluating large language models trained on code.arXiv preprint arXiv:2107.03374.
  • FAIR et al. (2022)↑Meta FAIR, Anton Bakhtin, Noam Brown, Emily Dinan, Gabriele Farina, Colin Flaherty, Daniel Fried, Andrew Goff, Jonathan Gray, Hengyuan Hu, et al. 2022.Human-level play in the game of diplomacy by combining language models with strategic reasoning.Science, 378(6624):1067–1074.
  • Furuta et al. (2023)↑Hiroki Furuta, Kuang-Huei Lee, Ofir Nachum, Yutaka Matsuo, Aleksandra Faust, Shixiang Shane Gu, and Izzeddin Gur. 2023.Multimodal web navigation with instruction-finetuned foundation models.
  • Gur et al. (2023)↑Izzeddin Gur, Hiroki Furuta, Austin Huang, Mustafa Safdari, Yutaka Matsuo, Douglas Eck, and Aleksandra Faust. 2023.A real-world webagent with planning, long context understanding, and program synthesis.
  • Han et al. (2023)↑Yucheng Han, Chi Zhang, Xin Chen, Xu Yang, Zhibin Wang, Gang Yu, Bin Fu, and Hanwang Zhang. 2023.Chartllama: A multimodal llm for chart understanding and generation.
  • Hong et al. (2023)↑Sirui Hong, Mingchen Zhuge, Jonathan Chen, Xiawu Zheng, Yuheng Cheng, Ceyao Zhang, Jinlin Wang, Zili Wang, Steven Ka Shing Yau, Zijuan Lin, Liyang Zhou, Chenyu Ran, Lingfeng Xiao, Chenglin Wu, and Jürgen Schmidhuber. 2023.Metagpt: Meta programming for a multi-agent collaborative framework.
  • Hu and Shu (2023)↑Zhiting Hu and Tianmin Shu. 2023.Language models, agent models, and world models: The law for machine reasoning and planning.arXiv preprint arXiv:2312.05230.
  • Li et al. (2023)↑Yanda Li, Chi Zhang, Gang Yu, Zhibin Wang, Bin Fu, Guosheng Lin, Chunhua Shen, Ling Chen, and Yunchao Wei. 2023.Stablellava: Enhanced visual instruction tuning with synthesized image-dialogue data.
  • Liu et al. (2023a)↑Haotian Liu, Chunyuan Li, Yuheng Li, and Yong Jae Lee. 2023a.Improved baselines with visual instruction tuning.
  • Liu et al. (2023b)↑Haotian Liu, Chunyuan Li, Qingyang Wu, and Yong Jae Lee. 2023b.Visual instruction tuning.
  • Liu et al. (2023c)↑Xiao Liu, Hao Yu, Hanchen Zhang, Yifan Xu, Xuanyu Lei, Hanyu Lai, Yu Gu, Hangliang Ding, Kaiwen Men, Kejuan Yang, Shudan Zhang, Xiang Deng, Aohan Zeng, Zhengxiao Du, Chenhui Zhang, Sheng Shen, Tianjun Zhang, Yu Su, Huan Sun, Minlie Huang, Yuxiao Dong, and Jie Tang. 2023c.AgentBench: Evaluating LLMs as agents.arXiv preprint arXiv: 2308.03688.
  • OpenAI (2021)↑OpenAI. 2021.Chatgpt.https://openai.com/research/chatgpt.
  • OpenAI (2023)↑OpenAI. 2023.Gpt-4 technical report.
  • Park et al. (2023)↑Joon Sung Park, Joseph O’Brien, Carrie Jun Cai, Meredith Ringel Morris, Percy Liang, and Michael S Bernstein. 2023.Generative agents: Interactive simulacra of human behavior.In Proceedings of the 36th Annual ACM Symposium on User Interface Software and Technology, pages 1–22.
  • Qian et al. (2023)↑Chen Qian, Xin Cong, Cheng Yang, Weize Chen, Yusheng Su, Juyuan Xu, Zhiyuan Liu, and Maosong Sun. 2023.Communicative agents for software development.arXiv preprint arXiv:2307.07924.
  • Reed et al. (2022)↑Scott Reed, Konrad Zolna, Emilio Parisotto, Sergio Gomez Colmenarejo, Alexander Novikov, Gabriel Barth-Maron, Mai Gimenez, Yury Sulsky, Jackie Kay, Jost Tobias Springenberg, et al. 2022.A generalist agent.arXiv preprint arXiv:2205.06175.
  • Shen et al. (2023)↑Yongliang Shen, Kaitao Song, Xu Tan, Dongsheng Li, Weiming Lu, and Yueting Zhuang. 2023.Hugginggpt: Solving ai tasks with chatgpt and its friends in huggingface.In Advances in Neural Information Processing Systems.
  • Sun et al. (2023)↑Chunyi Sun, Junlin Han, Weijian Deng, Xinlong Wang, Zishan Qin, and Stephen Gould. 2023.3d-gpt: Procedural 3d modeling with large language models.arXiv preprint arXiv:2310.12945.
  • Taori et al. (2023)↑Rohan Taori, Ishaan Gulrajani, Tianyi Zhang, Yann Dubois, Xuechen Li, Carlos Guestrin, Percy Liang, and Tatsunori B. Hashimoto. 2023.Stanford alpaca: An instruction-following llama model.https://github.com/tatsu-lab/stanford_alpaca.
  • Touvron et al. (2023a)↑Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin, Edouard Grave, and Guillaume Lample. 2023a.Llama: Open and efficient foundation language models.
  • Touvron et al. (2023b)↑Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, Dan Bikel, Lukas Blecher, Cristian Canton Ferrer, Moya Chen, Guillem Cucurull, David Esiobu, Jude Fernandes, Jeremy Fu, Wenyin Fu, Brian Fuller, Cynthia Gao, Vedanuj Goswami, Naman Goyal, Anthony Hartshorn, Saghar Hosseini, Rui Hou, Hakan Inan, Marcin Kardas, Viktor Kerkez, Madian Khabsa, Isabel Kloumann, Artem Korenev, Punit Singh Koura, Marie-Anne Lachaux, Thibaut Lavril, Jenya Lee, Diana Liskovich, Yinghai Lu, Yuning Mao, Xavier Martinet, Todor Mihaylov, Pushkar Mishra, Igor Molybog, Yixin Nie, Andrew Poulton, Jeremy Reizenstein, Rashi Rungta, Kalyan Saladi, Alan Schelten, Ruan Silva, Eric Michael Smith, Ranjan Subramanian, Xiaoqing Ellen Tan, Binh Tang, Ross Taylor, Adina Williams, Jian Xiang Kuan, Puxin Xu, Zheng Yan, Iliyan Zarov, Yuchen Zhang, Angela Fan, Melanie Kambadur, Sharan Narang, Aurelien Rodriguez, Robert Stojnic, Sergey Edunov, and Thomas Scialom. 2023b.Llama 2: Open foundation and fine-tuned chat models.
  • Wang et al. (2023)↑Zihao Wang, Shaofei Cai, Anji Liu, Yonggang Jin, Jinbing Hou, Bowei Zhang, Haowei Lin, Zhaofeng He, Zilong Zheng, Yaodong Yang, Xiaojian Ma, and Yitao Liang. 2023.Jarvis-1: Open-world multi-task agents with memory-augmented multimodal language models.
  • Xi et al. (2023)↑Zhiheng Xi, Wenxiang Chen, Xin Guo, Wei He, Yiwen Ding, Boyang Hong, Ming Zhang, Junzhe Wang, Senjie Jin, Enyu Zhou, et al. 2023.The rise and potential of large language model based agents: A survey.arXiv preprint arXiv:2309.07864.
  • Xie et al. (2023)↑Tianbao Xie, Fan Zhou, Zhoujun Cheng, Peng Shi, Luoxuan Weng, Yitao Liu, Toh Jing Hua, Junning Zhao, Qian Liu, Che Liu, Leo Z. Liu, Yiheng Xu, Hongjin Su, Dongchan Shin, Caiming Xiong, and Tao Yu. 2023.Openagents: An open platform for language agents in the wild.
  • Xu et al. (2023)↑Yuzhuang Xu, Shuo Wang, Peng Li, Fuwen Luo, Xiaolong Wang, Weidong Liu, and Yang Liu. 2023.Exploring large language models for communication games: An empirical study on werewolf.arXiv preprint arXiv:2309.04658.
  • Yan et al. (2023)↑An Yan, Zhengyuan Yang, Wanrong Zhu, Kevin Lin, Linjie Li, Jianfeng Wang, Jianwei Yang, Yiwu Zhong, Julian McAuley, Jianfeng Gao, Zicheng Liu, and Lijuan Wang. 2023.Gpt-4v in wonderland: Large multimodal models for zero-shot smartphone gui navigation.arXiv preprint arXiv: 2311.07562.
  • Yang et al. (2023a)↑Hui Yang, Sifu Yue, and Yunzhong He. 2023a.Auto-gpt for online decision making: Benchmarks and additional opinions.
  • Yang et al. (2023b)↑Zhengyuan Yang, Linjie Li, Kevin Lin, Jianfeng Wang, Chung-Ching Lin, Zicheng Liu, and Lijuan Wang. 2023b.The dawn of lmms: Preliminary explorations with gpt-4v (ision).arXiv preprint arXiv:2309.17421.
  • Yang et al. (2023c)↑Zhengyuan Yang, Linjie Li, Kevin Lin, Jianfeng Wang, Chung-Ching Lin, Zicheng Liu, and Lijuan Wang. 2023c.The dawn of lmms: Preliminary explorations with gpt-4v(ision).arXiv preprint arXiv: 2309.17421.
  • Yao et al. (2023)↑Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, and Yuan Cao. 2023.ReAct: Synergizing reasoning and acting in language models.In ICLR.
  • Zeng et al. (2022)↑Aohan Zeng, Xiao Liu, Zhengxiao Du, Zihan Wang, Hanyu Lai, Ming Ding, Zhuoyi Yang, Yifan Xu, Wendi Zheng, Xiao Xia, et al. 2022.Glm-130b: An open bilingual pre-trained model.arXiv preprint arXiv:2210.02414.
  • Zheng et al. (2023)↑Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zi Lin, Zhuohan Li, Dacheng Li, Eric. P Xing, Hao Zhang, Joseph E. Gonzalez, and Ion Stoica. 2023.Judging llm-as-a-judge with mt-bench and chatbot arena.