题目
智能体AI:多模态交互视野的考察
论文地址:https://arxiv/abs/2401.03568
图1:可以在不同领域和应用程序中感知和行动的Agent AI系统概述。Agent AI是正在成为通用人工智能(AGI)的一个有前途的途径。Agent AI培训已经证明了在物理世界中进行多模式理解的能力。它通过以下方式为与现实无关的培训提供了一个框架利用生成式人工智能以及多个独立的数据源。为代理和客户培训的大型基础模型当在跨现实数据上训练时,与动作相关的任务可以应用于物理和虚拟世界。我们介绍Agent AI系统的总体概述,该系统可以在许多不同的领域和应用中感知和行动,可能作为使用代理范式实现AGI的途径。
摘要
多模AI系统可能会在日常生活中无处不在。希望将这些系统视为相互作用的方法,以体现物理中的问题以及虚拟环境。目前,系统以现有的基础模型为基础用于制作浮雕的积木。在这种环境中嵌入代理促进模型停止过程的美观性,并解释可视化和外部数据,这一点至关重要为了创建更复杂、更具情境感知的AI系统。例如,可以感知用户行为、人类行为、环境对象、听觉表达和集体场景的情感被用来在给定的环境中提供信息和指导代理人的反应。为了加快基于Agent的多智能研究,我们将“Agent AI”定义为一类能够感知视觉刺激、语言输入和环境的交互系统基于地面数据,可以生成有意义的指纹。特别是,我们探索系统其目的是通过合并外部公司来改进基于下一个实施例的预测知识、多感官输入和人类反馈。我们认为开发不当系统环绕环境,一条渠系连接大基础冲积层模型及其产生对环境无害的输出的倾向。Agent的新兴领域AI涵盖了多模相互作用的更广泛的隐含和代理方面。超越在物质世界中行动和互动,我们期待人们可以轻松创造任何未来虚拟现实或模拟场景,与虚拟环境中的智能体互动
引言
动机
历史上,AI 系统在 1956 年达特茅斯会议上被定义为能够从环境中收集信息并以有用的方式与之互动的人工生命体。受到这一定义的启发,明斯基(Minsky)在 MIT 团队于 1970 年开发了一种机器人系统,称为“复制演示”(Copy Demo),该系统能够观察“积木世界”场景并成功重建观察到的多面体积木结构。该系统包含了观察、规划和操作模块,揭示了这些子问题的高度挑战性,表明还需要进一步的研究。AI 领域逐渐分化为多个专业化的子领域,这些子领域在解决各种问题方面独立取得了巨大进展,但过度简化模糊了 AI 研究的总体目标。
为了超越现状,有必要回归由亚里士多德整体论驱动的 AI 基础。幸运的是,近期大语言模型(LLM)和视觉语言模型(VLM)的革命,使得创建符合整体理想的新型 AI 代理成为可能。抓住这一机会,本文探讨了整合语言能力、视觉认知、上下文记忆、直觉推理和适应性的模型,并探讨使用 LLM 和 VLM 完成这种整体合成的可能性。在探索中,我们还重新审视了基于亚里士多德的“最终原因”的系统设计,即“系统存在的目的”,这一点在以往的 AI 开发中可能被忽视。
随着强大预训练的 LLM 和 VLM 的出现,自然语言处理和计算机视觉领域迎来了复兴。LLM 现在展现出解读现实世界语言数据细微差别的强大能力,往往达到甚至超越人类专业水平(OpenAI,2023)。最近,研究人员表明,LLM 可以在各种环境中扩展为代理,当与领域特定的知识和模块结合时,可以执行复杂的操作和任务(Xi 等人,2023)。这些情境通过复杂推理、对代理角色及其环境的理解,以及多步骤的规划,测试了代理在其环境约束下做出细致决策的能力(Wu 等人,2023;Meta 基础 AI 研究(FAIR)外交团队,2022)。
基于这些初步努力,AI 社区正处于重要的范式转变的前沿,即从创建用于被动、结构化任务的 AI 模型,转变为能够在多样和复杂环境中承担动态代理角色的模型。在这一背景下,本文探讨了将 LLM 和 VLM 用作代理的巨大潜力,特别强调了具备语言能力、视觉认知、上下文记忆、直觉推理和适应性结合的模型。将 LLM 和 VLM 用作代理,特别是在游戏、机器人和医疗等领域,不仅提供了最先进 AI 系统的严格评估平台,还预示了代理中心 AI 将在社会和行业中带来的变革性影响。当这些代理模型被充分利用时,可以重新定义人类体验并提升操作标准。这些模型带来的广泛自动化潜力预示着行业和社会经济动态的巨大转变。这些进步将与多方面的挑战交织在一起,不仅是技术的,还有伦理的挑战,我们将在第 1 节中详细阐述。我们还深入探讨了 Agent AI 各子领域的重叠区域,并在图 1 中展示了它们的相互关联。
背景
接下来,我们将介绍支持 Agent AI 概念、理论背景和现代实现的相关研究论文。大规模基础模型:大语言模型(LLM)和视觉语言模型(VLM)正在推动开发通用智能机器的努力(Bubeck 等,2023;Mirchandani 等,2023)。尽管这些模型是通过大量文本语料库进行训练的,但它们卓越的问题解决能力不仅限于传统的语言处理领域。LLM 有潜力应对此前被认为是人类专家或特定领域算法专属的复杂任务,从数学推理(Imani 等,2023;Wei 等,2022;Zhu 等,2022)到专业法律问题的解答(Blair-Stanek 等,2023;Choi 等,2023;Nay,2022)。最近的研究表明,LLM 可以用于为机器人和游戏 AI 生成复杂的计划(Liang 等,2022;Wang 等,2023a,b;Yao 等,2023a;Huang 等,2023a),这是 LLM 作为通用智能代理的重要里程碑。
具身 AI:许多研究利用大语言模型(LLM)进行任务规划(Huang 等,2022a;Wang 等,2023b;Yao 等,2023a;Li 等,2023a),尤其是 LLM 的大规模领域知识和零样本的具身能力,以执行复杂的任务规划和推理。最新的机器人研究也采用 LLM 进行任务规划(Ahn 等,2022a;Huang 等,2022b;Liang 等,2022),通过将自然语言指令分解为子任务序列(可以是自然语言形式或 Python 代码),然后使用低层控制器来执行这些子任务。此外,它们还结合环境反馈以改进任务表现(Huang 等,2022b;Liang 等,2022;Wang 等,2023a;Ikeuchi 等,2023)。
交互式学习:专为交互
发布者:admin,转转请注明出处:http://www.yc00.com/web/1754772396a5200221.html
评论列表(0条)