见到JARVIS-1：具有记忆增强的多模态语言模型的开放世界多任务代理

北京大学、加州大学洛杉矶分校、北京邮电大学和北京智能通用人工智能研究院的研究团队引入了JARVIS-1，这是一个用于Minecraft开放世界任务的多模态代理。借助预训练的多模态语言模型，JARVIS-1解释视觉观察和人类指示，生成复杂的内在控制计划。

JARVIS-1利用多模态输入和语言模型进行规划和控制。建立在预训练的多模态语言模型之上，JARVIS-1整合了一个多模态记忆，用于基于预训练知识和游戏经验的规划。在200个不同任务中实现接近完美的性能，尤其在具有挑战性的长期任务中表现出色，完成率提高了五倍。研究强调了多模态记忆在增强代理自主性和在开放世界场景中的智能性方面的重要性。

该研究解决了在开放世界环境中创建复杂任务的复杂代理的挑战。现有方法需要在多模态数据、长期规划和终身学习方面进行改进。基于预训练的多模态语言模型构建的JARVIS-1代理在Minecraft任务中表现出色。JARVIS-1在200个任务中几乎达到完美的表现，并显著改进了钻石凿任务。该代理展示了自主学习的能力，在很少外部干预的情况下不断演化，为追求普适能人工智能做出了贡献。

基于预训练的多模态语言模型构建的JARVIS-1将视觉和文本输入结合起来生成计划。代理的多模态记忆将预训练知识与游戏经验相结合，用于规划。现有方法使用了分层目标执行架构和大型语言模型作为高层规划器。JARVIS-1在Minecraft宇宙基准的200个任务上进行评估，揭示了由于控制器对短期文本指令执行不完美而导致的钻石功能挑战。

JARVIS-1的多模态记忆促进了自我提升，通过超越其他指令跟随代理，提升了智能和自主学习。在具有挑战性的任务中，JARVIS-1在钻石相关任务中的成功率几乎提高了三倍，超过了没有记忆的DEPS代理。该研究强调了改进计划生成以便更容易执行和增强控制器在钻石相关任务中遵循指令的能力的重要性。

基于预训练的多模态语言模型构建的开放世界代理JARVIS-1在Minecraft宇宙中精通多模态感知、计划生成和内在控制。整合多模态记忆通过利用预训练知识和实时经验来增强决策。JARVIS-1显著提高了长期任务如钻石凿的完成率，使之较之前的记录提高了最高五倍。这一突破为在复杂虚拟环境中开发多功能和适应性代理的未来发展奠定了基础。

进一步的研究建议改进任务执行的计划生成，提高控制器在钻石相关任务中遵循指令的能力，并研究简化执行的方法。提出了通过多模态记忆和实时经验增强开放世界情境中决策能力的方式。建议扩展JARVIS-1在Minecraft中更广泛任务范围的能力，并可能适应其他虚拟环境。该研究鼓励通过终身学习实现不断改进，促进JARVIS-1的自我提升和更大的智能和自主性的发展。