认识LEO：一种突破性的具有多模态特性的实体代理，用于高级3D世界互动和任务解决

具备处理多个任务或领域而无需重编程或重新训练的AI系统被称为通用代理。这些代理旨在在各个领域泛化知识和技能，展现在解决不同问题时的灵活性和适应性。用于培训或研究目的的模拟通常涉及3D环境。这些模拟中的通用代理能够适应不同场景，并能够从经验中学习，在虚拟空间中执行任务。例如，在飞行员或外科医生的训练模拟中，这些代理可以复制各种场景并作出相应的反应。

通用代理在三维世界中面临的挑战在于处理复杂的三维空间，学习能够在不同环境中泛化的健壮表示，并在考虑到环境的多维性的情况下进行决策。这些代理通常使用强化学习、计算机视觉和空间推理等技术来在这些环境中有效地导航和交互。

中国北京普里什卡大学、泡菜大学和清华大学的研究人员提出了一个名为LEO的通用代理，该代理经过LLM-based架构进行训练。LEO是一个通用性的代理，具有多模态和多任务能力。LEO通过共享的模型架构和权重来感知、基于事实进行推理、规划和行动。LEO通过基于自我为中心的2D图像编码器和基于对象为中心的3D点云编码器来感知事物的体验和第三人称全局视角。

LEO还可以通过自回归训练目标利用任务无关的输入和输出进行训练。3D编码器为每个观测到的实体生成一个基于对象的令牌。这种编码器设计可以灵活地适应具有不同体现的任务。LEO基于3D视觉语言对齐和3D视觉语言行为的基本原理。为了获取训练数据，研究团队策划和生成了一个包含对象级和场景级多模态任务的大规模复杂数据集，需要对3D世界进行深入理解和交互。

研究团队还提出了基于场景图的提示和细化方法，以及基于对象为中心的思维链（O-CoT），以提高生成数据的质量，大大丰富数据规模和多样性，并进一步消除LLM的幻觉。研究团队对LEO进行了广泛的评估，并展示了其在多个任务中的熟练程度，包括体验式导航和机器人操作。他们还观察到，仅仅扩大训练数据规模就能稳定提升性能。

结果显示LEO的反应融合了丰富、信息量大的空间关系，并且准确地与3D场景相呼应。他们发现LEO包含的具体对象实际上出现在场景中，并对这些对象有具体的行动。LEO能够架起3D视觉语言和实体移动之间的桥梁，研究团队的结果显示了联合学习的可行性。