Google DeepMind发布了一个包含100万条轨迹和一个通用AI模型（RT-X）的开放式X体验，以帮助推动机器人如何学习新技能的进展

在人工智能（AI）和机器学习（ML）领域的最新进展中，大规模学习来自多样化和广泛的数据集的能力已经展示出开发极其有效的AI系统的能力。最好的例子是创建了通用预训练模型，这些模型经常表现优于在较小的、特定任务数据上训练的狭义专门化对应物。与在专门化和受限数据上训练的模型相比，开放性词汇图像分类器和大型语言模型表现出更好的性能。

然而，相对于计算机视觉和自然语言处理（NLP）可以轻松从互联网中获取大数据集的情况，为机器人交互收集可比较的数据集是具有挑战性的。即使在机器人领域最广泛的数据采集计划中，所获得的数据集通常远远小于视觉和NLP基准测试中的数据集以及其多样性。这些数据集通常集中在某些特定地点、物品或任务受限的群体上。

为了克服机器人领域的障碍，并朝着与其他领域的大数据体制类似的方式前进，一组研究人员提出了一种受到在不同数据上对大型视觉或语言模型的预训练达到泛化效果的启发的解决方案。该团队已经发布了他们的Open X-Embodiment（OXE）仓库，其中包括来自21个机构的22种不同机器人实体的数据集，以及用于促进对X-体现模型的进一步研究的开源工具。该数据集涵盖了超过100万个情景的500多种技能和150,000多个任务。主要目的是证明使用来自不同机器人和环境的数据进行学习的策略可以获得正向转移，并且比仅使用来自特定评估设置的数据进行训练的策略表现更好。

研究人员在这个数据集上训练了高容量模型RT-X。他们的研究主要发现是RT-X显示了正向转移。通过利用来自不同机器人平台的学习内容，该模型在这个广泛的数据集上的训练使其能够增强多个机器人的能力。这一发现意味着可以创造出灵活而有效的一般性机器人规则，适用于各种机器人环境。

该团队使用广泛的机器人数据集训练了两个模型。大型视觉语言模型RT-2和高效的基于Transformer的模型RT-1被训练成以7维向量格式表示位置、方向和握持相关数据的机器人动作。这些模型旨在使机器人更容易处理和操作物体。它们还可以在更广泛的机器人应用和场景上实现更好的泛化。

总之，该研究讨论了将预训练模型应用于机器人中的想法，就像自然语言处理和计算机视觉成功地做到了一样。他们的实验结果显示了这些一般性X-机器人策略在机器人操纵语境下的潜在有效性。