说话机器人：我们的新AI模型将视觉和语言转化为机器人动作

几十年来，当人们设想遥远的未来时，几乎总是会将机器人赋予重要角色。机器人被塑造成可靠、有帮助甚至迷人的形象。然而，在这几十年中，技术一直难以实现——停留在科幻小说的想象领域。

今天，我们推出了机器人技术的一项新进展，让我们更接近一个有用机器人的未来。机器人转换器2号（RT-2）是一种全新的视觉语言行动（VLA）模型。RT-2是基于Transformer模型的，通过训练网络文本和图像数据，可以直接输出机器人的动作。就像语言模型通过训练网络文本来学习一般的思想和概念一样，RT-2通过从网络数据中获得知识来指导机器人的行为。

换句话说，RT-2可以与机器人交流。

机器人学习的现实挑战

追求有用的机器人一直是一项艰巨的任务，因为能够在世界上执行通用任务的机器人需要能够处理复杂、抽象的任务，在高度变化的环境中进行操作——尤其是那些它从未见过的环境。

与聊天机器人不同，机器人需要对现实世界和自身的能力有所了解。它们的训练不仅仅是学习关于苹果的所有知识，比如它是如何生长的、它的物理特性，甚至是那个据说掉在艾萨克·牛顿头上的苹果。机器人需要能够在特定环境中识别苹果，将其与红色球区分开来，理解它的外观，最重要的是，知道如何摘取它。

过去，这通常要求机器人通过直接处理现实世界中每一个物体、环境、任务和情境的数十亿个数据点进行训练，这样的训练过程耗时耗力，对于创新者来说是不切实际的。学习是一项具有挑战性的任务，对于机器人来说尤其如此。

RT-2的新方法

最近的研究改善了机器人的推理能力，甚至使它们能够使用思维链推理来解决多步问题。像PaLM-E这样的视觉模型帮助机器人更好地理解周围环境。而RT-1则表明，Transformer模型，以其在系统间泛化信息的能力而闻名，甚至可以帮助不同类型的机器人互相学习。

但是直到现在，机器人仍然运行在复杂的系统堆栈上，高层推理和低层操作系统之间存在着一种不完美的传输机制，这种机制就像是玩一个电话游戏来操作机器人。想象一下，你想做什么，然后告诉身体的其他部分来实现它。RT-2消除了这种复杂性，使得一个单一的模型不仅可以执行基础模型中的复杂推理，还可以输出机器人的动作。最重要的是，它表明，通过少量的机器人训练数据，系统能够将语言和视觉训练数据中嵌入的概念转化为直接的机器人动作——即使是对于它从未接受过训练的任务。

例如，如果你想让以前的系统能够扔掉一片垃圾，你必须明确地训练它们能够识别垃圾，并能够将其捡起并扔掉。因为RT-2能够从大量的网络数据中获取知识，它已经知道什么是垃圾，并且可以在没有明确训练的情况下识别出来。它甚至知道如何扔掉垃圾，尽管它从未接受过这样的训练。想想垃圾的抽象性——吃完的一袋薯片或香蕉皮成为垃圾。RT-2能够通过它的视觉语言训练数据理解这一点，并完成这项工作。

机器人技术的光明未来

RT-2将信息转化为动作的能力显示出机器人更快地适应新情况和环境的潜力。在对RT-2模型进行6000多次机器人试验时，团队发现RT-2在其训练数据中的任务上与我们之前的模型RT-1的表现相当，而在新颖的、未见过的场景中的性能几乎提升了一倍，从RT-1的32%提高到62%。

换句话说，通过RT-2，机器人能够更像我们一样学习——将学到的概念转化为新的情境。

RT-2不仅展示了人工智能的进步如何迅速应用于机器人技术，而且为更通用的机器人带来了巨大的希望。虽然在人类中心环境中实现有用的机器人仍然需要大量的工作，但RT-2向我们展示了一个激动人心的机器人技术的未来，它近在眼前。

在Google DeepMind博客上阅读完整的故事。