见识谷歌的RT-2 AI模型-一台像人类一样学习的机器人

见识谷歌的RT-2 AI模型-一台像人类一样学习的机器人四海第1张

虽然神经网络受到人脑运作方式的启发，但它们并不完全相同。但是，如果Google的新RT-2模型能够如其所承诺的那样工作，它可能是迈向类似人工智能的重大一步。由Google的DeepMind介绍，该模型承诺从网络和机器人数据中学习，然后将这些获得的知识转化为对机器人控制的广义指令。

简而言之，这个目标将在人类和机器人之间建立沟通的桥梁，但这还不是全部。它会通过行动来教授。那么RT-2到底是什么呢？团队表示，它是一个视觉-语言-行动（VLA）模型。它是使用基于Transformer的技术开发的，并在从网络中抓取的文本和图像数据上进行训练。

在他们的帖子中，他们提到了训练，“RT-2基于获取一个或多个图像作为输入并产生一系列代表自然语言文本的令牌的VLM，我们调整了Pathways语言和图像模型（PaLI-X）和Pathways语言模型（PaLM-E）以作为RT-2的支柱。”

到目前为止，并不是很有趣。但是RT-2的创新之处在于它能够训练机器人。该模型利用网络数据、概念和一般思想，然后应用这些知识来帮助机器人行为。但是RT-2是如何在任务中进行训练的呢？

根据Google的帖子，“每个任务都需要理解视觉-语义概念，并具备执行机器人控制操作的能力。例如“拿起即将从桌子上掉下来的袋子”或“将香蕉移动到两加一的和”-其中机器人被要求在机器人数据中从未见过的对象或情景上执行操作任务-需要将从基于网络的数据转化为操作的知识。”

它实质上教机器人理解并说出它们人类操作的语言。这一直是一个困难的任务，因为复杂的任务和机器人长时间以来一直关系不佳。这主要是由于机器人必须应对的物理变量，这是其聊天机器人同僚所没有的。

这要求它们对抽象概念和思想有一个基础。这是许多流行的人工智能程序不需要考虑的事情。如上所述，借助提供对其环境更好理解的模型的帮助，我们正在目睹机器人受益于人工智能的进步。

所有这些都有可能取代传统的机器人训练方法，这些方法需要与周围环境相关的数十亿个数据点。这是一项既耗时又消耗资源的任务。因此，随着RT-2能够将知识和概念传输给机器人设备，我们可能会看到对适应性机器人技术的更大推动。

随着视觉建模的进步，由于人工智能的推动，人们可以预期看到机器人技术继续快速发展。