Press "Enter" to skip to content

谷歌DeepMind研究人员推出了RT-2:一种新颖的视觉-语言-动作(VLA)模型,它通过网络和机器人数据学习,并将其转化为行动

谷歌DeepMind研究人员推出了RT-2:一种新颖的视觉-语言-动作(VLA)模型,它通过网络和机器人数据学习,并将其转化为行动 四海 第1张谷歌DeepMind研究人员推出了RT-2:一种新颖的视觉-语言-动作(VLA)模型,它通过网络和机器人数据学习,并将其转化为行动 四海 第2张

大型语言模型可以实现流畅的文本生成、新颖的问题解决和创造性的散文和代码生成。相比之下,视觉-语言模型可以实现开放词汇的视觉识别,甚至可以对图像中的物体-代理交互进行复杂推理。机器人学习新技能的最佳方式需要进一步明确。与在网络上训练最先进的语言和视觉-语言模型所使用的数十亿个标记和照片相比,从机器人收集的数据量可能无法相提并论。然而,要立即将这些模型适应到机器人活动中也具有挑战性,因为这些模型推理语义、标签和文本提示。相比之下,机器人必须接受低级别的指导,例如使用笛卡尔末端执行器。

Google Deepmind的研究旨在通过直接将基于互联网规模数据训练的视觉-语言模型直接融入端到端的机器人控制中,改善泛化能力并实现新兴语义推理。借助基于网络的语言和视觉-语言数据,我们旨在创建一个综合训练的模型,用于将机器人观察连接到动作。他们提出使用来自机器人轨迹和在互联网上进行的大规模视觉问答练习的数据,一起对最先进的视觉-语言模型进行微调。与其他方法相比,他们提出了一种简单通用的方法:将机器人动作表达为文本标记,并直接将其纳入模型的训练集中,就像处理自然语言标记一样。研究人员研究了视觉-语言-动作模型(VLA),RT-2是其中一个模型的实例。通过严格的测试(6,000个评估试验),他们可以确定RT-2通过基于互联网的训练获得了各种新兴技能,并且该技术导致了有效的机器人策略。

Google DeepMind推出了RT-2,这是一个基于Transformer的模型,它是作为其机器人Transformer模型1的后续而训练的,该模型是使用从网络获取的文本和图像进行训练的,可以直接执行机器人操作。使用机器人动作来表示作为第二语言的信息,可以将其转换为文本标记,并与在线可用的大规模视觉-语言数据集一起进行教学。推断涉及将文本标记解码为机器人行为,然后通过反馈循环进行控制。这使得可以将视觉-语言模型的一部分泛化、语义理解和推理能力转移到学习机器人策略上。在项目网站https://robotics-transformer2.github.io/上,RT-2团队提供了其使用的实时演示。

该模型保留了在机器人数据中发现的物理技能的应用能力。同时,它还通过阅读从网络中获取的视觉和语言命令来学习在新环境中使用这些技能。即使在机器人数据中不包含诸如精确数字或图标之类的语义线索,该模型也可以重新利用其学到的拾取和放置技能。在机器人演示中没有提供这样的关系,但该模型可以正确选择物体并将其放置在正确的位置。此外,如果命令附带一系列思路提示,例如知道岩石是 improvises锤子的最佳选择或者知道能量饮料是疲劳时的最佳选择,模型还可以进行更复杂的语义推理。

Google DeepMind的主要贡献是RT-2,这是一系列通过将基于网络规模数据进行微调的巨型视觉-语言模型创建的模型,用于作为具有泛化能力和语义感知的机器人规则。实验使用了多达550亿个参数的模型,这些参数是从公开可用的数据中学习的,并用机器人运动命令进行了注释。通过6,000个机器人评估,他们证明RT-2在对象、场景和指令的泛化方面取得了显著进展,并展示了一系列新兴能力,这些能力是基于互联网规模的视觉-语言预训练的副产品。

主要特点

  • RT-2的推理、符号解释和人类识别能力可在广泛的实际场景中使用。
  • RT-2的结果表明,使用机器人数据预训练VLMs可以使它们成为直接控制机器人的强大视觉-语言-动作(VLA)模型。
  • 一个有希望的方向是构建一个能够思考、解决问题并理解信息以完成实际世界中各种活动的通用物理机器人,就像RT-2一样。
  • RT-2展示了它在处理各种任务方面的适应性和效率,它可以将语言和视觉训练数据转化为机器人动作。

限制

尽管RT-2具有令人鼓舞的泛化特性,但它也存在一些缺点。研究表明,通过VLMs(视觉语言模型)引入Web规模的预训练可以提高对语义和视觉概念的泛化能力,但这并不意味着机器人在执行动作方面具备了新的能力。尽管模型只能以新颖的方式利用机器人数据中存在的物理能力,但它确实学会了更好地利用自己的能力。研究人员认为,这是因为样本在能力维度上需要更多的多样性。新的数据收集范例,比如人类的电影,为未来研究获取新技能提供了有趣的机会。

总之,Google DeepMind的研究人员证明了大型VLA模型可以实时运行,但这需要相当大的计算开销。随着这些方法被应用于需要高频控制的情况,实时推理风险成为一个重要瓶颈。量化和蒸馏方法可以让这些模型更快地运行或在更便宜的硬件上运行,这是未来研究的有吸引力的领域。这与另一个现有限制相关,即相对较少的VLM模型可以用于开发RT-2。

来自Google DeepMind的研究人员总结了通过将预训练与视觉语言模型(VLMs)和机器人数据进行整合来训练视觉-语言-动作(VLA)模型的过程。然后他们引入了两个VLA的变种(RT-2-PaLM-E和RT-2-PaLI-X),分别受到PaLM-E和PaLI-X的启发。这些模型通过机器人轨迹的数据进行微调,以生成机器人动作,并将其分词为文本。更重要的是,他们证明了这种技术改进了泛化性能和从Web规模的视觉语言预训练中继承的新兴能力,从而导致非常有效的机器人策略。根据Google DeepMind的说法,机器人学习领域现在通过这种简单而通用的方法论得到了从其他领域改进的战略定位。

Leave a Reply

Your email address will not be published. Required fields are marked *