Press "Enter" to skip to content

这篇来自麻省理工学院的AI论文介绍了一种新的机器人操控方法:通过蒸馏特征场和视觉语言模型来弥合二维到三维的差距

麻省理工学院(MIT)和人工智能和基本相互作用研究所(IAIFI)的一个研究团队引入了一个突破性的机器人操纵框架,解决了让机器人在不可预测和杂乱的环境中理解和操作物体的挑战。目前面临的问题是机器人需要对三维几何有详细的理解,而这常常在二维图像特征中缺乏。

目前,许多机器人任务需要同时具备空间和语义理解。例如,一个仓库机器人可能需要根据产品清单中的文字描述从杂乱的存储箱中拿起一个物品。这就需要机器人能够基于几何属性和语义属性稳定地抓取物体。

为了弥合二维图像特征和三维几何之间的差距,研究人员开发了一个名为机器人操纵特征场(F3RM)的框架。这种方法利用经过训练的视觉和视觉语言模型提取特征,并将其蒸馏成三维特征场。

F3RM框架包括三个主要组成部分:特征场蒸馏、使用特征场表示6自由度姿势和使用开放文本语言指导。蒸馏特征场 (DFFs) 扩展了神经辐射场 (NeRF) 的概念,其中包括一个额外的输出来从视觉模型中重建密集2D特征,这使得模型能够将一个3D位置映射到一个特征向量,结合了空间和语义信息。

对于姿势表示,研究人员使用夹爪坐标系中的一组查询点,这些点从3D高斯分布中采样得到。这些点被转换到世界坐标系中,特征根据局部几何进行加权。得到的特征向量被串联成姿势的表示。

该框架还包括能够结合自然语言命令进行对象操作的能力。机器人在测试过程中接收指定要操作的对象的自然语言查询。然后,它检索相关的演示,初始化粗略的抓取,根据提供的语言指导优化抓取姿势。

就结果而言,研究人员进行了关于抓取和放置任务以及语言引导操纵的实验。它可以理解物体之间的密度、颜色和距离。对杯子、马克杯、螺丝刀柄和蠕虫耳朵的实验显示了成功的运行。机器人可以推广到在形状、外观、材料和姿势上差异显著的物体。它还成功地回应了自由文本的自然语言命令,即使对于演示过程中未见过的新类别的物体。

总之,F3RM框架为机器人操纵系统的开放集合泛化挑战提供了一个有希望的解决方案。通过结合2D视觉先验和3D几何并融合自然语言指导,它为机器人在各种复杂和杂乱环境中处理复杂任务铺平了道路。虽然仍然有一些限制,如模拟每个场景所需的时间,但该框架在推进机器人和自动化领域方面具有重要潜力。

Leave a Reply

Your email address will not be published. Required fields are marked *