遇见KITE：一种使用关键点作为视觉定位和精确动作推理的语义操作的AI框架

遇见KITE：一种使用关键点作为视觉定位和精确动作推理的语义操作的AI框架四海第1张

随着人工智能领域的不断发展，AI技术开始与机器人相结合。从计算机视觉和自然语言处理到边缘计算，AI与机器人融合以开发有意义且有效的解决方案。AI机器人是在现实世界中行动的机器。考虑到语言作为人与机器人之间的交流工具是很重要的。然而，有两个主要问题阻碍了现代机器人有效处理自由形式的语言输入。第一个挑战是让机器人根据提供的指令推理出它需要操作的内容。另一个是拾取和放置任务，需要在拾取像毛绒动物的耳朵而不是腿部，或者在拾取肥皂瓶的出液器而不是侧面时进行仔细的区分。

机器人必须从输入指令中提取场景和对象语义，并根据语义操纵执行准确的低级动作。为了克服这些挑战，斯坦福大学的研究人员提出了KITE（关键点+指令到执行）框架，这是一个用于语义操纵的两步骤框架。KITE同时考虑了场景语义和对象语义。对象语义精确定位了对象实例中的各个部分，而场景语义涉及在视觉场景中区分各种对象。

KITE的第一阶段涉及使用2D图片关键点将输入指令与视觉上下文相结合。对于后续的动作推断，这个过程提供了一个非常准确的以对象为中心的偏见。通过将命令映射到场景中的关键点，机器人对物品及其相关特征有了准确的理解。KITE的第二步是根据RGB-D场景观察执行学习到的关键点条件技能。机器人使用这些参数化的技能来执行提供的指令。关键点和参数化技能共同提供了对场景和物体差异的精细操纵和泛化能力。

为了评估KITE的性能，团队在三个实际环境中进行了评估：高精度制作咖啡，语义抓取和长期规划的6自由度桌面操纵。在制作咖啡任务中，KITE的成功率为71%，语义抓取的成功率为70%，在桌面操纵场景中遵循指令的成功率为75%。KITE在使用基于关键点的基础架构与预训练的视觉语言模型相比的框架中表现更好。它优于强调端到端视觉运动控制而非技能使用的框架。

尽管在训练过程中所示的示范相同或更少，KITE仍然实现了这些结果，这表明了其效果和效率。为了将图像和语言短语映射到显著性热图，并产生关键点，KITE使用了一种类似CLIPort的技术。为了输出技能路径点，技能架构修改了PointNet++，以接受带有关键点注释的多视点点云输入。2D关键点使KITE能够准确关注视觉特征，而3D点云为规划提供了必要的6自由度上下文。

总之，KITE框架提供了一个有希望的解决方案，解决了长期以来使机器人能够解释和遵循自然语言命令的挑战。它通过利用关键点和指令操纵的能力实现了精细的语义操纵，具有高精度和泛化能力。