在计算机视觉、人工智能或图形学的背景下,捕捉和编码关于视觉场景的信息被称为场景表示。它涉及创建一个有序或抽象的场景元素和属性表示,包括对象、它们的位置、大小、颜色和关系。机器人在环境中导航时必须在线从机载传感器构建这些表示。
这些表示必须可扩展和高效,以维持场景的体积和机器人的操作持续时间。开放的库不应只限于训练会话中的预定义数据,而应能处理推理过程中的新对象和概念。它需要灵活性,以便在一系列任务上进行计划,例如收集密集的几何信息和抽象的语义信息。
为了满足上述要求,多伦多大学、麻省理工学院和蒙特利尔大学的研究人员提出了一种名为ConceptGraphs的三维场景表示方法,用于机器人感知和规划。使用基础模型获取三维场景表示的传统过程需要整个互联网规模的训练数据,而三维数据集仍然需要具有可比较大小。
这些表示是基于将冗余的语义特征向量分配给每个点的,这消耗了比必要的内存更多的内存,限制了对大规模场景的可扩展性。这些表示是密集的,不能在地图上动态更新,因此无法容易地分解。团队开发的方法能够使用节点表示以图形结构高效地描述场景。它可以建立在实时系统上,可以建立层次化的三维场景表示。
ConceptGraphs是一个以物体为中心的映射系统,将来自三维映射系统的几何数据和来自二维基础模型的语义数据集成在一起。因此,这种将图像和语言基础模型产生的二维表示基于三维世界的尝试在开放词汇任务中展现了令人印象深刻的结果,包括语言引导的对象定位、三维推理和导航。
ConceptGraphs能够高效构建开放词汇的三维场景图形和结构化语义抽象,用于感知和规划。该团队还在实际的轮式和腿式机器人平台上实现了ConceptGraphs,并展示了这些机器人可以轻松执行抽象语言查询的任务规划。
提供RGB-D帧,团队使用一个无类别分割模型来获取候选对象。他们使用几何和语义相似性度量将这些对象关联到多个视图,并在三维场景图中实例化节点。然后,他们使用LVLM为每个节点加标题,并使用LLM推断相邻节点之间的关系,并在场景图中构建边缘。
研究人员表示,未来的工作将涉及将时间动力学整合到模型中,并评估其在结构较少、挑战更大的环境中的性能。最后,他们的模型解决了现有的密集和隐式表示领域的关键局限性。