UC Santa Cruz和三星的研究人员推出了ESC：一种利用像ChatGPT这样的LLMs中的常识进行零射击目标导航决策的代理

UC Santa Cruz和三星的研究人员推出了ESC：一种利用像ChatGPT这样的LLMs中的常识进行零射击目标导航决策的代理四海第1张

对象导航（ObjNav）指导一个物理代理前往一个预先确定的目标对象，而这个环境对于它来说是未知的。前往目标对象是代理与之交互的前提条件，因此对于其他基于导航的具身任务来说，这个活动至关重要。

识别环境中的房间和物体（语义场景理解）以及使用常识推理来推断目标物体的位置（常识推理）是成功导航所必需的两个关键技能。然而，现有的零样本对象导航方法经常缺乏常识推理能力，并且没有充分解决这个需求。现有的技术依赖于简单的探索启发式算法或者需要在其他目标导向的导航任务和环境中进行训练。

最近的研究表明，大规模预训练模型在零样本学习和问题解决方面表现出色。受到这些研究的启发，加州大学圣克鲁兹分校和三星研究提出了一种零样本对象导航框架，称为带有软常识约束的探索（ESC）。该框架使用预训练模型自动适应陌生的环境和物体种类。

团队首先使用GLIP，一种视觉和语言基础模型，用于推断当前代理视图的对象和房间信息，作为一种基于提示的开放世界对象定位和场景理解方法。由于GLIP在图像-文本对上进行了广泛的预训练，它可以在最小提示的情况下轻松推广到新的对象。然后，他们使用了一个预训练的常识推理语言模型，该模型使用房间和对象数据作为上下文来推断两者之间的关联。

然而，将从LLMs中推导出的常识知识转化为可操作的步骤仍存在一些空白。事物之间的联系在某种程度上存在一定的不确定性也是很常见的。通过使用概率软逻辑（PSL），一种声明性模板语言，该语言定义了遵守一阶逻辑原则的一部分马尔可夫随机场，ESC方法模拟了“软”常识限制来克服这些障碍。基于前沿的探索（FBE）是一种传统策略，它利用这些温和的常识限制来关注下一个要调查的前沿。虽然之前的方法依靠神经网络训练来隐式灌输常识，但是所提出的方法使用软逻辑谓词来在连续值空间中表达知识，并将其提供给每个前沿以促进更高效的探索。

为了测试系统的有效性，研究人员使用了三个目标导航基准（MP3D，HM3D和RoboTHOR），这些基准具有不同的家庭规模，建筑风格，纹理特征和物体类型。研究结果显示，该方法在MP3D上以SPL加权长度（SPL）和SR（成功率）约为CoW的285%和RoboTHOR的35%和SR（成功率）表现出色。该技术在MP3D上相对于ZSON实现了196%更好的SPL，相对于HM3D实现了85%更好的SPL，而ZSON需要在HM3D数据集上进行训练。在MP3D数据集上，所提出的零样本方法实现了与其他最先进的监督算法相比最高的SPL。