Press "Enter" to skip to content

CMU研究人员提出了TIDEE:一种具有体现能力的代理,可以在从未见过的房间中整理,而无需任何明确的指令

CMU研究人员提出了TIDEE:一种具有体现能力的代理,可以在从未见过的房间中整理,而无需任何明确的指令 四海 第1张CMU研究人员提出了TIDEE:一种具有体现能力的代理,可以在从未见过的房间中整理,而无需任何明确的指令 四海 第2张

有效的机器人操作不仅仅需要盲目遵守预设命令。当明显偏离正常情况时,机器人应该作出反应,并且能够从不完整的指令中推断出重要的上下文信息。部分或自生成的指令需要一种推理能力,这种推理能力需要对环境中的事物(物体、物理、其他代理等)的行为有扎实的理解。这种思考和行动方式是具有身临其境的常识推理的关键组成部分,对于机器人在现实世界中自然工作和交互是至关重要的。

与能够遵循具体的逐步指令的具体化代理相比,身临其境的常识思考领域滞后,因为后者必须学会在没有明确指令的情况下观察和行动。通过整理物品等任务可以研究身临其境的常识思考,其中代理必须识别错误放置的物品,并采取纠正措施将其放回更合适的位置。代理必须在搜索可能的物体位移位置时智能地导航和操作,识别当前场景中物体是否在其自然位置之外,并确定将物体重新定位到正确位置。物体放置的常识推理和智能存在的可取技能在这个挑战中相结合。

TIDEE是由研究团队开发的一个提议的身临其境的代理,它可以在没有指导的情况下清理它以前从未见过的空间。TIDEE是第一种类型,因为它可以扫描场景以查找不在正确位置的物品,找出在场景中放置它们的位置,然后精确地将它们移动到那里。

TIDEE调查了一个家庭周围的环境,找到错放的物品,推断出它们的可能物体上下文,将这些上下文定位在当前场景中,并将物体移回其正确位置。常识先验知识被编码在视觉搜索网络中,该网络指导代理在当前场景中寻找感兴趣的容器,以重新定位物体;ii) 视觉语义检测器可以检测到放错位置的物体;iii) 关联神经图记忆记录了事物和空间关系,为物体重新定位提出了合理的语义容器和表面。研究人员使用AI2THOR模拟环境让TIDEE清理混乱的环境。TIDEE仅通过像素和原始深度输入完成任务,而没有事先见过同一个房间,仅仅使用从不同训练家庭的收集中学到的先验知识。根据对房间布局变化的人工评估,TIDEE的性能优于除去一个或多个常识先验的模型的变体。

CMU研究人员提出了TIDEE:一种具有体现能力的代理,可以在从未见过的房间中整理,而无需任何明确的指令 四海 第3张

TIDEE可以在没有任何指导或先前接触相关地点或物体的情况下整理它从未见过的空间。TIDEE通过环顾四周的区域,识别物品并将它们标记为正常或异常来实现这一点。TIDEE利用其场景图和外部图形存储进行图推理,以推断物体不在原位时的可能容器类别。然后,它使用场景的空间语义地图来引导基于图像的搜索网络,以可能的容器类别的可能位置。

它是如何工作的?

TIDEE通过三个不同的步骤来清理房间。TIDEE首先扫描区域,并在每个时间步骤运行异常检测器,直到发现可疑物体。然后,TIDEE移动到物品所在的位置并抓取它。第二步涉及TIDEE根据场景图和联合外部图形存储推断物品的可能容器。如果TIDEE尚未识别容器,它将使用视觉搜索网络引导其对区域的探索,并建议容器可能被发现的位置。TIDEE在内存中保留先前识别物体的估计3D质心,并使用此信息进行导航和物体跟踪。

使用商用可用的物体检测器收集每个物品的视觉属性。同时,通过为物体之间的3D关系(如“旁边”,“支持”,“上方”等)提供预训练的语言模型预测,生成关系语言特征。

TIDEE包含一个神经图模块,用于在拾起物体后预测可能的物品放置点子。物品放置、从训练场景中学到的可能的上下文连接的内存图以及编码了当前场景中的物体关系配置的场景图相互作用,使模块能够正常工作。

TIDEE采用光学搜索网络,在障碍物地图中预测每个空间点上物体存在的可能性,给定语义障碍物地图和搜索类别。然后,代理程序查看它认为最有可能包含目标的那些区域。

TIDEE有两个缺点,这两个缺点都是未来研究的明显方向:它没有考虑物品的打开和关闭状态,也没有将它们的3D姿势包括在混乱和重组过程的一部分。

有可能随意散落在房间中的东西所导致的混乱可能不代表真实生活中的混乱。

TIDEE直接从像素和原始深度输入完成任务,而无需事先看到相同的房间,仅使用从不同的训练房屋集合中学习到的先验知识。根据对结果房间布局变化的人类评估,TIDEE的性能优于排除一个或多个常识先验的模型的削弱变体。简化的模型版本在可比较的房间重新布局基准测试中远远优于表现最佳的解决方案,使代理程序能够在重新布局之前观察客观状态。

Leave a Reply

Your email address will not be published. Required fields are marked *