Press "Enter" to skip to content

观察和学习小机器人:这种人工智能方法通过人类视频演示教导机器人具有普适操纵能力

观察和学习小机器人:这种人工智能方法通过人类视频演示教导机器人具有普适操纵能力 四海 第1张观察和学习小机器人:这种人工智能方法通过人类视频演示教导机器人具有普适操纵能力 四海 第2张

机器人一直是科技领域的关注焦点。它们总是在科幻电影、儿童节目、书籍、反乌托邦小说等领域中占据一席之地。不久之前,它们只是科幻中的梦想,但现在它们无处不在,重塑着各行各业,并让我们瞥见未来。 从工厂到外太空,机器人正扮演主角,展示其前所未有的精确性和适应性。

机器人领域的主要目标一直是相同的:模仿人类的灵巧。通过整合手中的摄像头,无论是作为传统静态第三人称摄像头的补充还是替代品,已经取得了令人兴奋的进展,以提高操纵能力。

尽管手中的摄像头具有巨大的潜力,但它们并不能保证无误的结果。基于视觉的模型常常在现实世界的波动中遇到困难,例如背景的变化、光照的变化和物体外观的变化,从而导致脆弱性。

为了解决这个挑战,最近出现了一套新的泛化技术。不再依赖于视觉数据,而是使用多样的机器人演示数据来教授机器人特定的动作策略。这在一定程度上是有效的,但是有一个主要问题。它非常昂贵,真的非常昂贵。在真实的机器人环境中收集这样的数据意味着耗时的任务,比如运动学教学或通过VR头盔或操纵杆进行机器人远程操作。

我们真的需要依赖这种昂贵的数据集吗?既然机器人的主要目标是模仿人类,为什么我们不能只使用人类演示视频呢?人类执行任务的视频提供了一种更具成本效益的解决方案,因为人类的灵活性。这样做可以捕捉到多个示范,而无需不断重置机器人、硬件调试或费力的重新定位。这提供了一个有趣的可能性,即利用人类视频演示来提高以视觉为中心的机器人操纵器的泛化能力,规模化应用。

然而,弥合人类和机器人领域之间的差距并不是一件轻而易举的事情。人类和机器人之间外观上的差异引入了一个需要仔细考虑的分布偏移。让我们来看看新的研究,“给机器人一个帮手”,它弥合了这一差距。

现有的方法采用第三人称摄像机视角来应对这一挑战,其中涉及图像转换、领域不变的视觉表示,甚至利用关于人类和机器人状态的关键点信息的领域适应策略。

观察和学习小机器人:这种人工智能方法通过人类视频演示教导机器人具有普适操纵能力 四海 第3张
给机器人一个帮手的概述。来源:https://arxiv.org/pdf/2307.05959.pdf

相比之下,“给机器人一个帮手”采用了一种令人耳目一新的简单方法:遮盖每个图像的一个一致部分,有效地隐藏了人类手部或机器人末端执行器。这种简单的方法避开了复杂的领域适应技术的需求,使机器人能够直接从人类视频中学习操纵策略。因此,它解决了由于人到机器人图像转换而产生的明显视觉不一致性等明确领域适应方法带来的问题。

观察和学习小机器人:这种人工智能方法通过人类视频演示教导机器人具有普适操纵能力 四海 第4张
该方法可以训练机器人执行各种任务。来源:https://giving-robots-a-hand.github.io/

“给机器人一个帮手”的关键在于该方法的探索性质。它将广泛的手动视频演示与环境和任务泛化相结合。它在一系列真实世界的机器人操纵任务中取得了惊人的表现,包括到达、抓取、拾取和放置、堆叠方块、清理盘子、打包玩具等。该方法显著提高了泛化能力。与仅在机器人演示中训练的策略相比,它使策略能够适应未知的环境和新的任务,平均绝对成功率在未知环境和任务中增加了58%。

Leave a Reply

Your email address will not be published. Required fields are marked *