Press "Enter" to skip to content

从电机控制到具身智能

使用人类和动物的动作教导机器人运球,并使用模拟人形角色搬运箱子和踢足球

通过试错让人形角色学习穿越障碍赛道,可能导致个体化的解决方案。Heess等人的“富环境中的运动行为的出现”(2017)

五年前,我们接受了一个挑战,教导一个完全可动的人形角色穿越障碍赛道。这展示了通过试错学习可以实现的增强学习(RL)的成果,但也凸显了解决具体化智能的两个挑战:

  1. 重复使用先前学到的行为:需要大量数据让代理“站稳脚跟”。没有任何关于每个关节施加多大力量的初始知识,代理开始随机地抽搐身体,很快摔倒在地。可以通过重复使用先前学到的行为来缓解这个问题。
  2. 个体化的行为:当代理最终学会穿越障碍赛道时,它会以不自然(但有趣)的运动模式进行操作,这对于机器人等应用来说是不实际的。

在这里,我们描述了一种解决这两个挑战的方法,称之为神经概率运动基元(NPMP),其中包括从人类和动物身上得出的运动模式的引导学习,并讨论了这种方法在我们今天在《科学机器人》上发表的“人形足球”论文中的应用。

我们还讨论了这种相同的方法如何使人形角色能够从视觉中进行全身操纵,例如携带物体,以及在现实世界中进行机器人控制,例如运球。

使用NPMP将数据提炼为可控制的运动基元

NPMP是一个通用的运动控制模块,可将短期运动意图转化为低级控制信号,并通过离线或通过RL来模仿运动捕捉(MoCap)数据进行训练,该数据是通过在执行感兴趣的动作的人类或动物身上放置追踪器记录的。

一个代理学习模仿MoCap轨迹(以灰色显示)

该模型由两部分组成:

  1. 编码器将未来的轨迹压缩为运动意图。
  2. 低级控制器根据代理当前状态和运动意图产生下一个动作。
我们的NPMP模型首先将参考数据提炼为低级控制器(左图)。然后,这个低级控制器可以作为即插即用的运动控制模块用于新任务(右图)

训练后,低层控制器可以被重复使用来学习新的任务,其中高层控制器被优化为直接输出电机意图。这样可以实现高效的探索-因为即使是随机采样的电机意图,也可以产生连贯的行为-并限制最终解决方案。

机器人足球中的新兴团队协作

足球一直是具有体现智能研究的长期挑战,需要个体技能和协调的团队合作。在我们最新的工作中,我们使用一个NPMP作为先验知识来指导运动技能的学习。

结果是一个团队的球员,他们从学习追球技能逐渐进步到学习协调。在之前的研究中,我们曾经展示过在相互竞争的团队中可以出现协调行为。NPMP使我们能够观察到类似的效果,但在需要更高级的电机控制的场景中。

从电机控制到具身智能 四海 第4张

代理首先模仿足球运动员的动作学习一个NPMP模块(顶部)。使用NPMP,代理然后学习足球特定的技能(底部)

我们的代理获得了包括灵活的运动、传球和分工等技能,这些技能通过一系列统计指标来展示,包括在现实世界体育分析中使用的指标。球员们展示了既有灵活的高频电机控制,又有涉及对队友行为的预期的长期决策,从而实现了协调的团队合作。

一个代理通过多智能体RL学习足球竞技

全身操控和使用视觉进行认知任务

学习使用手臂与物体交互是另一个困难的控制挑战。NPMP也可以实现这种全身操控。通过少量的MoCap数据,我们能够训练一个代理人使用自我中心视野,仅凭稀疏的奖励信号,将一个箱子从一个位置搬到另一个位置:

从电机控制到具身智能 四海 第7张

通过少量的MoCap数据(顶部),我们的NPMP方法可以解决搬运箱子的任务(底部)

同样,我们可以教会代理人接住和扔球:

模拟机器人接住和扔球

使用NPMP,我们还可以解决涉及动作、感知和记忆的迷宫任务:

模拟机器人在迷宫中收集蓝色球体

真实世界机器人的安全高效控制

NPMP还可以帮助控制真实的机器人。对于像在崎岖地形上行走或处理易碎物品等活动来说,具有良好的规则行为至关重要。抖动的动作可能会损坏机器人本身或其周围环境,或者至少消耗其电池。因此,通常会投入大量精力设计学习目标,使机器人在以安全有效的方式执行我们所希望的任务的同时,表现出规则行为。

作为一种替代方案,我们研究了是否使用从生物运动中衍生的先验知识可以为腿部机器人(如行走、奔跑和转弯)提供良好的规则化、自然化和可重复使用的运动技能,以便在真实世界的机器人上部署。

从人类和狗的MoCap数据开始,我们改编了NPMP方法,以在模拟中训练技能和控制器,然后分别将其部署在真实的人形(OP3)和四足(ANYmal B)机器人上。这使得机器人可以通过操纵杆来操控并以自然而稳健的方式将球传递到目标位置。

ANYmal机器人通过模仿狗的MoCap学习运动技能。

从电机控制到具身智能 四海 第12张

运动技能可以用于可控的行走和运球。

使用神经概率运动原语的好处

总结一下,我们使用NPMP技能模型在模拟和真实世界的机器人中学习了复杂的任务。NPMP以可重复使用的方式打包低级运动技能,使学习那些通过无结构的试错难以发现的有用行为变得更加容易。使用动作捕捉作为先验信息的源,它将运动控制的学习偏向于自然运动。

NPMP使具体化代理能够更快地学习使用RL;学习更加自然的行为;学习适用于真实世界机器人的更安全、高效和稳定的行为;以及将全身运动控制与更长视野的认知技能(如团队合作和协调)相结合。

了解更多关于我们的工作:

  • 查看选定的研究参考文献。
  • 阅读我们在《科学机器人学》上关于人形足球的论文,或观看摘要视频。
  • 阅读我们关于人形全身控制的论文,或观看摘要视频。
  • 阅读我们关于真实世界机器人控制的论文,或观看摘要视频。
Leave a Reply

Your email address will not be published. Required fields are marked *