Press "Enter" to skip to content

好奇心是你所需要的一切吗?关于好奇探索中新兴行为的效用

在纯粹的好奇探索过程中,JACO臂发现了如何捡起方块,将它们在工作区移动,并且甚至探索它们是否能够保持在边缘上的平衡。

好奇探索使得OP3能够直立行走,单脚平衡,坐下,甚至在向后跳跃时安全地自我保护,而无需针对特定目标进行优化。

内在动机[1, 2]可以为代理赋予一种在任务信息缺失的情况下持续探索环境的机制。实现内在动机的一种常见方式是通过好奇心学习[3, 4]。使用这种方法,代理的策略训练过程中会训练一个关于环境对代理动作的响应的预测模型,也称为世界模型。当执行一个动作时,世界模型会对代理的下一个观察结果进行预测。然后将这个预测与代理实际观察到的结果进行比较。关键是,代理执行此动作时所获得的奖励会根据其在预测下一个观察结果时产生的误差进行缩放。这样,代理会受到对尚不可预测结果的行动的奖励。同时,世界模型会更新以更好地预测该动作的结果。

这种机制已经成功应用于在线策略设置中,例如以无监督的方式击败2D电脑游戏[4]或训练一个通用策略,该策略可以轻松适应具体的下游任务[5]。然而,我们认为好奇心学习的真正优势在于在好奇探索过程中出现的多样行为:随着好奇目标的变化,代理的行为也会发生变化,从而发现许多复杂策略,如果它们被保留下来并且没有被覆盖,那么以后可以利用它们。

在本文中,我们对好奇心学习进行了两个贡献,并利用其出现的行为:首先,我们引入了SelMo,这是一种基于好奇心的自主驱动方法的离线实现,用于探索。我们展示了使用SelMo,在模拟的操纵和运动领域中,仅基于好奇心目标的优化就能够产生有意义且多样化的行为。其次,我们建议将好奇心学习的应用重点扩展到识别和保留新出现的中间行为。我们通过一个实验支持这个假设,该实验在分层强化学习设置中将自我发现的行为作为预训练的辅助技能重新加载。

<img alt="SelMo方法的控制流程:代理(actor)使用其当前策略在环境中收集轨迹,并将其存储在左侧的模型重放缓冲区中。连接的世界模型均匀地从该缓冲区中采样,并使用随机梯度下降(SGD)更新其参数以进行前向预测。采样的轨迹被分配了好奇心奖励,其大小由当前世界模型下的相应预测误差进行缩放。标记的轨迹然后传递给右侧的策略重放缓冲区。最大后验策略优化(MPO)[6]用于根据策略重放的样本来拟合Q函数和策略。然后将生成的更新策略同步回actor。

我们在两个模拟连续控制机器人领域中运行了SelMo:一个具有三指夹爪的6自由度JACO臂和一个具有20自由度的人形机器人OP3。这些平台分别为物体操纵和运动提供了具有挑战性的学习环境。尽管仅优化好奇心,我们观察到在训练过程中出现了复杂的人类可解释行为。例如,JACO学会了在没有任何监督的情况下捡起和移动方块,OP3学会了单脚平衡或安全地坐下而不倒下。

好奇心是你所需要的一切吗?关于好奇探索中新兴行为的效用 四海 第1张

JACO和OP3的示例训练时间轴。在优化好奇心目标的过程中,复杂而有意义的行为都会在操作和移动设置中出现。完整的视频可以在本页面顶部找到。

然而,在好奇心探索中观察到的令人印象深刻的行为有一个关键的缺点:它们并不持久,因为它们会随着好奇心奖励函数的变化而改变。当代理不断重复某种行为,例如JACO举起红色立方体时,该策略累积的好奇心奖励会逐渐减少。因此,这导致学习一个修改后的策略,该策略再次获得更高的好奇心奖励,例如将立方体移出工作空间,甚至关注其他立方体。但这种新行为会覆盖旧行为。然而,我们相信保留从好奇心探索中出现的行为能够为代理提供一个宝贵的技能集,以更快地学习新任务。为了验证这个假设,我们设置了一个实验来探究自发发现技能的效用。

好奇心是你所需要的一切吗?关于好奇探索中新兴行为的效用 四海 第3张

我们将从好奇心探索的不同阶段随机采样的快照作为模块化学习框架[7]中的辅助技能,并通过使用这些辅助技能来衡量学习新目标技能的速度。在JACO臂的情况下,我们将目标任务设置为“举起红色立方体”,并使用五个随机采样的自发发现行为作为辅助技能。我们将这个下游任务的学习与使用奖励函数课程奖励到达和移动红色立方体的SAC-X基线[8]进行比较,这最终有助于学习举起红色立方体。我们发现,即使是这种简单的技能重用设置,也能够加速下游任务的学习进展,与手动设计的奖励课程相当。结果表明,从好奇心探索中自动识别和保留有用的新行为是未来无监督强化学习研究的一个有成果的方向。

Leave a Reply

Your email address will not be published. Required fields are marked *