Press "Enter" to skip to content

活动的离线策略选择

强化学习(RL)近年来在解决实际问题方面取得了巨大进展,离线RL使其更加实用化。现在,我们可以从单个预先录制的数据集中训练许多算法,而不是直接与环境进行交互。然而,当评估手头的策略时,我们失去了离线RL在数据效率方面的实际优势。

例如,在训练机器人操纵器时,机器人资源通常是有限的,通过离线RL在单个数据集上训练许多策略相比在线RL给我们带来了很大的数据效率优势。评估每个策略是一个昂贵的过程,需要与机器人进行成千上万次的交互。当我们选择最佳算法、超参数和训练步骤数量时,问题很快变得棘手。

为了使RL更适用于机器人等实际应用领域,我们提出使用智能评估过程来选择部署策略,称为主动离线策略选择(A-OPS)。在A-OPS中,我们利用预先录制的数据集,并允许有限的与真实环境的交互来提高选择质量。

活跃离线策略选择(A-OPS)从预先录制的数据集和与环境的有限交互中选择最佳策略。

为了最小化与真实环境的交互,我们实施了三个关键特性:

  1. 离策略评估,例如拟合Q评估(FQE),允许我们根据离线数据集对每个策略的性能进行初步估计。在包括实际机器人在内的许多环境中,它与实际性能的真实情况相关性很好,这是首次应用。
FQE分数与在模拟到现实和离线RL设置中训练的策略的真实性能很好地对齐。

策略的回报使用高斯过程进行联合建模,其中观测结果包括FQE分数和机器人收集的少量新的回报。在评估一个策略之后,我们就对所有策略有了了解,因为它们的分布通过策略对之间的内核相关。内核假设如果策略采取相似的行动,例如将机器人夹爪移动到相似的方向,它们往往具有相似的回报。

我们使用OPE分数和时序回报将潜在策略性能建模为高斯过程。
策略之间的相似性通过这些策略产生的行动之间的距离进行建模。
  1. 为了更具数据效率,我们应用贝叶斯优化,并优先评估更有前景的策略,即预测性能高且方差大的策略。

我们在几个领域的多个环境中演示了这个过程:dm-control、Atari、模拟和真实机器人。使用A-OPS可以快速减少遗憾,并在适度数量的策略评估中找到最佳策略。

在真实世界的机器人实验中,A-OPS能够比其他基线更快地找到一个非常好的策略。寻找在20个策略中几乎没有遗憾的策略所需的时间与当前的程序评估两个策略所需的时间相同。

我们的研究结果表明,通过利用离线数据、特殊的内核和贝叶斯优化,仅仅通过少量的环境交互,就可以进行有效的离线策略选择。A-OPS的代码是开源的,并且可在GitHub上获取,还附带有一个示例数据集供尝试。

Leave a Reply

Your email address will not be published. Required fields are marked *