Press "Enter" to skip to content

RL未连接:离线强化学习的基准测试

RL未连接:离线强化学习的基准测试 四海 第1张

RL未连接:离线强化学习的基准测试 四海 第2张

许多强化学习的成功在很大程度上依赖于代理与环境的重复在线交互,我们称之为在线强化学习(online RL)。尽管在仿真中取得了成功,但强化学习在实际应用中的应用还受到限制。发电厂、机器人、医疗系统或自动驾驶汽车的运行成本高,不恰当的控制可能会带来危险后果。它们与强化学习中探索的关键思想和在线强化学习算法的数据要求不易兼容。尽管如此,大多数实际系统在正常运行过程中会产生大量数据,离线强化学习的目标是直接从这些记录的数据中学习策略,而无需与环境进行交互。

离线强化学习方法(例如Agarwal等人,2020年;Fujimoto等人,2018年)在众所周知的基准领域上取得了有希望的结果。然而,非标准化的评估协议、不同的数据集和缺乏基准使算法比较变得困难。尽管如此,一些潜在的实际应用领域的重要特性,如部分可观察性、高维度的感知流(即图像)、多样化的行动空间、探索问题、非稳态性和随机性,在当前的离线强化学习文献中得到了较少的关注。

[插入GIF + 标题]

我们引入了一套新颖的任务领域和相关数据集,以及清晰的评估协议。我们包括了广泛使用的领域,如DM Control Suite(Tassa等人,2018年)和Atari 2600游戏(Bellemare等人,2013年),但也包括对于强大的在线强化学习算法仍具有挑战性的领域,例如实际世界强化学习(RWRL)套件任务(Dulac-Arnold等人,2020年)和DM Locomotion任务(Heess等人,2017年;Merel等人,2019a,b,2020年)。通过标准化环境、数据集和评估协议,我们希望使离线强化学习的研究更具可重复性和可访问性。我们将我们的一套基准称为“RL Unplugged”,因为离线强化学习方法可以在没有任何参与环境交互的情况下使用它。我们的论文提供了四个主要贡献:(i)统一的数据集API(ii)多样化的环境(iii)离线强化学习研究的清晰评估协议,以及(iv)参考性能基线。

离线强化学习的基准测试:RL Unplugged
Leave a Reply

Your email address will not be published. Required fields are marked *