Press "Enter" to skip to content

处理强化学习中大动作空间的五种方法

动作空间,尤其是在组合优化问题中,可能会变得非常庞大。本文讨论了处理它们的五种策略。

And…action! [Photo by Jakob Owens on Unsplash]

处理大的动作空间在强化学习中仍然是一个相当开放的问题。研究人员在处理大的状态空间方面取得了巨大的进展,其中卷积网络和变换器是一些最近的知名例子。然而,有三个所谓的维度诅咒:状态、结果和动作[1]。目前为止,后者仍然相对不被重视。

尽管如此,现在有越来越多的方法试图处理大的动作空间。本文介绍了五种处理大型动作空间的方法,并特别关注组合优化问题中经常遇到的高维离散动作空间

复习:维度诅咒

首先,我们来快速复习一下维度诅咒。假设我们将问题表达为贝尔曼方程组的系统,请注意有三个要评估的集合,在实践中形式为嵌套循环,每个集合可能都非常庞大:

在本质上,强化学习是一种蒙特卡罗模拟,通过随机采样转换而不是枚举所有可能的结果。根据大数定律,样本结果最终应有助于收敛到真实值。通过这种方式,我们将随机问题转化为确定性问题:

这种转换使我们能够处理大的结果空间。为了处理大的状态空间,我们必须能够推广到以前未见过的状态。常见的方法是特征提取或聚合,这是研究关注的主要领域。

由于我们可以评估与状态-动作对应的单个值,而不是评估与之对应的所有结果,因此评估数百或数千个动作通常并不成问题。对于许多问题(例如,国际象棋,视频游戏),这已经足够了,没有必要对动作进行进一步的近似…

Leave a Reply

Your email address will not be published. Required fields are marked *