处理强化学习中大动作空间的五种方法

动作空间，尤其是在组合优化问题中，可能会变得非常庞大。本文讨论了处理它们的五种策略。

处理大的动作空间在强化学习中仍然是一个相当开放的问题。研究人员在处理大的状态空间方面取得了巨大的进展，其中卷积网络和变换器是一些最近的知名例子。然而，有三个所谓的维度诅咒：状态、结果和动作[1]。目前为止，后者仍然相对不被重视。

尽管如此，现在有越来越多的方法试图处理大的动作空间。本文介绍了五种处理大型动作空间的方法，并特别关注组合优化问题中经常遇到的高维离散动作空间。

首先，我们来快速复习一下维度诅咒。假设我们将问题表达为贝尔曼方程组的系统，请注意有三个要评估的集合，在实践中形式为嵌套循环，每个集合可能都非常庞大：

在本质上，强化学习是一种蒙特卡罗模拟，通过随机采样转换而不是枚举所有可能的结果。根据大数定律，样本结果最终应有助于收敛到真实值。通过这种方式，我们将随机问题转化为确定性问题：

这种转换使我们能够处理大的结果空间。为了处理大的状态空间，我们必须能够推广到以前未见过的状态。常见的方法是特征提取或聚合，这是研究关注的主要领域。

由于我们可以评估与状态-动作对应的单个值，而不是评估与之对应的所有结果，因此评估数百或数千个动作通常并不成问题。对于许多问题（例如，国际象棋，视频游戏），这已经足够了，没有必要对动作进行进一步的近似…