通过向你的算法添加熵奖励来学习更可靠、稳健和可转移的策略
熵是与无序、随机或不确定性状态相关的概念。它可以被视为随机变量的信息度量。传统上,它与热力学等领域相关,但这个术语也在许多其他领域中出现。
1948年,克劳德·香农引入了信息论中的熵概念。在这个背景下,如果一个事件发生的概率较低,则认为它提供更多信息;一个事件的信息与其发生的概率成反相关。直观地说:我们从罕见的事件中学到的更多。
熵的概念可以形式化如下:
在强化学习(RL)中,熵的概念也被应用,目的是鼓励探索。在这个背景下,熵是由随机策略返回的动作的可预测性度量。
具体来说,RL将策略的熵(即动作的概率分布)作为奖励组件的一部分,并将其嵌入其中。本文讨论了基本情况,但熵奖励是许多最先进的RL算法的重要组成部分。
什么是熵?
首先,让我们对熵的概念建立一些直觉。下图分别显示了熵低和熵高的策略。熵低的策略几乎是确定性的;我们几乎总是选择相同的动作。在熵高的策略中,我们在选择动作时有更多的随机性。
接下来,让我们考虑一下抛硬币的熵。
香农的熵利用了一个对数…