Press "Enter" to skip to content

‘信息熵正则化增强学习解释’

通过向你的算法添加熵奖励来学习更可靠、稳健和可转移的策略

照片由Jeremy Thomas在Unsplash上提供

熵是与无序、随机或不确定性状态相关的概念。它可以被视为随机变量的信息度量。传统上,它与热力学等领域相关,但这个术语也在许多其他领域中出现。

1948年,克劳德·香农引入了信息论中的熵概念。在这个背景下,如果一个事件发生的概率较低,则认为它提供更多信息;一个事件的信息与其发生的概率成反相关。直观地说:我们从罕见的事件中学到的更多。

熵的概念可以形式化如下:

在强化学习(RL)中,熵的概念也被应用,目的是鼓励探索。在这个背景下,熵是由随机策略返回的动作的可预测性度量。

具体来说,RL将策略的熵(即动作的概率分布)作为奖励组件的一部分,并将其嵌入其中。本文讨论了基本情况,但熵奖励是许多最先进的RL算法的重要组成部分。

什么是熵?

首先,让我们对熵的概念建立一些直觉。下图分别显示了熵低和熵高的策略。熵低的策略几乎是确定性的;我们几乎总是选择相同的动作。在熵高的策略中,我们在选择动作时有更多的随机性。

低熵策略示例(左)和高熵策略示例(右)。在高熵策略中,动作选择中有更多的随机性[图片由作者提供]

接下来,让我们考虑一下抛硬币的熵。

香农的熵利用了一个对数…

Leave a Reply

Your email address will not be published. Required fields are marked *