强化学习：SARSA和Q学习-第3部分

介绍用于解决马尔可夫决策过程的时序差异迭代技术家族

Image by Alexey Savchenko on Unsplash — 图片由Alexey Savchenko在Unsplash上提供

在上一篇文章（第2部分）中，我们发现了一些解决马尔可夫决策过程（MDP）的解决算法，即动态规划方法和蒙特卡洛方法。当我们知道MDP的整个环境动态，例如所有状态之间的转移概率（在给定动作的条件下）时，动态规划方法可以很容易地应用。然而，这样的假设在实际应用中可能不切实际，尤其是当我们考虑到在状态和动作之间的随机关系通常含糊不清的真实世界应用时。

在没有转移概率的情况下，我们引入了经验学习的概念，即蒙特卡洛学习。在这种范例下，有一个学习代理在其环境中导航，采取特定“最佳猜测”策略的动作。在这种范例下的试错过程中，策略只在每个回合结束后更新一次。

要重新了解或回顾这些想法，请查看下面的第2部分：

强化学习：动态规划和蒙特卡洛方法 — 第2部分

介绍两种简单的迭代技术以解决马尔可夫决策过程

pub.towardsai.net

然而，正如前文所述，上述解决方案在应用中有一定限制，特别是在无模型场景中，当您需要在回合结束之前即时更新策略时。或者可能是永无止境的回合 — 想象将人生旅程构建为一个MDP。在这种情况下，我们通常会不断更新我们的学习 — 就是采取最佳行动 — 而不是等待到某个特定的时刻进行全面反思，甚至直到我们的生命结束。

为了解决在时间步骤之间不断学习的情况，本文将探讨时序差异（TD）算法家族，即SARSA(0)、SARSA(λ)和Q-learning。SARSA(0)和SARSA(λ)都是时序差异学习的On-Policy变体，而Q-learning是其Off-Policy变体。