蒙特卡洛方法 – 四海吧

一个婴儿机器人的强化学习指南

强化学习简介：第4部分

介绍

我们再次来到赌场，这一次我们来到阳光明媚的蒙特卡洛，这个地方因为在经典电影《马达加斯加3：欧洲大联欢》中的出现而闻名（尽管它可能已经很有名了）。

在我们上次去赌场的时候，我们看了看“多臂赌博机”，并将其作为一种可视化问题的方式，即在面对许多可能的动作时如何选择最佳动作。

就强化学习而言，赌博机问题可以被认为是表示单个状态和该状态下可用的动作。蒙特卡洛方法将这个想法扩展到涵盖多个相互关联的状态。

此外，在我们之前看过的问题中，我们总是被给予环境的完整模型。该模型定义了转移概率，描述了从一个状态转移到另一个状态的机会，以及进行此转移后收到的奖励。

在蒙特卡洛方法中不是这样的。没有给出模型，代理必须通过探索来发现环境的属性，随着从一个状态到另一个状态的移动收集信息。换句话说，蒙特卡洛方法通过经验来学习。

本文中的示例使用定制的“婴儿机器人健身环境”，本文的所有相关代码都可以在Github上找到。

此外，本文的交互式版本可以在“笔记本”形式中找到，您可以实际运行下面描述的所有代码片段。

本系列中的所有先前文章都可以在此处找到：《一个婴儿机器人的强化学习指南》。

此外，如果您想快速回顾本文中使用的理论和术语，请查看《5分钟内的状态值和策略评估》。

蒙特卡洛预测

在预测问题中，我们想要找到在环境的特定状态下的好坏程度。这个“好坏程度”由状态表示…