Press "Enter" to skip to content

蒙特卡洛方法

一个婴儿机器人的强化学习指南

强化学习简介:第4部分

作者提供的所有图像

介绍

我们再次来到赌场,这一次我们来到阳光明媚的蒙特卡洛,这个地方因为在经典电影《马达加斯加3:欧洲大联欢》中的出现而闻名(尽管它可能已经很有名了)。

在我们上次去赌场的时候,我们看了看“多臂赌博机”,并将其作为一种可视化问题的方式,即在面对许多可能的动作时如何选择最佳动作。

就强化学习而言,赌博机问题可以被认为是表示单个状态和该状态下可用的动作。蒙特卡洛方法将这个想法扩展到涵盖多个相互关联的状态。

此外,在我们之前看过的问题中,我们总是被给予环境的完整模型。该模型定义了转移概率,描述了从一个状态转移到另一个状态的机会,以及进行此转移后收到的奖励。

在蒙特卡洛方法中不是这样的。没有给出模型,代理必须通过探索来发现环境的属性,随着从一个状态到另一个状态的移动收集信息。换句话说,蒙特卡洛方法通过经验来学习。

本文中的示例使用定制的“婴儿机器人健身环境”,本文的所有相关代码都可以在Github上找到。

此外,本文的交互式版本可以在“笔记本”形式中找到,您可以实际运行下面描述的所有代码片段。

本系列中的所有先前文章都可以在此处找到:《一个婴儿机器人的强化学习指南》。

此外,如果您想快速回顾本文中使用的理论和术语,请查看《5分钟内的状态值和策略评估》。

蒙特卡洛预测

在预测问题中,我们想要找到在环境的特定状态下的好坏程度。这个“好坏程度”由状态表示…

Leave a Reply

Your email address will not be published. Required fields are marked *