Press "Enter" to skip to content

认识Powderworld:一个轻量级的模拟环境,用于理解人工智能的泛化

认识Powderworld:一个轻量级的模拟环境,用于理解人工智能的泛化 四海 第1张认识Powderworld:一个轻量级的模拟环境,用于理解人工智能的泛化 四海 第2张

尽管强化学习(RL)和决策过程中取得了最近的进展,但对新任务的概括能力仍然是最主要的问题之一。 RL代理在单任务设置下表现出色,但在面对意外障碍时经常犯错误。此外,单任务RL代理可以在训练时过度拟合任务,使其不适用于实际应用。这就是通用代理的用处所在,它可以成功处理各种前所未有的任务和意外困难。

大多数通用代理都是通过多样化的任务进行训练的。最近的深度学习研究表明,模型的概括能力与使用的训练数据量密切相关。然而,主要问题在于开发训练任务是昂贵且困难的。因此,大多数典型设置在本质上过于具体和狭窄,只关注单一任务类型。这个领域的大部分先前研究都集中在多任务训练的专门任务分布上,特别关注特定的决策问题。强化学习社区将从“基础环境”中获得巨大的好处,该环境允许各种任务源自相同的核心规则,因为越来越需要研究训练任务和概括之间的联系。此外,一个简单比较不同训练任务变化的设置也将是有利的。

为了支持代理学习和多任务概括,麻省理工学院计算机科学与人工智能实验室(CSAIL)的两位研究人员设计了Powderworld,一个仿真环境。这个简单的仿真环境直接在GPU上运行,有效地提供环境动力学。在目前的Powderworld中,还包括两个用于指定世界建模和强化学习任务的框架。虽然在强化学习实例中发现,任务复杂性的增加促进了概括,直到达到特定的拐点后表现下降,但在越来越复杂的环境中训练的世界模型展示了改进的传递性能。团队认为这些结果可以作为进一步社区研究的绝佳跳板,利用Powderworld作为调查概括的初始模型。

Powderworld的开发旨在具有模块化和支持新兴交互的能力,同时又不损失其表达设计的能力。规定附近两个元素应该如何相互作用的基本原则构成了Powderworld的核心。这些规范的一致性为代理的概括能力提供了基础。此外,这些局部互动可以扩展为产生新兴的大规模现象。因此,代理可以通过使用这些基本的Powderworld先验知识进行概括。

RL概括的另一个重要障碍是任务经常是不可调整的。理想的环境应该提供一个空间,可以探索并代表有趣的目标和挑战的任务。每个任务都由Powderworld表示为一个二维元素数组,允许使用各种程序化创建技术。代理更有可能面对这些障碍,因为评估特定代理能力的方式有很多种。由于Powderworld是在GPU上运行的,它可以并行执行大规模的仿真批处理,从而实现高效的运行时。这个优势变得至关重要,因为多任务学习可能非常计算密集。此外,Powderworld使用与神经网络兼容的矩阵形式进行任务设计和代理观察。

在最新版本中,团队为在Powderworld内训练世界模型提供了初步的基础。世界模型的目标是预测在一定数量的仿真时间步骤之后的状态。由于Powderworld实验应该关注概括,所以世界模型的性能是在一组保留的测试状态上报告的。基于多个研究,团队还发现,使用更复杂的训练数据的模型在概括方面表现更好。在训练过程中暴露给模型的元素越多,性能越好,这表明Powderworld的逼真仿真足够丰富,可以改变世界模型的表示。

团队专注于探索用于强化学习的随机多样性任务,其中代理在测试中必须克服未知的障碍。实验评估显示,增加训练任务的复杂性有助于概括,直到任务特定的拐点后,过于复杂的训练任务会在强化学习过程中导致不稳定性。这种复杂性对Powderworld世界建模和强化学习任务中训练的影响的区别引起了有趣的研究问题,这是未来的研究重点。

强化学习的一个主要问题是对新的未经测试的任务进行概括。为了解决这个问题,麻省理工学院的研究人员开发了Powderworld,一个可以为监督学习和强化学习产生任务分布的仿真环境。Powderworld的创建者期望他们的轻量级仿真环境能够促进进一步的研究,以开发一个既强大又计算有效的任务复杂性和代理概括的框架。他们预计未来的研究将利用Powderworld来研究无监督环境设计策略和开放式代理学习以及其他各种主题。

Leave a Reply

Your email address will not be published. Required fields are marked *