Press "Enter" to skip to content

这篇来自DeepMind的机器学习研究介绍了在动态环境中进行高级规划的向量量化模型(VQ)

随着技术的不断进步,人工智能成功地使计算机能够以类似于人类思维和学习的方式运作,模仿人脑的智慧。人工智能、机器学习和深度学习等领域的最新进展,已经在包括医疗保健、金融、教育等多个领域得到了提升。近来备受关注的大型语言模型展现了惊人的仿人能力。从问答和文本摘要到代码生成和代码补全,这些模型在各种任务上表现出色。

大型语言模型是通过一种名为强化学习的机器学习范式进行微调的。在强化学习中,智能体通过与周围环境的交互来学习决策能力。它通过在环境中的行为来最大化随时间累积的奖励信号。模型驱动的强化学习最近取得了进展,并在各种需要规划的场景中显示出希望。然而,这些成功仅限于完全可观察且确定的情况。

在最近的研究中,DeepMind的研究团队提出了一种利用矢量量化模型进行规划的新策略。这种方法旨在解决随机和部分可观察环境中的问题。该方法利用状态VQVAE(矢量量化变分自动编码器)和转移模型,将未来的观察编码为离散的潜在变量。这使得它能够适应随机或部分可观察的情境,实现对未来观察和未来行动的规划。

团队表示,这种方法中使用了离散自动编码器来捕捉随机情境中行动的各种可能结果。被称为自动编码器的神经网络设计接收输入数据,将其编码为潜在表示,然后将其解码回原始形式。利用离散自动编码器的方法使得在随机情境中代理行为引起的多种可能结果得以呈现。

为了在此类情境中更容易进行规划,团队使用了蒙特卡洛树搜索的随机变体。蒙特卡洛树搜索是计划和决策过程中常用的一种方法。在此情况下,随机变体允许考虑环境的不确定性。除了代理的行动,规划过程中还包括表示环境可能响应的离散潜在变量。这种全面的方法旨在捕捉部分可观测性和随机性带来的复杂性。

团队对该方法进行了评估,结果表明在一种随机解释的国际象棋中,该方法击败了著名的强化学习系统MuZero的离线变体。从这个角度来看,对手引入了不确定性,并被视为环境的一个重要组成部分。通过DeepMind Lab对该方法的有效实施证明了其可扩展性。这种方法在这种情景中观察到的有利结果证明了它在处理复杂动态环境中的灵活性和有效性。

总之,这种基于模型的强化学习技术扩展了在部分可观察、随机环境中的完全可观察、确定性环境中的有效性。离散自动编码器和随机蒙特卡洛树搜索版本展示了对不确定环境所带来困难的复杂理解,提高了实际应用中的性能。

Leave a Reply

Your email address will not be published. Required fields are marked *