Press "Enter" to skip to content

在视频游戏世界中构建交互式代理

介绍了一个框架,用于创建能够理解人类指令并在开放式环境中执行操作的AI代理

人类行为非常复杂。即使是一个简单的请求,比如“将球放近盒子”,仍然需要对情境意图和语言进行深入理解。像“近”的含义可能很难确定 – 把球放在盒子里可能在技术上是最靠近的,但说话者可能希望球放在盒子旁边。要正确地对请求采取行动,人们必须能够理解和判断情况和周围环境。

大多数人工智能(AI)研究人员现在认为,编写能够捕捉情境交互细微差别的计算机代码是不可能的。相反,现代机器学习(ML)研究人员专注于从数据中学习这些类型的交互。为了探索这些基于学习的方法,并快速构建能够理解人类指令并在开放式条件下安全执行操作的代理,我们在一个视频游戏环境中创建了一个研究框架。

今天,我们发布了一篇论文和一系列视频,展示了我们在构建能够理解模糊人类概念的视频游戏AI方面的初步步骤 – 因此,能够开始根据自己的条件与人们进行互动。

近年来,在训练视频游戏AI方面取得的许多进展都依赖于优化游戏得分。通过计算机代码计算的明确胜负对于训练《星际争霸》和《刀塔》的强大AI代理非常重要。我们不是优化游戏得分,而是要求人们发明任务并自行评判进展。

通过这种方法,我们开发了一种研究范式,通过与人类的基于实践和开放式的互动来改进代理行为。虽然还处于初级阶段,但这种范式能够创造出能够实时听取、交谈、提问、导航、搜索和检索、操作物体以及执行许多其他活动的代理。

这个合集展示了代理根据人类参与者提出的任务的行为:

我们创建了一个虚拟的“游戏房子”,里面有数百个可识别的物体和随机配置。该界面设计简单且安全,包括一个用于自由沟通的聊天窗口。

在“游戏房子”中的学习

我们的框架始于人们在视频游戏世界中与其他人进行互动。使用模仿学习,我们给代理注入了广泛但未经精炼的行为集。这种“行为先验”对于实现能够由人类评判的互动至关重要。如果没有这个初始的模仿阶段,代理将完全随机且几乎不可能进行互动。通过人类对代理行为的进一步评判和强化学习(RL)对这些评判的优化,我们可以获得更好的代理,然后再次改进。

我们通过(1)模仿人类-人类的互动构建代理,然后通过(2)人类-代理的互动和人类反馈、(3)奖励模型训练以及(4)强化学习来改进代理。

首先,我们建立了一个基于儿童“游戏屋”概念的简单视频游戏世界。这个环境为人类和代理人的互动提供了一个安全的场景,并且使得快速收集大量的互动数据变得容易。房屋内设有各种房间、家具和物品,每次互动都会以新的布局进行配置。我们还创建了一个用于互动的界面。

游戏中的人类和代理人都有一个角色头像,使他们能够在环境中移动和操纵。他们还可以实时聊天并共同参与活动,比如携带物品并互相交给对方,搭建积木塔或一起打扫房间。人类参与者通过在世界中导航、设定目标和向代理人提问来为互动设定背景。总体而言,该项目收集了代理人和数百名(人类)参与者之间超过25年的实时互动数据。

观察出现的行为

我们训练的代理人能够完成各种各样的任务,其中一些任务并未被构建它们的研究人员预期。例如,我们发现这些代理人可以使用两种交替的颜色搭建物体行列,或者从一个与用户手中物体相似的房屋中取出一个物体。

这些惊喜的出现是因为语言允许通过简单含义的组合来完成几乎无限的任务和问题。此外,作为研究人员,我们不会指定代理人行为的细节。相反,在这些互动过程中,数百名参与者提出了任务和问题。

构建创建这些代理人的框架

为了创建我们的人工智能代理人,我们采取了三个步骤。首先,我们训练代理人模仿简单人类互动的基本要素,其中一个人要求另一个人做某事或回答一个问题。我们将这个阶段称为创建行为先验,使代理人能够与人类进行高频率的有意义互动。如果没有这个模仿阶段,代理人只会随机移动和胡言乱语。几乎不可能以任何合理的方式与它们进行互动,给予它们反馈更加困难。这个阶段在我们的两篇早期论文《模仿交互智能》和《利用模仿和自监督学习创建多模态交互代理人》中有所涉及,这两篇论文探讨了基于模仿的代理人构建。

超越模仿学习

虽然模仿学习会产生有趣的互动,但它将每一刻的互动都视为同等重要。为了学习高效的目标导向行为,代理人需要追求目标,并在关键时刻掌握特定的动作和决策。例如,基于模仿的代理人不能可靠地选择捷径或者比普通人类玩家更熟练地执行任务。

以下是一个基于模仿学习的代理人和一个基于强化学习的代理人遵循相同人类指令的示例:

为了赋予我们的代理人超越模仿的目的感,我们依靠强化学习,它结合了试错和性能度量进行迭代改进。当代理人尝试不同的动作时,改善性能的动作会得到强化,而降低性能的动作则会受到惩罚。

在Atari、Dota、围棋和星际争霸等游戏中,分数提供了一个改进性能的性能度量。我们没有使用分数,而是要求人类评估情况并提供反馈,这有助于我们的代理人学习奖励模型。

训练奖励模型和优化代理人

为了训练奖励模型,我们要求人类判断他们是否观察到表明当前指导目标取得显著进展或明显错误或失误的事件。然后,我们将这些积极和消极事件与积极和消极偏好进行对应。由于这些判断发生在时间上,我们将其称为“跨时期”的判断。我们训练了一个神经网络来预测这些人类偏好,并得到了反映人类反馈的奖励(或效用/评分)模型。

一旦我们使用人类偏好训练了奖励模型,我们就将其用于优化代理人。我们将我们的代理人放入模拟器中,并指导他们回答问题和遵循指令。当他们在环境中行动和说话时,我们训练的奖励模型对他们的行为进行评分,然后我们使用强化学习算法优化代理人的性能。

那么任务指令和问题是从哪里来的呢?我们探索了两种方法。首先,我们回收了人类数据集中提出的任务和问题。其次,我们训练代理人模仿人类如何设置任务和提出问题,如下面的视频所示,其中一个代理人被训练成模仿人类设置任务和提出问题(蓝色),另一个代理人被训练成遵循指令和回答问题(黄色),它们相互互动:

评估和迭代以持续改进智能体

我们使用了各种独立的机制来评估我们的智能体,从手工编写的测试到一种由人们创建的离线人工评分机制,用于评估开放式任务,这是我们之前的工作《评估多模态交互智能体》中开发的。重要的是,我们要求人们实时与我们的智能体进行互动并评判它们的表现。我们通过强化学习训练的智能体表现比仅通过模仿学习训练的智能体要好得多。

我们要求人们在线实时互动评估我们的智能体。人类在5分钟内给出指令或问题并评判智能体的成功率。通过使用强化学习,我们的智能体在类似条件下的表现比单纯的模仿学习要好,达到了人类表现的92%。

最后,最近的实验表明我们可以通过迭代强化学习过程来不断改进智能体的行为。一旦通过强化学习训练了一个智能体,我们要求人们与这个新智能体进行互动,注释其行为,更新我们的奖励模型,然后进行另一轮强化学习迭代。这种方法的结果是越来越有能力的智能体。对于某些类型的复杂指令,我们甚至可以创建出在平均水平上胜过人类玩家的智能体。

我们在建造塔的问题上反复迭代人类反馈和强化学习循环。模仿学习智能体的表现明显不如人类。反复进行反馈和强化学习的轮次比人类更经常解决建造塔的问题。

面向情境人类偏好的AI训练的未来

使用人类偏好作为奖励来训练人工智能的想法已经存在很长时间了。在《深度强化学习与人类偏好》中,研究人员开创了与人类偏好对齐神经网络智能体的最新方法。最近的工作开发了基于人类反馈的强化学习训练助手的对话智能体。我们的研究对这些思想进行了适应和扩展,构建了能够掌握多模态、具身化和实时人机交互的灵活人工智能。

我们希望我们的框架将来能够创建出能够根据我们自然表达的意义作出反应的游戏人工智能,而不是依赖于手工编写的行为计划。我们的框架还可以用于构建人们每天与之互动的数字和机器人助手。我们期待探索将这个框架的元素应用于创建真正有用的安全人工智能的可能性。

想要了解更多信息吗?请查看我们的最新论文。欢迎提供反馈和评论。

Leave a Reply

Your email address will not be published. Required fields are marked *