Press "Enter" to skip to content

评估多模态交互式代理

为了训练与人类良好互动的智能体,我们需要能够衡量进展。但人类互动是复杂的,衡量进展是困难的。在这项工作中,我们开发了一种方法,称为标准化测试套件(STS),用于评估在时间扩展的多模态互动中的智能体。我们研究了由人类参与者在3D模拟环境中要求智能体执行任务和回答问题的互动。

STS方法将智能体置于从真实人类互动数据中获取的一组行为情景中。智能体看到重新播放的情景背景,接收一项指令,然后获得控制权以离线完成互动。这些智能体延续被记录下来,然后发送给人类评定者进行标注,标注为成功或失败。然后根据智能体在情景中成功的比例对其进行排名。

图1:从两个人互动中获取的一个原始情景的示例,以及成功和不成功的智能体延续。

在我们日常互动中,许多对人类来说是本能的行为很难用言语表达,也无法形式化。因此,用于解决游戏(如Atari、围棋、DotA和星际争霸)的加强学习机制在我们尝试教会智能体与人类流畅成功地互动时不起作用。例如,想想这两个问题之间的区别:“谁赢得了这盘围棋?”与“你在看什么?”在第一种情况下,我们可以编写一段计算机代码,在游戏结束时计算棋盘上的棋子数量,并确定赢家。在第二种情况下,我们不知道如何编码:答案可能取决于说话者、涉及的对象的大小和形状、说话者是否在开玩笑以及发言的语境的其他方面。人类直观地理解回答这个看似平凡问题所涉及的各种相关因素。

通过人类参与者进行交互评估可以作为了解智能体表现的试金石,但这种评估是嘈杂且昂贵的。很难控制人类在与智能体交互评估时给予智能体的确切指令。这种评估方式还是实时的,因此对于快速进展来说太慢了。以前的研究依赖于代理来进行交互评估。代理,例如损失和脚本化的探测任务(例如“举起x”,其中x是从环境中随机选择的,并且成功函数是费力地手工制作的),对于快速获得有关智能体的见解是有用的,但实际上与交互评估的相关性不太强。我们的新方法有优势,主要是为度量标准提供了控制和速度,该标准与我们的最终目标密切相关-创建与人类良好互动的智能体。

图2:STS评估与用于评估交互式智能体的其他评估指标进行比较。与以前使用的代理相比,STS与交互评估的相关性最好。

开发MNIST、ImageNet和其他人类注释数据集对于机器学习的进展至关重要。这些数据集使研究人员能够以一次性的人类输入成本来训练和评估分类模型。STS方法旨在为人类-智能体交互研究做同样的事情。该评估方法仍然需要人类对智能体延续进行注释;然而,早期的实验表明,自动化这些注释可能是可能的,这将实现对交互智能体进行快速有效的自动化评估。同时,我们希望其他研究人员能够利用这种方法和系统设计来加速他们在这个领域的研究。

Leave a Reply

Your email address will not be published. Required fields are marked *