Press "Enter" to skip to content

来自加州大学伯克利分校和Deepmind的研究人员提出了SuccessVQA:一种适用于预训练的VLMs(如Flamingo)的成功检测的重新表述

来自加州大学伯克利分校和Deepmind的研究人员提出了SuccessVQA:一种适用于预训练的VLMs(如Flamingo)的成功检测的重新表述 四海 第1张来自加州大学伯克利分校和Deepmind的研究人员提出了SuccessVQA:一种适用于预训练的VLMs(如Flamingo)的成功检测的重新表述 四海 第2张

为了实现最佳性能准确性,了解代理在训练过程中是否在正确或首选的轨道上至关重要。这可以通过在强化学习中为代理提供奖励或使用评估指标来判断最佳策略来实现。因此,在训练先进的智能代理时,能够检测到这种成功行为变得至关重要。这就是成功检测器的作用,它们可以用来分类代理的行为是否成功。先前的研究表明,开发特定领域的成功检测器相对比较容易,而开发更通用的成功检测器则更加困难。这是因为定义大多数实际任务的成功是相当具有挑战性的,因为它常常是主观的。例如,一幅由人工智能生成的艺术作品可能会让某些人着迷,但对整个观众来说可能并非如此。

在过去的几年里,研究人员提出了不同的方法来开发成功检测器,其中之一是使用偏好数据进行奖励建模。然而,这些模型存在一定的缺陷,因为它们只在固定的任务集和环境条件下表现出可观的性能,这些任务和环境条件都是在偏好注释的训练数据中观察到的。因此,为了确保泛化性能,需要更多的注释来覆盖各种领域,这是一项非常费时费力的任务。另一方面,当涉及到同时使用视觉和语言作为输入的模型训练时,可泛化的成功检测应该确保在语言和视觉上的变化中都能给出准确的度量,以完成指定的任务。现有的模型通常只针对固定条件和任务进行训练,因此无法适应这种变化。此外,适应新的条件通常需要收集新的带注释的数据集并重新训练模型,这并不总是可行的。

在解决这个问题的过程中,Alphabet子公司DeepMind的研究人员团队开发了一种训练稳健成功检测器的方法,可以抵御语言规范和感知条件的变化。他们通过利用大规模预训练的视觉语言模型(如Flamingo)和人类奖励注释来实现这一目标。研究基于研究人员的观察,即对Flamingo进行大量多样化语言和视觉数据的预训练将导致训练更稳健的成功检测器。研究人员声称他们最重要的贡献是将可泛化的成功检测任务重新定义为视觉问答(VQA)问题,称为SuccessVQA。这种方法将任务定义为一个简单的是/否问题,并使用一个统一的架构,该架构只包括定义状态环境的短视频剪辑和描述所需行为的一些文本。

DeepMind团队还证明了通过使用人类注释来微调Flamingo可以实现在三个主要领域的可泛化成功检测。这些领域包括家庭模拟中的交互式自然语言代理、现实世界中的机器人操作和野外自我中心人类视频。SuccessVQA任务公式的通用性使得研究人员可以对来自不同领域的各种任务使用相同的架构和训练机制。此外,使用像Flamingo这样的预训练视觉语言模型使得充分利用在大型多模态数据集上的预训练优势变得相当容易。团队认为这使得在语言和视觉变化方面实现了泛化。

为了评估他们对成功检测的重新定义,研究人员进行了几个实验,涵盖了未见过的语言和视觉变化。这些实验揭示了预训练的视觉语言模型在大多数分布内任务上具有可比性的性能,并在分布外场景中明显优于任务特定的奖励模型。调查还揭示了这些成功检测器能够在语言和视觉上对未见过的变化进行零样本泛化,而现有的奖励模型则无法。尽管DeepMind研究人员提出的这种新方法具有显著的性能,但在与机器人环境相关的任务中仍然存在某些缺点。研究人员表示,他们未来的工作将涉及在这个领域做出更多的改进。DeepMind希望研究社区将他们的初步工作视为实现成功检测和奖励建模方面更多进展的基石。

Leave a Reply

Your email address will not be published. Required fields are marked *