Press "Enter" to skip to content

测量AI模型中的感知

基于真实世界的视频、音频和文本数据的多模态系统评估新基准

从图灵测试到ImageNet,基准在塑造人工智能(AI)方面发挥了重要作用,帮助定义研究目标,并允许研究人员衡量实现这些目标的进展。过去10年的惊人突破,例如计算机视觉中的AlexNet和蛋白质折叠中的AlphaFold,与使用基准数据集紧密相关,使得研究人员能够排名模型设计和训练选择,并通过迭代改进模型。在朝着构建人工通用智能(AGI)的目标努力时,开发扩展AI模型能力的稳健有效的基准与开发模型本身一样重要。

感知-通过感官体验世界的过程-是智能的重要组成部分。构建具有人类级感知理解世界能力的代理是一项中心性但具有挑战性的任务,这在机器人技术、自动驾驶汽车、个人助理、医学成像等领域变得越来越重要。因此,今天我们介绍了感知测试,这是一个使用真实世界视频来帮助评估模型感知能力的多模态基准。

开发感知基准

当前在人工智能研究中使用许多与感知相关的基准,如视频动作识别的Kinetics,音频事件分类的Audioset,物体跟踪的MOT或图像问答的VQA。这些基准在构建和开发AI模型架构和训练方法方面取得了惊人的进展,但每个基准只针对感知的特定方面:图像基准不包括时间性方面;视觉问答倾向于关注高级语义场景理解;物体跟踪任务通常捕捉到个体物体的低级外观,如颜色或纹理。很少有基准在音频和视觉模态上定义任务。

多模态模型,例如Perceiver、Flamingo或BEiT-3,旨在成为更通用的感知模型。但是,它们的评估是基于多个专门的数据集,因为没有专门的基准可用。这个过程慢、昂贵,并且对于研究人员来说很难比较方法,而且对感知能力(如记忆)的一些方面的覆盖不完整。

为了解决这些问题,我们创建了一个由特意设计的真实世界活动视频组成的数据集,根据六种不同类型的任务进行了标记:

  1. 物体跟踪:视频早期提供了一个围绕物体的边界框,模型必须在整个视频中返回完整的轨迹(包括遮挡部分)。
  2. 点跟踪:视频早期选择了一个点,模型必须在整个视频中跟踪该点(也要通过遮挡)。
  3. 时间动作定位:模型必须在时间上定位和分类预定义的一组动作。
  4. 时间声音定位:模型必须在时间上定位和分类预定义的一组声音。
  5. 多项选择视频问答:关于视频的文本问题,每个问题有三个选择项供选择答案。
  6. 基于视频的问答:关于视频的文本问题,模型需要返回一个或多个物体轨迹。

我们从发展心理学对儿童感知评估的方式以及像CATER和CLEVRER这样的合成数据集中汲取了灵感,并设计了37个视频脚本,每个脚本都有不同的变化,以确保一个平衡的数据集。每个变化由至少十几个众包参与者拍摄(类似于Charades和Something-Something的先前工作),共有超过100个参与者,共计11,609个视频,平均每段视频23秒长。

这些视频展示了简单的游戏或日常活动,这使得我们能够定义需要以下技能来解决的任务:

  • 语义知识:测试任务完成、识别对象、动作或声音等方面。
  • 物理理解:碰撞、运动、遮挡、空间关系。
  • 时间推理或记忆:事件的时间顺序、随时间计数、检测场景中的变化。
  • 抽象能力:形状匹配、相同/不同概念、模式检测。

众包参与者对视频进行了空间和时间注释(物体边界框轨迹、点轨迹、动作片段、声音片段)。我们的研究团队为多项选择和基于视频的问答任务设计了每种脚本类型的问题,以确保测试的技能多样性,例如,探究反事实推理能力或为给定情况提供解释的问题。每个视频的相应答案再次由众包参与者提供。

使用感知测试评估多模态系统

我们假设模型已经在外部数据集和任务上进行了预训练。感知测试包括一个小的微调集(20%),模型创建者可以选择使用该集合来传达任务的性质给模型。剩余的数据(80%)包括一个公共验证集和一个保留的测试集,只能通过我们的评估服务器来评估性能。

这里我们展示了评估设置的图表:输入是视频和音频序列,以及任务规范。任务可以是高级文本形式的视觉问答,也可以是低级输入,比如物体跟踪任务中的物体边界框的坐标。

在我们的基准测试中评估模型的输入(视频、音频、任务规范为文本或其他形式)和输出。

评估结果详细说明了几个维度,并且我们测量了六个计算任务的能力。对于视觉问答任务,我们还提供了问题在视频中显示的情况类型和回答问题所需的推理类型之间的映射,以进行更详细的分析(详见我们的论文)。理想的模型将在所有雷达图和所有维度上最大化得分。这是对模型技能的详细评估,使我们能够缩小改进的领域。

按计算任务、区域和推理类型对感知模型进行的多维诊断报告。进一步的诊断可以对运动、碰撞、计数、动作完成等子区域进行。

在开发基准测试时,确保视频中显示的参与者和场景的多样性是一个关键考虑因素。为了做到这一点,我们选择了来自不同国家、不同种族和性别的参与者,并力求在每种类型的视频脚本中具有多样性代表。

参与拍摄的众包参与者的地理位置。

了解更多关于感知测试的信息

感知测试基准测试在此处公开可用,更多细节请参阅我们的论文。排行榜和挑战服务器也将很快提供。

2022年10月23日,我们将在特拉维夫(ECCV 2022)举办一场关于通用感知模型的研讨会,届时我们将与该领域的其他领先专家讨论我们的方法,以及如何设计和评估通用感知模型。

我们希望感知测试能够激发和引导更多关于通用感知模型的研究。未来,我们希望与多模态研究社区合作,引入额外的注释、任务、度量标准,甚至是新语言到基准测试中。

如果您有兴趣做出贡献,请通过perception-test@google.com与我们联系!

Leave a Reply

Your email address will not be published. Required fields are marked *