Press "Enter" to skip to content

微软和ETH Zurich的研究人员推出了HoloAssist:用于下一代物理世界AI副驾驶员的多模态数据集

在人工智能领域,一个持久的挑战是开发能够有效导航和协助现实世界任务的交互式人工智能助手。尽管在数字领域取得了重大进展,例如语言模型,但物理世界为AI系统提供了独特的障碍。

研究人员常常面临的主要障碍是AI助手在物理世界中缺乏第一手经验,无法感知、推理和主动协助真实场景。这一限制归因于训练AI模型在物理任务中需要具体数据的必要性。

为了解决这个问题,微软和苏黎世联邦理工学院的研究人员团队推出了一项被称为“HoloAssist”的具有突破性的数据集。这个数据集是专为真实世界中的自我中心、第一人称、人类互动场景而构建的。它涉及两个参与者在物理操作任务上的合作:一个佩戴混合现实头戴式显示器的任务执行者和一个观察并实时提供口头指令的任务指导者。

HoloAssist拥有大量的数据,包括166小时的记录,涉及222个多样化的参与者,形成350个独特的指导者-执行者配对,完成20个以物体为中心的操作任务。这些任务涵盖了从日常电子设备到专业工业物品的各种对象。该数据集捕捉了七种同步的传感器模态:RGB、深度、头部姿势、3D手势、眼球注视、音频和IMU,提供了对人类行为和意图的全面理解。此外,它还提供了第三方手动注释,包括文本摘要、干预类型、错误注释和动作片段。

与以往的数据集不同,HoloAssist的独特之处在于其多人互动任务执行环境,使得可以开发出具有预测性和主动性的AI助手。这些助手可以根据环境提供及时的指令,增强传统的“基于聊天”的AI助手模式。

研究团队对数据集在动作分类和预测任务中的性能进行了评估,提供了实证结果,揭示了不同模态在各种任务中的重要性。此外,他们引入了重点关注错误检测、干预类型预测和3D手势预测的新基准,这些对于智能助手的开发至关重要。

总之,这项工作代表了探索智能代理如何在真实世界任务中与人类合作的初步步骤。HoloAssist数据集以及相关的基准和工具有望推动建立强大的AI助手来完成日常真实世界任务的研究,并为众多未来研究方向打开大门。

Leave a Reply

Your email address will not be published. Required fields are marked *