

智能系统复制和理解人类行为的不断发展已经在计算机视觉和人工智能(AI)的互补领域取得了重大进展。机器学习模型正获得极大的流行度,弥合了现实和虚拟之间的差距。虽然在计算机视觉领域,3D人体建模受到了广泛关注,但从语音和身体动作中建立起3D空间音频的任务仍然是一个讨论的话题。关注点始终在于人体的视觉保真度。
人类感知是多模式的,它将听觉和视觉线索结合起来来理解环境。为了营造在3D世界中存在和融入感,精确模拟与视觉画面相对应的3D声音是至关重要的。为了应对这些挑战,上海人工智能实验室和Meta Reality Labs Research的研究人员团队引入了一个模型,为整个人体产生准确的3D空间音频表示。
该团队分享了提议的技术使用头戴式麦克风和人体姿态数据来精确合成3D空间音效。案例研究聚焦于将增强现实和虚拟现实(AR/VR)结合在一起的远程呈现场景,用户使用全身化身进行沟通。以头戴麦克风的主观音频数据和用于给化身赋予动画的身体姿势数据作为输入的例子已被用来进行研究。
当前的声音空间化方法假设声源已知且在那里被不受干扰地捕获。所提议的方法通过使用身体姿态数据来训练一个多模态网络,区分各种噪音源并产生精确的空间化信号来解决这些问题。身体周围的声音区域是输出,七个头戴式麦克风的音频和被试的体态构成了输入。
该团队进行了经验评估,证明了当用适当的损失函数进行训练时,该模型能够可靠地生成由身体运动引起的声场。该模型的代码和数据集可在互联网上公开使用,促进了这一领域的开放性、可重复性和进一步的发展。GitHub存储库可以在https://github.com/facebookresearch/SoundingBodies访问。
该团队总结了该工作的主要贡献:
- 引入了一种独特的技术,使用头戴麦克风和身体姿态为人体呈现出逼真的3D声场。
- 分享了一项全面的经验评估,强调了体态和精心设计的损失函数的重要性。
- 该团队分享了他们制作的新数据集,将多视角人体数据与345个麦克风阵列的空间音频录音相结合。