人类总是与周围环境互动。他们在空间中移动,触摸物品,坐在椅子上或睡在床上。这些互动详细说明了场景设置和物体位置。默剧演员利用他们对这种关系的理解,仅凭身体动作创造富有想象力的3D环境。他们能教计算机模仿人类动作并制作合适的3D场景吗?包括建筑、游戏、虚拟现实和合成合成数据的多个领域可能会从这种技术中受益。例如,有大量的3D人体运动数据集,例如AMASS,但这些数据集很少包含有关它们采集的3D设置的详细信息。
他们能够使用AMASS为所有动作创建可信的3D场景吗?如果可以,他们可以使用AMASS创建具有现实人类-场景互动的训练数据。他们开发了一种新颖的技术,称为MIME(挖掘互动和运动以推断3D环境),它基于3D人体运动创建可信的内部3D场景,以响应此类查询。它是如何实现的?以下是基本假设:(1)空间内的人体运动表示物品的缺失,从本质上定义了图片中没有家具的区域。此外,它在接触场景时限制了3D物体的种类和位置;例如,坐着的人必须坐在椅子、沙发、床等上。
德国智能系统Max Planck研究所和Adobe的研究人员创建了MIME,这是一种基于变压器的自回归3D场景生成技术,以将这些直觉转化为具体形式。给定一个空的平面图和一个人体运动序列,MIME预测人体将接触到的家具。此外,它预测不会与人接触但与其他物品相匹配并符合人体运动带来的自由空间限制的可信物品。他们将运动分为接触和非接触片段,以为人体运动条件3D场景创建。他们使用POSA估计可能的接触姿势。非接触姿势将脚的顶点投射到地面平面上,以建立房间的自由空间,并将其记录为2D地图。
POSA预测的接触顶点创建反映接触姿势和相关的3D人体模型的3D边界框。满足接触和自由空间标准的对象被期望自回归使用此数据作为变压器的输入;参见图1。他们扩展了大规模合成场景数据集3D-FRONT,创建了一个名为3D-FRONT HUMAN的新数据集,以训练MIME。他们自动向3D场景中添加人物,包括非接触人物(一系列步行动作和站立的人)和接触人物(坐、接触和躺着的人)。为此,他们使用RenderPeople扫描的静态接触姿势和AMASS的运动序列。
MIME在推理时间为输入运动创建逼真的3D场景布局,表示为3D边界框。他们从3D-FUTURE集合中选择3D模型,然后根据人的位置和场景之间的几何限制微调它们的3D位置。他们的方法在不进行任何调整的情况下适用于已记录的真实运动序列,例如PROX-D。
总之,它们提供以下内容:
• 一款全新的运动条件生成模型,用于自动回归地创建与人接触但避免占据运动定义空位的物品的3D房间场景。
• 通过使用来自AMASS的运动数据和RenderPeople的静态接触/立姿姿势,创建了一个由互动人物和自由空间中的人物组成的全新3D场景数据集。
他们的代码和视频演示均可在GitHub上获得。他们还有一个视频解释他们的方法。