许多领域,包括生物学和保护,以及娱乐和虚拟内容的开发,都可以从捕捉和建模三维动物形态和态度中受益。因为它们不需要动物保持静止,保持特定的姿势,与观察者进行身体接触或执行任何其他协作任务,相机是观察动物的自然传感器。利用照片研究动物已经有很长的历史,例如著名的“马在奔跑”动态摄影。然而,与早期的人体三维形状和姿态研究不同,最近开发了能够根据动物的独特形状和姿势进行改变的表现性三维模型。在这里,他们专注于从单张照片中重建三维狗的挑战。
他们将狗作为模型物种的原因是因为它们具有强烈的四足样的关节变形和品种之间广泛的形状变化。狗经常被相机捕捉到。因此,各种姿势,形状和设置都很容易获取。建模人和狗可能在外观上具有相似的困难,但它们呈现出非常不同的技术难题。人们已经可以获得大量的三维扫描和动作捕捉数据。由于数据涵盖了正确的姿势和形态变量,因此学习像SMPL或GHUM这样的鲁棒,关节模型已经成为可能。
相反,收集动物的三维观察数据是具有挑战性的,目前需要更多此类数据来训练同样具有表现力的三维统计模型,以考虑所有可能的形态和位置。现在,由于SMAL(从玩具模型中学习的参数化四足动物模型),已经可以从照片中重建动物的三维模型,包括狗。然而,SMAL是许多物种的通用模型,从猫到河马。虽然它可以描绘不同动物的许多体型,但它却不能描绘狗品种的独特和微小细节,例如巨大的耳朵范围。为了解决这个问题,ETH苏黎世联邦理工学院,德国智能系统Max Planck研究所和IMATI-CNR研究所的研究人员提供了第一个D-SMAL参数化模型,可以正确地表示狗。
另一个问题是,与人类相比,狗的动作捕捉数据相对较少,并且存在的数据中,坐姿和躺姿很少被捕捉到。因此,当前的算法很难推断狗的某些姿势。例如,从历史数据中学习三维姿势的先验知识将会偏向于站立和行走姿势。通过利用通用约束,可以减弱这个先验知识,但是姿势估计会变得严重不确定。为了解决这个问题,他们使用了物理接触的信息,这是建模动物(土地)时被忽视的信息,例如它们受重力影响,因此会站立,坐下或躺在地上。
在存在广泛自遮挡的情况下,他们展示了如何使用地面接触信息来估计复杂的狗的姿势。虽然地面平面限制已经用于人体姿势估计,但对于四足动物来说,潜在的优势更大。四条腿意味着更多的接触点,坐或躺下时更多的身体部位被遮挡,以及更大的非刚性变形。早期研究的另一个缺点是重建管道通常是在2D图片上进行训练的,因为收集配对的3D数据(带有匹配的2D图像)具有挑战性。因此,他们经常预测位置和形状,当重新投影时,与视觉证据非常相似,但沿着观察方向被扭曲。
由于缺乏配对数据,所以在从不同角度观察时,三维重建可能是错误的,因为没有足够的信息来确定在深度方向上放置更远或甚至被遮挡的身体部位的位置。再次,他们发现模拟地面接触是有益的。他们不再手动重建(或合成)配对的2D和3D数据,而是转向更宽松的三维监督方法,并获取地面接触标签。他们要求注释者指示狗下面的地表是否平坦,并在三维动物上注释地面接触点。他们通过向注释者呈现真实的照片来实现这一点。
他们发现,网络可以从单个图像中准确地学习分类表面和检测接触点,以便它们也可以在测试时使用。这些标签不仅用于训练。基于最新的前沿模型BARC,他们的重建系统称为BITE。他们使用新颖的D-SMAL狗模型作为初始粗配步骤重新训练BARC。随后,他们将结果预测发送到他们最近创建的精细化网络,使用接地损失进行训练,以改善相机的设置和狗的姿态。他们还可以在测试时使用接地损失,以完全自主地优化对测试图片的适配。
这大大提高了重建的质量。即使BARC姿势先验的训练集不包含这样的姿势,他们也可以使用BITE得到正确站在(局部平面)地面上或以坐姿和躺姿逼真重建的狗(见图1)。以往的3D狗重建工作要么是通过主观视觉评估,要么是通过反投影到图片并评估2D残差来评估,因此投影掉了与深度相关的不准确性。他们通过从不同的视角生成实际犬只的3D扫描,制作了一个独特的半合成数据集,以弥补客观3D评估的缺失。他们使用这个新数据集评估BITE及其主要竞争对手,证明BITE为该领域建立了新的标准。
他们的贡献总结如下:
1.他们提供了D-SMAL,这是一个从SMAL发展出来的全新的、针对犬只的3D姿势和形状模型。
2.他们创建了BITE,这是一个神经模型,旨在提高3D狗姿势的同时评估局部地面平面。BITE鼓励具有说服力的接地。
3.他们证明了在使用该模型之前,可以恢复与之编码非常不同的狗的位置(必须很小的先验)。
4.使用复杂的StanfordExtra数据集,他们改进了单目3D姿势估计的最新技术水平。
5.为了促进向真正的3D评估的过渡,他们提供了一个基于实际犬只扫描的新的半合成3D测试集合。