Press "Enter" to skip to content

研究人员利用人工智能识别图像中相似的材料

这种机器学习方法可以帮助机器人场景理解、图像编辑或在线推荐系统

Image: MIT News with iStock

在厨房工作时,机器人操作物品时将受益于了解哪些物品由相同的材料组成。有了这个知识,机器人将知道在从柜台阴暗角落拿起一小块黄油还是从明亮的冰箱里拿起整个黄油时都需要施加相似的力量。

识别场景中由相同材料组成的物体,即材料选择,对机器来说是一个特别具有挑战性的问题,因为材料的外观可以根据物体的形状或照明条件发生巨大变化。

麻省理工学院和Adobe Research的科学家们已经朝着解决这一挑战迈出了一步。他们开发了一种技术,可以识别表示给定材料的图像中的所有像素,在这个像素由用户选择。

即使物体具有不同的形状和大小,该方法也是准确的,他们开发的机器学习模型也不会被使相同材料看起来不同的阴影或照明条件所欺骗。

尽管他们只使用“合成”数据来训练他们的模型,这些数据是由修改3D场景以产生许多不同图像的计算机创建的,但该系统在它从未见过的真实室内和室外场景上有效地工作。该方法还可用于视频; 一旦用户在第一帧中标识了一个像素,该模型就可以在其余视频中识别由相同材料制成的物体。

研究人员利用人工智能识别图像中相似的材料 计算科学 第2张

除了在机器人场景理解中的应用外,这种方法还可以用于图像编辑或并入推断图像中材料参数的计算系统中。它也可以用于基于材料的Web推荐系统。 (例如,购物者正在寻找由特定类型的面料制成的服装。)

“了解您正在与哪种材料交互通常非常重要。尽管两个对象可能看起来相似,但它们可能具有不同的材料属性。我们的方法可以促进选择图像中所有由相同材料制成的其他像素,”这种技术的首席作者、电气工程和计算机科学研究生Prafull Sharma说。

Sharma的合作者包括Adobe Research的研究科学家Julien Philip和Michael Gharbi;以及高级作者William T. Freeman,电气工程和计算机科学Thomas和Gerd Perkins教授,计算机科学和人工智能实验室(CSAIL)的成员;电气工程和计算机科学教授,CSAIL的成员Frédo Durand;以及Adobe Research的研究科学家Valentin Deschaintre。这项研究将在SIGGRAPH 2023会议上展示。

一种新方法

现有的材料选择方法难以准确地识别表示相同材料的所有像素。例如,某些方法专注于整个对象,但一个对象可以由多种材料组成,例如木制的扶手和皮革座椅的椅子。其他方法可能利用预定的材料集,但这些通常具有广泛的标签,比如“木材”,尽管实际上有成千上万种木材。

相反,Sharma和他的合作者开发了一种机器学习方法,它动态地评估图像中的所有像素,以确定用户选择的像素与图像中的所有其他区域之间的材料相似性。如果一个图像包含一张桌子和两把椅子,并且椅子的腿和桌面由相同类型的木材制成,他们的模型可以准确地识别这些相似的区域。

在研究人员能够开发出一种AI方法来学习如何选择相似的材料之前,他们必须克服一些障碍。首先,没有现有的数据集包含细粒度标记的材料,以训练他们的机器学习模型。研究人员渲染了自己的合成数据集,其中包括50,000个图像和超过16,000种随机应用于每个对象的材料。

“我们想要一个数据集,每种材料都有独立的标记,”Sharma说。

凭借合成数据集,他们为识别真实图像中相似材料的任务训练了一个机器学习模型-但它失败了。研究人员意识到分布转移是罪魁祸首。当模型在合成数据上进行训练,但在测试可以与训练集非常不同的真实世界数据时失败时,就会发生这种情况。

为了解决这个问题,他们在预先训练的计算机视觉模型的基础上构建了他们的模型,该模型已经看到了数百万个真实图像。他们利用该模型已经学习的视觉特征来利用其先前的知识。

“在机器学习中,当你使用神经网络时,通常它会同时学习表示和解决任务的过程。我们已经将它们分离开来。预训练模型为我们提供了表示,然后我们的神经网络只关注解决任务,”他说。

相似性解决方案

研究人员的模型将通用的预训练视觉特征转换为特定于材料的特征,并且以一种对对象形状或不同光照条件具有鲁棒性的方式进行。

研究人员利用人工智能识别图像中相似的材料 计算科学 第3张

然后,该模型可以为图像中的每个像素计算一个材料相似度得分。当用户点击像素时,该模型会计算出每个其他像素与查询像素外观相似度。它生成一张地图,其中每个像素按相似度从0到1进行排名。

“用户只需点击一个像素,然后模型将自动选择所有具有相同材料的区域,”他说。

由于该模型为每个像素输出相似度得分,用户可以通过设置阈值(例如90%相似度)来微调结果,并获得突出显示这些区域的图像地图。该方法也适用于跨图像选择 – 用户可以选择一个图像中的像素,并在另一个图像中找到相同的材料。

在实验中,研究人员发现,他们的模型可以比其他方法更准确地预测图像中包含相同材料的区域。当他们衡量预测结果与基础真实情况的匹配程度时,也就是实际由相同材料组成的图像区域,他们的模型的准确度达到了约92%。

未来,他们希望改进该模型,以便更好地捕捉图像中物体的细节,从而提高其方法的准确性。

“丰富的材料为我们生活的功能和美感做出了贡献。但是,计算机视觉算法通常忽略材料,而过度关注对象。本文在识别图像和视频中的材料方面做出了重要贡献,并且适用于广泛的挑战性条件,”康奈尔鲍尔计算与信息科学学院院长、计算机科学教授卡维塔·巴拉说道,她没有参与这项工作。“这项技术对最终消费者和设计师都非常有用。例如,房主可以想象重新贴合沙发或更换房间地毯等昂贵选择可能会出现的情况,并且可以根据这些可视化结果更加自信地进行设计选择。”

Leave a Reply

Your email address will not be published. Required fields are marked *