

人类在接触到仅仅几个实例后就能理解复杂的概念。大多数情况下,我们可以根据书面描述识别动物,并根据视觉猜测未知汽车引擎的声音。这部分是因为一张单独的图片可以“绑定”起本来不相干的感官体验。基于配对数据,标准的多模态学习在人工智能中存在一定的局限性,随着模态数量的增加。
将文本、音频等与图像对齐已成为最近几种方法的重点。这些策略最多只使用两种感官。然而,最终的嵌入只能表示训练的模态及其对应的配对。因此,无法直接将视频音频嵌入转换为图像文本活动,反之亦然。缺乏同时包含所有模态的大量多模态数据是学习真正联合嵌入的一大障碍。
新的元研究引入了IMAGEBIND,这是一个使用多种形式的图像对数据来学习单一共享表示空间的系统。不需要使用同时包含所有模态的数据集。相反,这项工作利用了图像的绑定属性,并展示了将每种模态的嵌入与图像嵌入对齐会导致所有模态的紧密对齐。
网络上大量的图像和相应的文本促使人们对训练图像文本模型进行了大量研究。ImageBind利用了图像经常与其他模态同时出现并可以作为它们之间的桥梁的事实,例如使用在线数据将文本与图像链接,或者使用从佩戴式相机和IMU传感器获得的视频数据将运动与视频链接。
跨模态学习的目标可以是从大量网络数据中学习到的视觉表示。这意味着ImageBind还可以对频繁与图像同时出现的任何其他模态进行对齐。对于与图片高度相关的热度和深度等模态,对齐更简单。
ImageBind通过仅使用成对图像就能整合所有六种模态。该模型能够让各种模态“交流”并发现彼此之间的联系,从而提供更全面的信息解释,即使不能直接观察到这些模态之间的关系。通过这样做,其他模型可以在不需要大量的时间和精力进行训练的情况下“理解”新的模态。ImageBind的强大的可扩展行为使得可以将该模型用于以前不能使用额外模态的许多AI模型的替代或补充。
通过将大规模的图像文本配对数据与自监督数据对四种新模态进行结合,即音频、深度、热度和惯性测量单元(IMU)读数,展示了IMAGEBIND在零样本分类和检索任务上的强大性能。团队表明,加强底层图像表示可以增强这些新出现的特征。
研究结果表明,IMAGEBIND在音频分类和检索基准(如ESC、Clotho和AudioCaps)上的零样本分类性能与通过直接音频-文本监督进行训练的专家模型持平或超过。在少样本评估基准上,IMAGEBIND表示还优于专家监督的模型。最后,他们展示了IMAGEBIND在各种组合任务中的灵活性,包括跨模态检索、嵌入的算术组合、图像中的音频源检测以及通过音频输入生成图像。
由于这些嵌入没有针对特定应用进行训练,所以其效率落后于特定领域的模型。团队认为,了解如何将通用嵌入定制为特定目标(如结构化预测任务,如检测)将非常有帮助。