中国的一项新的人工智能研究提出了Meta-Transformer：一种用于多模态学习的统一人工智能框架

中国的一项新的人工智能研究提出了Meta-Transformer：一种用于多模态学习的统一人工智能框架四海第1张

人脑被视为神经网络理论的典范，同时处理来自各种感官输入的信息，如视觉、听觉和触觉信号。此外，从一个来源获得的理解可能有助于从另一个来源获得知识。然而，由于深度学习中的巨大模态间隙，构建一个能够处理各种输入形式的统一网络需要大量的工作。在一个数据模态上训练的模型必须根据每个数据模态的不同数据模式进行调整。与口头语言相比，照片由于图像中像素的紧密排列而具有显着的信息冗余。

相反，由于点云在三维空间中的稀疏分布和对噪声的敏感性增加，很难描述点云。音频频谱图是由不同频率域的波的组合组成的非平稳的时变数据模式。视频数据具有记录空间信息和时间动态的独特能力，因为它由一系列图片帧组成。图数据通过在图中将项目表示为节点和关系表示为边来建模实体之间复杂的多对多交互。由于不同数据模态之间存在显著差异，使用其他网络拓扑独立编码每个数据模态是常见做法。

例如，Point Transformer使用向量级位置注意力从3D坐标中提取结构信息，但它无法对图片、自然语言句子或音频频谱图片段进行编码。因此，创建一个可以使用多个模态共享的参数空间来编码不同数据类型的单一框架需要时间和精力。通过对成对数据进行广泛的多模态预训练，最近开发的统一框架如VLMO、OFA和BEiT-3提高了网络的多模态理解能力。然而，由于它们更注重视觉和语言，它们无法在模态之间共享整个编码器。深度学习在自然语言处理(NLP)领域取得了很大的成就，得益于转换器架构和注意机制等其他研究人员提出的模型。

这些发展极大地改善了各种模态的感知能力，包括2D视觉(包括ViT和Swin Transformer)、3D视觉(包括Point Transformer和Point-ViT)、听觉信号处理(AST)等。这些研究说明了基于转换器的设计的适应性，并激发了学术界调查是否可以创建用于组合多个模态的基础模型，最终实现跨所有模态的人类水平感知能力。图1说明了它们如何探索转换器设计处理包括图片、自然语言、点云、音频频谱图、视频、红外线、高光谱、X射线、IMU、表格、图形和时间序列数据在内的12种模态的潜力。

中国的一项新的人工智能研究提出了Meta-Transformer：一种用于多模态学习的统一人工智能框架四海第3张 — **图1：**统一多模态学习 – 自然语言、图片、点云、音频、视频、红外线、高光谱、X射线、时间序列、表格、惯性测量单元(IMU)和图形数据都由Meta-Transformer使用相同的骨干进行编码。它展示了转换器系统如何提供统一的多模态智能。

他们讨论了使用转换器学习每种模态的过程，并解决了将它们组合成一个统一框架的困难。因此，来自香港中文大学和上海人工智能实验室的研究人员提出了一个名为Meta-Transformer的全新综合多模态学习框架。首个框架Meta-Transformer使用相同的参数集同时对来自十几种不同模态的输入进行编码，实现了更加综合的多模态学习方法。Meta-Transformer包括数据到序列标记的模态专家、跨模态提取表示的模态共享编码器和面向下游任务的任务特定头部这三个简单但有价值的组件。更准确地说，Meta-Transformer首先从多模态数据中创建具有共享流形空间的标记序列。

之后，使用冻结参数的共享编码器提取表示。使用轻量级分词器和更新的下游任务头参数进一步定制个别任务。最后，这种简单直接的方法可以高效训练特定任务和通用模态的表示。他们使用来自12种模态的几个标准进行了大量研究。Meta-Transformer在处理来自多个模态的数据时表现出色，仅使用LAION-2B数据集中的图片进行预训练，并在各种多模态学习任务中持续优于最先进的技术。

总之，他们的贡献如下：

• 他们提供了一个独特的框架，称为Meta-Transformer，用于多模态研究，使单个编码器能够同时使用相同的参数集从多个模态中提取表示。

• 他们在处理多个模态的多模态网络架构中，对Transformer的组件（如嵌入、分词和编码器）的作用进行了深入研究。

• 在各种关于12种模态的数据集上，实验结果表明Meta-Transformer取得了出色的性能，验证了Meta-Transformer在统一多模态学习方面的进一步潜力。

• Meta-Transformer开辟了一个有前景的新方向，即开发一个统一所有模态的模态无关框架。