Press "Enter" to skip to content

CMU和普林斯顿大学的研究人员揭开了Mamba的面纱:一种突破性的SSM架构,超越变压器的效率,用于多模式深度学习应用

在当代机器学习中,基础模型是成功的典范,它们是在大量数据上进行预训练,然后修改以用于下游任务。序列模型是这些基础模型的基础,它们可以处理来自各个领域的任意序列输入,包括语言、图片、声音、音频、时间序列和基因组等。尽管这个想法与任何特定的模型设计无关,但Transformer及其核心的自注意力层是当代大多数基础模型的基础。自注意力是有效的,因为它可以通过紧密地在一个上下文窗口内传递信息来表示复杂的事实。

然而,这种属性有两个基本缺点。一个是窗口长度的二次缩放,另一个是无法描述有限窗口之外的任何事物。为了解决这些缺点,对更有效的注意力相关策略进行了大量研究,然而往往以注意力成功的相同品质为代价。这些变化尚未在各个领域的大规模实验证明其有效性。结构化状态空间序列模型是一类新颖且令人兴奋的序列建模体系结构。这些模型受传统状态空间模型的影响,可以看作是卷积神经网络和循环神经网络的混合体。

这类模型在序列长度方面具有线性或几乎线性的扩展,并且可以通过递归或卷积计算非常快速。它们还主导了Long Range Arena等基准测试,并为在某些数据模态中建模长程相互依赖性定义了工具。许多SSM(结构化状态空间模型)的变种在需要连续信号数据的音频和视觉等领域显示出了有效性。但在建模离散、信息密集的文本等方面,它们尚未取得如此成功。

卡内基梅隆大学和普林斯顿大学的研究团队提出了一种新颖的选择性状态空间模型的类别,通过在几个维度上增强了早期研究,以获得类似Transformer的建模能力,同时保持与序列长度的线性关系。

  1. 选择机制。首先,我们指出早期模型的一个重要缺陷:它们无法以有效的方式根据输入选择数据。研究团队通过根据输入参数化SSM参数来提供一个简单的选择过程,借鉴了从选择性复制和归纳头等重要的合成任务中获得的理解。这使得模型能够永久地保留相关信息,同时消除不必要的数据。
  1. 硬件感知代码。这种简单的修改在技术上对模型的计算构成挑战;所有以前的SSM模型在计算上必须是输入和时间不变的,以保证计算效率。为了防止在GPU内存层次结构的不同层之间进行IO访问,我们使用了一种硬件感知方法,使用扫描而非卷积对模型进行递归计算。然而,扩大的状态没有实现。得到的实现在当前硬件上比以前的技术更快,并且在理论建模设计中也更好。
  1. 架构:为了提供一种简单和均匀的架构设计,将以前的SSM架构设计与Transformer的MLP块相结合,形成一个单一的块,简化了以前的深度序列模型设计。

选择性SSM和Mamba架构的关键特性使它们成为更广泛的基础模型的基石,这些模型可以处理完全循环的序列,具有以下特点:

(i) 高质量:选择性在遗传学和语言等密集模态上表现良好

(ii) 快速推断和训练:在推断过程中,自回归展开模型每一步只需要常数时间,因为它不需要先前组件的缓存,并且计算和内存随序列长度线性扩展

(iii) 长上下文:结合质量和效率,可以在实际数据上获得长达100万长度序列的性能提升

研究团队通过实验证明了Mamba作为通用序列FM骨干模型在各种模态和任务中的潜力:

• 人工材料。Mamba不仅可以轻松解决关键的合成任务,如复制和归纳头任务,而且可以无限延伸解决无限长度的问题。

• 基因组和音频。在建模音频波形和DNA序列方面,Mamba要优于以前的最先进模型,如SaShiMi、Hyena和Transformers。其性能在两种情况下都随着更多上下文(长达一百万长度的序列)的增加而改善。

• 建模语言。曼巴(Mamba)代表了第一个能够在下游评估和预训练困惑度中真正达到类Transformer性能的线性时间序列模型。

研究团队证明了曼巴(Mamba)胜过了许多基线,包括基于 LLaMa 的高性能、现代Transformer训练配方,其参数可扩展性达到10亿个。与大小相当的Transformer相比,他们的曼巴语言模型具有5倍的生成吞吐量,并且Mamba-3B的质量与实际规模两倍的Transformer相当。

Leave a Reply

Your email address will not be published. Required fields are marked *