Press "Enter" to skip to content

“Google DeepMind研究人员提出了6种可组合的转换方式,以逐步增加基于Transformer的神经网络的规模,同时保持功能性”

“Google DeepMind研究人员提出了6种可组合的转换方式,以逐步增加基于Transformer的神经网络的规模,同时保持功能性” 四海 第1张“Google DeepMind研究人员提出了6种可组合的转换方式,以逐步增加基于Transformer的神经网络的规模,同时保持功能性” 四海 第2张

基于Transformer的神经网络近来受到了广泛关注,因为它们表现出色。机器翻译、文本生成和问答是一些自然语言处理活动,其中Transformer架构(见图1)已成为行业标准。Transformer模型的有效性不仅限于自然语言处理领域,它们还在语音识别、计算机视觉和推荐系统等其他领域取得了成功。大型语言、视觉和多模态基础模型是其中最复杂和最有效的模型,参数数量可达数十亿至数万亿。

然而,每个新模型通常是从头开始教授,而没有利用先前训练的较小模型所学到的知识。此外,模型的大小在训练过程中保持不变。由于需要更多的训练数据,模型大小的增加导致训练的计算成本呈二次增长。通过重用预训练模型的参数或在训练过程中动态增加模型的大小,可以降低总体训练成本。然而,这样做往往会牺牲训练进度,因此很难实现。为了解决这些限制,他们提供了适用于基于Transformer的模型的保持功能的参数扩展变换。

这些变换增加了模型的大小,从而增加了模型的潜在容量,但不改变其功能,使其可以继续训练。这些可组合的变换作用于架构的独立维度,允许进行精细的架构扩展。之前的一些研究也提出了适用于基于Transformer的模型的保持功能的参数扩展变换,这些研究延续了较小的卷积和全连接模型的技术。

“Google DeepMind研究人员提出了6种可组合的转换方式,以逐步增加基于Transformer的神经网络的规模,同时保持功能性” 四海 第3张
图1显示了基于Transformer设计的典型神经网络的结构。

在这项研究中,来自Google DeepMind和图卢兹大学的研究人员开发了一个框架,它是功能保持变换的最广泛和模块化的集合。该论文提供了六个适用于Transformer架构的可组合的保持功能的变换,它们分别是:

  1. MLP内部表示的大小
  2. 注意力头的数量
  3. 注意力头输出表示的大小
  4. 注意力输入表示的大小
  5. Transformer层的输入/输出表示的大小
  6. 层数

他们演示了如何在不对额外参数的初始化施加太多限制的情况下,实现每个变换的精确功能保持属性。作者在论文中详细讨论了所有这些贡献。

Leave a Reply

Your email address will not be published. Required fields are marked *