“Google DeepMind研究人员提出了6种可组合的转换方式，以逐步增加基于Transformer的神经网络的规模，同时保持功能性”

“Google DeepMind研究人员提出了6种可组合的转换方式，以逐步增加基于Transformer的神经网络的规模，同时保持功能性” 四海第1张

基于Transformer的神经网络近来受到了广泛关注，因为它们表现出色。机器翻译、文本生成和问答是一些自然语言处理活动，其中Transformer架构（见图1）已成为行业标准。Transformer模型的有效性不仅限于自然语言处理领域，它们还在语音识别、计算机视觉和推荐系统等其他领域取得了成功。大型语言、视觉和多模态基础模型是其中最复杂和最有效的模型，参数数量可达数十亿至数万亿。

然而，每个新模型通常是从头开始教授，而没有利用先前训练的较小模型所学到的知识。此外，模型的大小在训练过程中保持不变。由于需要更多的训练数据，模型大小的增加导致训练的计算成本呈二次增长。通过重用预训练模型的参数或在训练过程中动态增加模型的大小，可以降低总体训练成本。然而，这样做往往会牺牲训练进度，因此很难实现。为了解决这些限制，他们提供了适用于基于Transformer的模型的保持功能的参数扩展变换。

这些变换增加了模型的大小，从而增加了模型的潜在容量，但不改变其功能，使其可以继续训练。这些可组合的变换作用于架构的独立维度，允许进行精细的架构扩展。之前的一些研究也提出了适用于基于Transformer的模型的保持功能的参数扩展变换，这些研究延续了较小的卷积和全连接模型的技术。

“Google DeepMind研究人员提出了6种可组合的转换方式，以逐步增加基于Transformer的神经网络的规模，同时保持功能性” 四海第3张 — 图1显示了基于Transformer设计的典型神经网络的结构。

在这项研究中，来自Google DeepMind和图卢兹大学的研究人员开发了一个框架，它是功能保持变换的最广泛和模块化的集合。该论文提供了六个适用于Transformer架构的可组合的保持功能的变换，它们分别是：

MLP内部表示的大小
注意力头的数量
注意力头输出表示的大小
注意力输入表示的大小
Transformer层的输入/输出表示的大小
层数

他们演示了如何在不对额外参数的初始化施加太多限制的情况下，实现每个变换的精确功能保持属性。作者在论文中详细讨论了所有这些贡献。