基于Transformer的神经网络近来受到了广泛关注,因为它们表现出色。机器翻译、文本生成和问答是一些自然语言处理活动,其中Transformer架构(见图1)已成为行业标准。Transformer模型的有效性不仅限于自然语言处理领域,它们还在语音识别、计算机视觉和推荐系统等其他领域取得了成功。大型语言、视觉和多模态基础模型是其中最复杂和最有效的模型,参数数量可达数十亿至数万亿。
然而,每个新模型通常是从头开始教授,而没有利用先前训练的较小模型所学到的知识。此外,模型的大小在训练过程中保持不变。由于需要更多的训练数据,模型大小的增加导致训练的计算成本呈二次增长。通过重用预训练模型的参数或在训练过程中动态增加模型的大小,可以降低总体训练成本。然而,这样做往往会牺牲训练进度,因此很难实现。为了解决这些限制,他们提供了适用于基于Transformer的模型的保持功能的参数扩展变换。
这些变换增加了模型的大小,从而增加了模型的潜在容量,但不改变其功能,使其可以继续训练。这些可组合的变换作用于架构的独立维度,允许进行精细的架构扩展。之前的一些研究也提出了适用于基于Transformer的模型的保持功能的参数扩展变换,这些研究延续了较小的卷积和全连接模型的技术。
在这项研究中,来自Google DeepMind和图卢兹大学的研究人员开发了一个框架,它是功能保持变换的最广泛和模块化的集合。该论文提供了六个适用于Transformer架构的可组合的保持功能的变换,它们分别是:
- MLP内部表示的大小
- 注意力头的数量
- 注意力头输出表示的大小
- 注意力输入表示的大小
- Transformer层的输入/输出表示的大小
- 层数
他们演示了如何在不对额外参数的初始化施加太多限制的情况下,实现每个变换的精确功能保持属性。作者在论文中详细讨论了所有这些贡献。