

在深度学习中,Transformer神经网络因其在各个领域(尤其是自然语言处理、计算机视觉、机器人和自动驾驶等新兴应用)中的有效性而受到了广泛关注。然而,虽然提高了性能,但这些模型的规模不断增加导致计算成本和推理延迟大大增加。关键的挑战在于如何在不带来不切实际的计算负担的情况下利用大型模型的优势。
当前的深度学习模型,特别是Transformer模型,在不同领域取得了显著进展。然而,由于不断增长的计算需求,这些模型的可扩展性通常需要进一步提高。之前的努力,如Switch Transformer、Expert Choice和V-MoE等基于稀疏混合模型的尝试,主要集中在高效扩展网络参数、减轻每个输入的计算量。然而,现有研究中存在一个关于令牌表示维度本身扩展的空白。AltUp是一种新颖的方法,旨在填补这一空白。
AltUp通过提供一种增强令牌表示而不增加计算开销的方法而脱颖而出。该方法巧妙地将扩展的表示向量分成相等大小的块,在每个层只处理一个块。AltUp的有效性关键在于其预测校正机制,使得对未处理的块的输出进行推断。通过保持模型维度并避免直接扩展导致的计算量的二次增加,AltUp成为解决大型Transformer网络带来的计算挑战的有希望的解决方案。
AltUp的机制深入探讨了令牌嵌入的复杂性以及如何在不触发计算复杂性激增的情况下扩展它们。该方法包括:
- 调用一个宽度为1x的Transformer层进行一个块。
- 称为“活动”块。
- 同时使用一个轻量级的预测器。
该预测器计算所有输入块的加权组合,并通过轻量级校正器对预测值和活动块的计算值进行校正。该校正机制可以根据活动块对未激活块进行更新。重要的是,预测和校正步骤仅涉及最少的向量加法和乘法,比传统Transformer层要快得多。
对于T5模型在基准语言任务上的AltUp评估显示了其在相同准确性下优于稠密模型的一致能力。值得注意的是,使用AltUp增强的T5 Large模型在GLUE、SuperGLUE、SQuAD和Trivia-QA基准测试上分别实现了27%、39%、87%和29%的显著加速。当应用于较大的模型时,AltUp的相对性能改进更加明显,突显了其在模型尺寸增加时的可扩展性和增强效果。
总之,AltUp成为高效扩展Transformer神经网络长期挑战的值得注意的解决方案。它在不增加计算成本的同时增强令牌表示的能力,在各种应用中具有重要的潜力。AltUp的创新方法,以其分割和预测校正机制为特征,为利用大型模型的好处而不会遭受不切实际的计算需求提供了一种实用的方式。
研究人员对AltUp的扩展,称为Recycled-AltUp,进一步展示了所提出方法的适应性。Recycled-AltUp通过复制嵌入而不是扩展最初的标记嵌入,展示了在不引入可感知的减速的情况下,在预训练性能上严格改进。这种双重方法与AltUp与MoE等其他技术的无缝集成相结合,展示了其多功能性,并为未来研究探索训练和模型性能的动态开辟了道路。
AltUp标志着对Transformer网络高效扩展之探索的突破,为模型大小和计算效率之间的权衡提供了一个引人注目的解决方案。正如本文所概述的,研究团队的贡献是使大规模Transformer模型在各种应用中更易于访问和实用的一个重要步骤。