马里兰大学的新人工智能研究探讨了在一天内使用单个GPU训练语言模型的压缩挑战

在自然语言处理的许多领域中，包括语言解释和自然语言合成，利用变压器拓扑的大规模机器学习模型的训练取得了突破性的进展。这些系统的广泛认可行为是它们在模型参数数量和数据量增加时能够稳定扩展或继续表现更好的能力。

虽然大多数研究都集中在寻找推动极端计算边界的新方法上，但马里兰大学的研究人员正在研究最佳的语言模型训练规模缩减方式和可能出现的权衡。

研究人员认为，由于规模效应带来的竞争，他们可以训练一个语言模型。最初的BERT模型在自然语言处理的许多实际应用中得到了使用。然而，这个模型已经需要大量计算才能训练。

在资源相对有限的情况下，有可能训练一个接近BERT性能水平的语言模型，这带来了许多有趣的后果。一个原因是，如果缩减模型的预训练是大规模计算预训练的有效替代品，那么它将开辟一系列目前难以实现的额外学术研究。研究人员表示，可能会出现一些场景，从业者有兴趣利用专门的或可靠的数据源重新训练他们的语言模型，但法律因素使得不确定是否可以接受在具有可疑来源的公共数据上训练的模型。

马里兰大学的研究人员进行了一项新研究，探索了“挤压”挑战——在考试前一天学习整个语言模型。他们的研究证明，在这种受限情况下，性能与大规模计算环境中发现的缩放规律密切相符。为了确定对训练流程的更改是否会导致缩小的情况下性能的提高，该研究首先研究了各种训练流程方面。

缩小规模是具有挑战性的。虽然较小的模型设计可以实现更快的梯度计算，但随时间的推移，模型改进的整体速率几乎保持不变。然而，利用缩放定律的训练配方修改可以通过增加梯度计算的有效速率而获得收益，而不需要减小模型的大小。最终，团队能够在有限的预算下训练模型并提供可观的性能，在GLUE任务中经常接近甚至超过BERT。

团队评估了将基于变压器的语言模型放入计算资源非常有限的情况下的性能。他们发现，多个变化方面导致在GLUE上可观的下游性能。团队希望这项工作可以作为对挤压问题进行调查的起点，并对多种改进和策略提供额外的见解。