

将多个专家子网络的输出结合起来进行预测或决策的神经网络模型被称为专家混合(Mixure of Experts, MoE)。当处理复杂且多样化的数据时,该架构特别有用,其中不同的数据子集或方面可能需要专门的模型来有效处理。由于MoE模型可以学习忽略在某些输入上表现不佳的专家的输出,因此它们通常对数据中的离群值或噪声更具鲁棒性。
MoE架构的计算成本可以因模型的具体设计、它所处理任务的复杂性以及用于训练和推理的硬件而有很大的差异。MoE架构可能比传统的神经网络计算成本更高,特别是涉及许多专家和复杂的门控机制时。例如,Switch Transformer-c2048模型具有1.6万亿个参数,为了高效运行需要3.2 TB的加速器内存,这使得它具有挑战性和昂贵。
研究人员在一个名为QMoE的新框架中解决了这个内存问题。它由一个可伸缩的算法组成,可以将万亿参数的MoE精确压缩到每个参数不到1比特。QMoE可以将SwitchTransformer-c2048模型的1.6万亿个参数压缩到不到160 GB,可以在单个GPU上在一天内处理完。这是首次能够通过负担得起的无需重新训练的压缩技术实现对万亿参数MoE的精确子1比特压缩。
通常情况下,这是通过创建某些模型组件的副本来实现的,每个副本只负责处理一部分输入标记。路由器层通常决定相应的输入到组件的分配。量化是目前用于减小模型大小和相应模型权重到较低数值精度的方法。然而,一些MoE模型非常庞大,需要将缩小率显着提高至少四倍才能使它们变得实用。将模型量化至极低精度需要更复杂的数据依赖方法。
与使用全精度(32位或16位)权重和激活值训练神经网络不同,数据依赖的量化方法使用量化后的权重和激活值训练模型。这有助于模型适应低精度数值表示的限制。用于数据依赖量化的流行框架和工具包括TensorFlow,PyTorch和TensorRT,它们提供了内置的量化感知训练和校准支持。
研究人员目前仅考虑了解码操作和具有合理效率的编码矩阵。他们计划将重点放在预训练基础模型的直接压缩上。未来,他们的工作将包括对压缩模型进行专门的下游任务微调。