专家模型的机器学习：初探

几十年前的一个想法如何使今天训练非常庞大的神经网络成为可能

专家模型是机器学习中最有用的发明之一，但它们往往得不到应有的关注。事实上，专家建模不仅使我们能够训练“非常庞大”的神经网络（稍后会详细介绍），还使我们能够构建更像人脑的模型，也就是说，不同的区域专门处理不同类型的输入。

在本文中，我们将介绍专家建模中的关键创新，这些创新最终导致了最近的突破，如Switch Transformer和Expert Choice Routing算法。但首先让我们回顾一下最早的那篇论文：“Mixtures of Experts”。

专家混合模型（MoE）的想法可以追溯到三十多年前，由人工智能奠基人 Geoffrey Hinton 共同撰写的一篇1991年的论文。MoE的关键思想是通过组合一些“专家”E来建模输出“y”，每个专家的权重由“门控网络”G控制：

在这个上下文中，专家可以是任何一种模型，但通常选择为多层神经网络，而门控网络则是

其中 W 是一个可学习的矩阵，用于将训练样本分配给专家。因此，在训练MoE模型时，学习目标是双重的：

为什么要这样做？为什么这样做有效？从高层次来看，使用这种方法有三个主要动机：

首先，MoE允许将神经网络扩展到非常大的规模，因为结果模型的稀疏性，也就是说，尽管整体模型很大，但只有一个小…