朝着理解专家混合模型前进

新研究揭示了我们训练MoE模型时发生的情况

混合专家（MoE）模型已迅速成为现代机器学习应用中最强大的技术之一，实现了诸如Switch Transformer和GPT-4等突破。事实上，我们只是刚刚开始看到它们的完整影响！

然而，关于为什么MoE起作用的确切原因了解甚少。MoE在什么情况下起作用？为什么闸门不简单地将所有训练样本发送给同一个专家？为什么模型不会崩溃成所有专家都相同的状态？专家如何专门化，并且专门化什么？闸门到底学习到了什么？

幸运的是，研究已经开始揭示这些问题的一些信息。让我们来看一看。

简单回顾一下，MoE是由人工智能教父杰弗里·辛顿（Geoffrey Hinton）在1991年的论文“自适应本地专家混合”中发明的。MoE的关键思想是通过组合一些“专家”E来模拟给定输入x的输出y，每个专家的权重由一个“门控网络”G控制。

其中，门控网络G采用简单的线性模型，

其中W是一个可以学习的矩阵，用于将训练样本分配给专家。因此，在训练MoE模型时，学习目标是两方面的：

当我们仅在具有最大门控值的单个专家上执行计算时，MoE被证明特别强大，也就是我们近似y为

其中I是G的最大值的索引。我们称之为“硬路由”或“稀疏门控”，它一直是Switch等突破的关键技术…