新研究揭示了我们训练MoE模型时发生的情况
![朝着理解专家混合模型前进 四海 第1张-四海吧 作者用Midjourney创建的图像](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/0*-_UvR2pODQHkdOAg.png)
混合专家(MoE)模型已迅速成为现代机器学习应用中最强大的技术之一,实现了诸如Switch Transformer和GPT-4等突破。事实上,我们只是刚刚开始看到它们的完整影响!
然而,关于为什么MoE起作用的确切原因了解甚少。MoE在什么情况下起作用?为什么闸门不简单地将所有训练样本发送给同一个专家?为什么模型不会崩溃成所有专家都相同的状态?专家如何专门化,并且专门化什么?闸门到底学习到了什么?
幸运的是,研究已经开始揭示这些问题的一些信息。让我们来看一看。
MoE模型 – 简明介绍
![朝着理解专家混合模型前进 四海 第2张-四海吧 图像来源:自适应本地专家混合](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/0*czNnY09ypq7JcCOe.png)
简单回顾一下,MoE是由人工智能教父杰弗里·辛顿(Geoffrey Hinton)在1991年的论文“自适应本地专家混合”中发明的。MoE的关键思想是通过组合一些“专家”E来模拟给定输入x的输出y,每个专家的权重由一个“门控网络”G控制。
其中,门控网络G采用简单的线性模型,
其中W是一个可以学习的矩阵,用于将训练样本分配给专家。因此,在训练MoE模型时,学习目标是两方面的:
- 专家将学习将它们获得的输入处理为最佳输出(即预测),以及
- 门控将学习“路由”正确的训练样本到正确的专家,也就是学习路由矩阵W。
当我们仅在具有最大门控值的单个专家上执行计算时,MoE被证明特别强大,也就是我们近似y为
其中I是G的最大值的索引。我们称之为“硬路由”或“稀疏门控”,它一直是Switch等突破的关键技术…