Press "Enter" to skip to content

朝着理解专家混合模型前进

新研究揭示了我们训练MoE模型时发生的情况

作者用Midjourney创建的图像

混合专家(MoE)模型已迅速成为现代机器学习应用中最强大的技术之一,实现了诸如Switch Transformer和GPT-4等突破。事实上,我们只是刚刚开始看到它们的完整影响!

然而,关于为什么MoE起作用的确切原因了解甚少。MoE在什么情况下起作用?为什么闸门不简单地将所有训练样本发送给同一个专家?为什么模型不会崩溃成所有专家都相同的状态?专家如何专门化,并且专门化什么?闸门到底学习到了什么?

幸运的是,研究已经开始揭示这些问题的一些信息。让我们来看一看。

MoE模型 – 简明介绍

图像来源:自适应本地专家混合

简单回顾一下,MoE是由人工智能教父杰弗里·辛顿(Geoffrey Hinton)在1991年的论文“自适应本地专家混合”中发明的。MoE的关键思想是通过组合一些“专家”E来模拟给定输入x的输出y,每个专家的权重由一个“门控网络”G控制。

其中,门控网络G采用简单的线性模型,

其中W是一个可以学习的矩阵,用于将训练样本分配给专家。因此,在训练MoE模型时,学习目标是两方面的:

  1. 专家将学习将它们获得的输入处理为最佳输出(即预测),以及
  2. 门控将学习“路由”正确的训练样本到正确的专家,也就是学习路由矩阵W。

当我们仅在具有最大门控值的单个专家上执行计算时,MoE被证明特别强大,也就是我们近似y为

其中I是G的最大值的索引。我们称之为“硬路由”或“稀疏门控”,它一直是Switch等突破的关键技术…

Leave a Reply

Your email address will not be published. Required fields are marked *