Press "Enter" to skip to content

专家模型的机器学习:初探

几十年前的一个想法如何使今天训练非常庞大的神经网络成为可能

(Pexels)

专家模型是机器学习中最有用的发明之一,但它们往往得不到应有的关注。事实上,专家建模不仅使我们能够训练“非常庞大”的神经网络(稍后会详细介绍),还使我们能够构建更像人脑的模型,也就是说,不同的区域专门处理不同类型的输入。

在本文中,我们将介绍专家建模中的关键创新,这些创新最终导致了最近的突破,如Switch Transformer和Expert Choice Routing算法。但首先让我们回顾一下最早的那篇论文:“Mixtures of Experts”。

专家混合模型(1991)

The original MoE model from 1991. Image credit: Jabocs et al 1991, Adaptive Mixtures of Local Experts.

专家混合模型(MoE)的想法可以追溯到三十多年前,由人工智能奠基人 Geoffrey Hinton 共同撰写的一篇1991年的论文。MoE的关键思想是通过组合一些“专家”E来建模输出“y”,每个专家的权重由“门控网络”G控制:

在这个上下文中,专家可以是任何一种模型,但通常选择为多层神经网络,而门控网络则是

其中 W 是一个可学习的矩阵,用于将训练样本分配给专家。因此,在训练MoE模型时,学习目标是双重的:

  1. 专家将学习将给定的输出处理为尽可能好的输出(即预测),
  2. 门控网络将学习通过共同学习路由矩阵 W 将正确的训练样本路由到正确的专家。

为什么要这样做?为什么这样做有效?从高层次来看,使用这种方法有三个主要动机:

首先,MoE允许将神经网络扩展到非常大的规模,因为结果模型的稀疏性,也就是说,尽管整体模型很大,但只有一个小…

Leave a Reply

Your email address will not be published. Required fields are marked *