GPT4中的8个小型模型是如何工作的？

秘密的“专家模型”已经揭晓，让我们了解为什么GPT4如此出色！

近年来，深度学习模型一直备受关注。每个公司都在开发它。随之而来的是对最大和最强大模型的竞争！我们都看到了展示模型大小的图表，就像这样的图表-

我们都比较了Chinchillas、GPT-3、PaLM等等。在所有这段时间里，微软和OpenAI一直在开发GPT-4。他们为GPT-4的发展制造了所有的悬念。每个人都猜测GPT-4将是第一个拥有万亿参数的模型。尽管改进GPT-3模型的空间相当有限，但我们对GPT-4寄予了很高的期望。然后新闻/谣言变成了现实。GPT-4实际上不是一个单一模型，而是8个小模型，每个模型有2200亿个参数，它们共同工作，形成一个包含1.6到1.7万亿个参数的庞大模型。

GPT-4：8个模型合一；秘密已经揭晓

GPT4保守了模型的秘密以避免竞争，现在秘密已经揭晓！

pub.towardsai.net

8个模型是如何共同工作的？

为了回答这个问题，我们必须回到过去。33年前的1991年，Robert A. Jacobs、Michael I. Jordan、Steven J. Nowlan和AI教父Geoffrey Hinton共同撰写了一篇论文，题为“自适应局部专家混合”。

他们写道：

“我们提出了一种新的监督学习程序，用于由许多独立网络组成的系统，每个网络都学习处理完整训练案例的一个子集。新的程序可以被看作是多层监督网络的模块化版本，也可以被看作是竞争学习的联想版本。因此，它为这两种明显不同的方法之间提供了一个新的链接。我们证明了这个学习过程将一个元音辨别任务分解为适当的子任务，每个子任务都可以由一个非常简单的专家网络来解决。”

这意味着什么？我们来看一下-