Press "Enter" to skip to content

GPT4中的8个小型模型是如何工作的?

秘密的“专家模型”已经揭晓,让我们了解为什么GPT4如此出色!

近年来,深度学习模型一直备受关注。每个公司都在开发它。随之而来的是对最大和最强大模型的竞争!我们都看到了展示模型大小的图表,就像这样的图表-

来源:Ref

我们都比较了Chinchillas、GPT-3、PaLM等等。在所有这段时间里,微软和OpenAI一直在开发GPT-4。他们为GPT-4的发展制造了所有的悬念。每个人都猜测GPT-4将是第一个拥有万亿参数的模型。尽管改进GPT-3模型的空间相当有限,但我们对GPT-4寄予了很高的期望。然后新闻/谣言变成了现实。GPT-4实际上不是一个单一模型,而是8个小模型,每个模型有2200亿个参数,它们共同工作,形成一个包含1.6到1.7万亿个参数的庞大模型。

GPT-4:8个模型合一;秘密已经揭晓

GPT4保守了模型的秘密以避免竞争,现在秘密已经揭晓!

pub.towardsai.net

8个模型是如何共同工作的?

为了回答这个问题,我们必须回到过去。33年前的1991年,Robert A. Jacobs、Michael I. Jordan、Steven J. Nowlan和AI教父Geoffrey Hinton共同撰写了一篇论文,题为“自适应局部专家混合”。

他们写道:

“我们提出了一种新的监督学习程序,用于由许多独立网络组成的系统,每个网络都学习处理完整训练案例的一个子集。新的程序可以被看作是多层监督网络的模块化版本,也可以被看作是竞争学习的联想版本。因此,它为这两种明显不同的方法之间提供了一个新的链接。我们证明了这个学习过程将一个元音辨别任务分解为适当的子任务,每个子任务都可以由一个非常简单的专家网络来解决。”

这意味着什么?我们来看一下-

Leave a Reply

Your email address will not be published. Required fields are marked *