Press "Enter" to skip to content

Mistral AI(8x7b)发布首个开源专家模型(MoE)模型

Mistral通过Torrent发布了第一个有560亿个令牌的模型(8个模型,每个模型有70亿个令牌),继续它们对开源世界的承诺!

几天前,我们得知GPT4是一个专家模型,据称包括了8个2200亿参数的模型,每个模型使其成为了一个庞大的1.76万亿参数有效大小的模型。为了让您记起来,我写了一篇文章相关内容。

GPT-4中的8个小模型是如何工作的?

作者:Dr. 曼达尔·卡哈德(MD. PhD.)。最初发布于Towards AI. 秘密的“专家模型”已经揭晓;让我们……

towardsai.net

长话短说,也过于简化了,专家模型或MoE模型就像是模型的乐团。有一种指挥模型决定哪个模型可以回答给定的问题或响应给定的上下文。选定的模型输出结果并作为回应分享。

还有其他的指挥/协调方式,比如从所有模型中获取回应,然后选择正确的回应,或者对各个模型的回应进行加权,然后共享回应等等……但核心概念是相同的!有一个元模型充当指挥家,从许多模型中选择适当的回应(因此是混合模型)。这些模型以特定的功能或语言的不同方面进行训练,使模型的整体性能远远优于单一通用模型。

这是一个80:20的典型策略。相比于一个大模型,这些专家模型可以非常好地完成80%的任务,从而获得卓越的性能。此外,这可以有效降低计算成本,因为每次只会使用其中一个8个模型之一。

回到Mistral MoE

Mistral以真正的Mistral风格发布了一个缩小版的GPT4模型,通过使用来自GPT4的回应进行训练,同时还大大减小了模型的大小。而且,这个模型可以免费下载,供像我们这样的普通人使用!

Leave a Reply

Your email address will not be published. Required fields are marked *