见面Mixtral 8x7b：Mistral推出的革命性语言模型，超越GPT-3.5在开放学术资源的人工智能中

大型语言模型领域迎来了一个重要的跨越，Mixtral 8x7b的到来。Mistral AI开发了这个具有卓越能力和独特架构的新模型。它用稀疏的Expert混合（MoE）层取代了前馈层，这是变换器模型中的一种创新方法。

Mixtral 8x7b 在一个框架内拥有八个专家模型。这个模型是一个专家混合模型（MoE），使Mixtral能够实现卓越的性能。

专家混合技术可以使模型的预训练所需的计算能力大大减少。这意味着可以显著增加模型或数据集的大小而不增加计算预算。

在MoE层中引入了路由器网络，它可以高效选择处理哪些令牌的专家。尽管与含有12B参数的密集模型相比，Mixtral的模型拥有四倍的参数，但由于每个时间步选择了两个专家，因此可以快速解码。

Mixtral 8x7b具有32,000个令牌的上下文长度容量，优于Llama 2 70B，并在各种基准测试中展现出与GPT3.5相媲美或更好的结果。研究人员表示，该模型具有适用于各种应用的多功能性。它可以多语言操作，并展现其在英语、法语、德语、西班牙语和意大利语方面的流利性。其编码能力也非常出色；在HumanEval测试中得分40.2%，巩固了它作为一个全面的自然语言处理工具的地位。

Mixtral Instruct在MT-Bench和AlpacaEval等行业标准上表现出色。它在MT-Bench上的表现超过其他公开模型，并与GPT-3.5相匹配。尽管参数达到70亿，但该模型的性能类似于八个模型的集合。虽然它可能没有达到560亿参数的规模，但总参数数约为450亿。此外，Mixtral Instruct在指导和聊天模型领域表现出色，表达了其优势。

Mixtral Instruct的基本模型没有与其他基本模型对齐的特定提示格式。这种灵活性允许用户顺畅地扩展输入序列，获得合理的延续或将其用于零样本/少样本推理。

然而，有关预训练数据集的维度、组成和预处理方法的完整信息仍需进一步提供。同样，仍不知道对Mixtral instruct模型的DPO（域预提供目标）和SFT（部分微调）使用了哪些微调数据集和相关超参数。

总结一下，Mixtral 8x7b通过结合性能、适应性和创造力改变了语言模型的游戏规则。当AI社区继续研究和评估Mistral的架构时，研究人员迫切希望看到这种先进语言模型的影响和应用。MoE的8x7B能力可能为科学研究和发展、教育、医疗保健和科学开辟新的机遇。

这篇文章Meet Mixtral 8x7b: The Revolutionary Language Model from Mistral that Surpasses GPT-3.5 in Open-Access AI最早发布于MarkTechPost。