在MosaicML-7B取得巨大成功之后,MosaicML再次超越了他们之前设定的基准。在这个新的突破性发布中,MosaicML推出了MosaicML-30B。
MosaicML是一个非常精确和强大的预训练transformer。MosaicML声称,MosaicML-30B甚至比ChatGPT3更好。
MosaicML-30B发布之前,MosaicML-7B已经席卷了人工智能界。MPT-7B的基础指导、基础聊天和故事创作都取得了巨大的成功。公司声称,这些模型在全球下载了300多万次。推动MosaicML推出更好的引擎(如MPT-30B)的最大原因之一是社区对他们之前发布的模型的热衷。
令人难以置信的是,社区如何运用这些MPT引擎构建出更好的调整并提供具体的使用案例。一些有趣的案例包括LLaVA-MPT。LLaVa-MPT将视觉理解添加到预训练的MPT-7B中。
类似地,GGML优化MPT引擎以在Apple Silicon和CPU上更好地运行。GPT4ALL是另一个使用案例,它让您使用MPT作为基础引擎运行类似于GPT4的聊天选项。
仔细观察,MosaicML能够给大公司带来激烈竞争和更好的替代品的最大原因之一是他们提供的竞争性特性列表以及他们的模型相对于不同用例的适应性和相对简单的集成。
在这个发布中,MosaicML还声称他们的MPT-30B比现有的ChatGPT3表现更好,但使用的参数数量只有ChatGPT的三分之一,使其成为相对于现有生成解决方案来说非常轻量级的模型。
它比MosaicML现有的MPT-7B更好,并且这个MPT-30B可以在商业许可下进行商业使用。
不仅如此,MPT-30B还带有两个预训练模型,即MPT-30B-Instruct和MPT-30B-Chat,这两个模型能够受到单个指令的影响,并且能够进行较长时间的多轮对话。
它之所以更好的原因还有很多。MosaicML设计MPT-30B采用自下而上的方法,确保每个移动部件都能更好地执行和更高效地运行。MPT-30B通过8k个标记上下文窗口进行训练。它通过ALiBi支持更长的上下文。
借助FlashAttention,它改进了训练和推断性能。MPT-30B还具备更强的编码能力,这要归功于他们所处理的数据的多样性。该模型在Nvidia的H100上扩展到了8K的上下文窗口。该公司声称,就他们所知,这是在H100上进行训练的第一个LLM模型,而这些模型对于客户来说是随时可用的。
MosaicML还保持了模型的轻量级,这有助于新兴组织降低运营成本。
MPT-30B的大小也是特意选择的,以便在单个GPU上轻松部署。1xA100-80GB以16位精度或1xA100-40GB以8位精度可以运行该系统。其他相当的LLMs,如Falcon-40B,具有更大的参数数量,并且不能在单个数据中心GPU上提供服务(今天);这就需要2个或更多的GPU,从而增加了最低推理系统成本。