Press "Enter" to skip to content

介绍MPT-7B:一个新的开源LLM

一个由MosaicML基金会系列培训的LLM,训练了1T个文本和代码令牌

介绍MPT-7B:一个新的开源LLM 机器学习 第1张

目前,大型语言模型(LLM)非常火爆。但是,如果您的组织没有正确的资源,跳上大型语言模型浪潮可能会很具有挑战性。训练和部署大型语言模型可能很困难,你会突然感到被遗弃。Meta的LLaMA系列等开源LLM,使得LLM资源得以提供。

还有一个新的开源收藏品加入了MosaicML Foundations系列-MPT-7B。

什么是MPT-7B?

MPT代表MosaicML预训练变形器。 MPT模型是带有许多改进的GPT风格的仅解码变形器:

  • 性能优化的层实现
  • 由于架构变更而具有更高的训练稳定性
  • 没有上下文长度限制

MPT-7B是一个变形器模型,它是使用1T个文本和代码标记从头开始训练的。是的,1万亿个标记! 它是在MosaicML平台上进行的,耗时9.5天,没有任何人工干预。花费MosaicML约200k美元。

它是开源的,可用于商业用途,这个工具将改变企业和组织的预测分析和决策过程。

MPT-7B的主要特点包括:

  • 许可商业使用
  • 训练了大量数据(1T个标记)
  • 可以处理极长的输入
  • 优化了快速训练和推理
  • 高效的开源训练代码。

MPT-7B是基础模型,已被证明优于其他开源的7B-20B模型。 MPT-7B的质量与LLaMA-7B相匹配。为了评估MPT-7B的质量,MosaicML Foundation制定了11个开源基准,并使用行业标准的方式进行了评估。介绍MPT-7B:一个新的开源LLM 机器学习 第2张

MosaicML基金会还发布了三个额外的精细调整模型:

  1. MPT-7B-Instruct
  2. MPT-7B-Chat
  3. MPT-7B-StoryWriter-65k+

MPT-7B-Instruct

MPT-7B-Instruct模型用于短型指令跟随。 有了26,834个数据,可以让您快速提问并提供即时响应。 有问题,您只想要简单的答案-使用MPT-7B-Instruct。

为什么这很好?通常,LLMs被教授根据提供的输入继续生成文本。 但是,有些人正在寻找将其输入视为指令的LLMs。 指令微调允许LLMs执行指令跟随输出。

MPT-7B-Chat

是的,我们又有了另一个聊天机器人。 MPT-7B-Chat生成对话。 例如,如果您希望聊天机器人生成讲话,则可以为其提供上下文,它将以对话方式生成文本。 或者,您可能想编写一条推文,该推文将一篇文章的段落改写,它可以为您生成对话!

为什么这很好?MPT-7B Chat已准备好并配备了各种对话任务,为用户提供更无缝,更 engaging的多轮交互。

MPT-7B-StoryWriter-65k+

这是给故事作家的! 对于那些想要编写具有长上下文的故事的人,MPT-7B-StoryWriter-65k+是专门为此设计的模型。该模型是通过精细调整具有65k标记上下文长度的MPT-7B构建的,它可以超越65k个标记。 MosaicML Foundation已经能够在A100-80GB GPU的单个节点上生成84k个标记。

为什么这很棒?这是因为大多数开源LLMs只能处理长度最多几千个令牌的序列。但是仅使用MosaicML平台上的8xA100-80GB的单个节点,您就可以微调MPT-7B以处理长度高达65k的上下文!

关于MPT-7B的更多信息

MosaicML团队仅用了几周时间就构建了这些模型。他们在几周内处理了数据准备、训练、微调和部署。

数据来自多个来源,每个来源都有10亿个令牌可用。有效令牌数量仍然在每个来源中达到了10亿!团队使用了EleutherAI的GPT-NeoX和20B分词器,使他们能够在各种数据上进行训练,应用一致的空间分隔等。

所有MPT-7B模型都是在MosaicML平台上使用Oracle Cloud的A100-40GB和A100-80GB GPU进行训练的。

如果您想了解有关MPT-7B工具和成本的更多信息,请阅读:MPT-7B博客。

总结

MosaicML平台可以被认为是组织建立自定义LLMs的最佳起点,无论是私人、商业还是社区相关。有了这个开源资源,组织可以更自由地使用这些工具来改善当前的组织挑战。

客户可以在任何计算提供程序或数据源上训练LLMs,同时能够保持效率、隐私和成本透明度。

您认为您会使用MPT-7B做什么?在下面的评论中让我们知道。 Nisha Arya是一位数据科学家、自由技术作家和小猪AI的社区经理。她特别喜欢提供数据科学职业建议或教程和基于理论的数据科学知识。她还希望探索不同的人工智能如何/可以惠及人类寿命的方式。她是一位热心的学习者,希望扩展自己的技术知识和写作技能,同时帮助指导他人。

Leave a Reply

Your email address will not be published. Required fields are marked *