Press "Enter" to skip to content

Salesforce推出XGen-7B:一个新的7B LLM,使用高达8K序列长度进行1.5T令牌训练

Salesforce推出XGen-7B:一个新的7B LLM,使用高达8K序列长度进行1.5T令牌训练 机器学习 第1张Salesforce推出XGen-7B:一个新的7B LLM,使用高达8K序列长度进行1.5T令牌训练 机器学习 第2张

随着人工智能在技术上的突破,大型语言模型(LLMs)变得越来越普遍。在过去几年中,研究人员通过在大量数据上训练这些模型以理解复杂的语言模式、生成连贯的回答等方式,在解决几个复杂的语言相关任务方面取得了快速进展。其中一个特别引起研究人员和开发人员兴趣的研究领域是在处理长篇内容时应用LLMs,以包含更广泛的上下文。这些任务的一些例子包括相对简单的文本摘要和代码生成,以及更复杂的问题陈述,如蛋白质结构预测和信息检索。长文本序列包含各种形式的信息,如段落、表格、图片等;因此,LLMs必须经过训练来处理和理解这些元素。此外,通过有效考虑长距离的结构依赖关系,LLMs可以识别文本的不同部分之间的联系,并提取最相关的信息。因此,对更广泛的知识的接触使LLMs能够为用户查询提供更准确和有关上下文的答案。

然而,尽管存在许多潜在的用例,大多数可用的开源LLMs,从Meta的LLaMA到MosaicML的MPT LLM模型,都是在最多2K个标记的序列上进行训练的。这一限制在对更长序列进行建模时带来了重大挑战。此外,以前的模型扩展研究表明,当给定一个固定的计算预算时,较小的模型在训练更多标记的情况下表现优于较大的模型。因此,受到手头问题和当前进展的启发,Salesforce Research通过引入XGen-7B取得了突破性的成就,这是一系列在1.5万亿个标记的8K序列长度上训练的7B LLMs。这一系列模型包括支持4K序列长度的XGen-7B-4K-Base,支持8K序列长度的XGen-7B-8K-Base,以及在公共领域指导数据上进行了微调的XGen-7B-8k-Inst(仅用于研究目的)。这些LLMs的显著特点是,与其他类似规模的最新LLMs(如MPT、Falcon、LLaMA等)相比,在标准NLP基准测试中,XGen取得了相当或更好的结果。

本研究所使用的XGen-7b模型是使用Salesforce的专有库JaxFormer进行训练的,该库可以利用数据和模型的并行性在TPU-v4硬件上进行高效训练。训练过程遵循LLaMA的指导方针,并进行了两项额外的研究。第一项探索集中在理解“损失峰值”,即在训练过程中,损失会突然而暂时地增加,而没有明显的根本原因。尽管这些峰值的根本原因尚不清楚,但研究人员确定了“顺序过并行电路”、“swish-GLU过GeLU”和“RMS-Norm过Layer-norm”等因素可能导致训练不稳定。第二个方面是序列长度。由于使用更长的序列进行训练会导致计算成本显著增加,因为自注意力的复杂度是二次的,因此采用了分阶段训练的方法。训练最初包括800B个标记,序列长度为2k个标记,然后是400B个标记,序列长度为4k,最后是300B个标记,序列长度为8k。

为了评估XGen-7b 8k模型在理解更长上下文方面的能力,研究人员使用三个主要任务进行评估:长篇对话生成、文本摘要和问答。研究人员针对所面临任务的难度使用了经过指导调整的模型进行评估。关于长篇对话生成,研究人员使用了三个任务进行评估:AMI会议摘要、ForeverDreaming和TVMegaSite剧本摘要。在所有指标上,XGen-7B-inst模型的得分最高,相比其他经过指导调整的模型,表现出了更好的性能。

对于长篇问答,研究人员使用ChatGPT生成了基于维基百科文档的问题,涵盖了物理学、工程学、历史学和娱乐等各种主题,以及它们对应的摘要。使用GPT-4对LLM生成的256个标记长的答案进行评估,评估标准包括结构、组织和与问题及源文档的相关性。在这种情况下,XGen-7B-8k-Inst模型胜过了只能处理2k个标记的基准模型,展示了其卓越的性能。在文本摘要方面,研究人员使用来自不同领域的两个数据集,具体是会议对话和政府报告,来评估XGen-7b模型。结果显示,XGen-7b模型在这些任务中明显优于其他基准模型,表明其在文本摘要方面的卓越性能。

评估结果显示,XGen-7b模型在理解各种任务中的较长上下文方面表现出色,包括长篇对话生成、问答和文本摘要。其性能超越了其他经过指导和基准调整的模型,展示了其在理解和生成连贯响应方面的有效性。然而,尽管其效果显著,研究人员承认XGen模型存在一定限制,因为它不能免于偏见,并有可能生成有害的响应,这是它与许多其他AI模型共同的特点。Salesforce研究还开源了其代码,以便社区探索其工作。

查看SF博客Github链接。别忘了加入我们的2.5万+ ML SubRedditDiscord频道电子邮件通讯,我们会分享最新的AI研究新闻、酷炫的AI项目等等。如果对上述文章有任何问题或者我们遗漏了什么,请随时发送邮件至Asif@marktechpost.com与我们联系。

Leave a Reply

Your email address will not be published. Required fields are marked *