认识PolyLM（Polyglot Large Language Model）：一个开源的多语言LLM，训练了640B个Token，有两种模型大小1.7B和13B可供选择

认识PolyLM（Polyglot Large Language Model）：一个开源的多语言LLM，训练了640B个Token，有两种模型大小1.7B和13B可供选择四海第1张

随着大型语言模型（LLM）的最近引入，其多样性和能力引起了人工智能领域的广泛关注。这些模型经过大量数据的训练，具备了在自然语言指令下理解、推理和生成文本的出色人类模仿能力。这些模型在零样本和少样本任务中表现良好，可以根据自然语言指令进行微调，以应对未预见的挑战。

当前的LLM及其开发主要集中在英语和资源丰富的语言上。大多数现有的LLM专门针对英语进行设计和训练，导致这些模型的研究和开发中存在英语的主导偏见。为了解决这个限制，来自DAMO Academy和阿里巴巴集团的研究人员提出了一种多语种LLM，称为POLYLM（多语种大型语言模型）。与现有的缺乏13B模型的多语种LLM不同，该团队发布了POLYLM-13B和POLYLM-1.7B以促进使用。

POLYLM是使用来自公开可访问的源（包括维基百科、mC4和CC-100）的640B标记的大规模数据集构建的。团队还提出了一种课程学习技术，以解决低资源语言的数据不足问题。该方法在训练过程中逐渐增加高质量的低资源语言比例，同时最初更加关注英语。重点是将通用知识从英语转移到其他语言。

该团队还开发了MULTIALPACA，一种多语种指令数据集，用于监督微调（SFT）阶段。现有的多语种SFT数据集要么通过手动注释获得（耗时且昂贵），要么通过机器翻译获得（可能导致翻译错误且缺乏文化细微差别）。这种多语种自我指导方法自动提供高质量的多语种指令数据，以克服这些限制，并利用英语种子、多语种翻译、指令生成和过滤系统。

为了评估和评估LLM的多语种能力，该团队开发了一个基准，该基准源于现有的多语种任务，包括问答、语言理解、文本生成和跨语言机器翻译。该基准通过精心设计的提示覆盖了15种语言的十个任务。通过大量实验，该团队证明了他们的预训练模型在非英语语言中的性能优于开源模型。所提出的课程训练策略在保持英语熟练度的同时提高了多语种性能。使用多语种指令数据还显著增强了POLYLM处理多语种零样本任务的能力。

该团队总结了以下贡献。

开发了一个熟练的13B规模模型，其在西班牙语、俄语、阿拉伯语、日语、韩语、泰语、印尼语和中文等主要非英语语言中表现良好。该模型补充了现有开源模型在这些语言中要么不熟练，要么具有较小版本且能力不同的不足之处。

提出了一种先进的课程学习方法，促进了从英语到多种非英语语言和特定自然语言处理任务（如机器翻译）的通用知识的传递。

提出了一个名为MULTIALPACA的数据集，它补充了现有的指令数据集，使LLM能够更好地遵循多语种指令，特别是来自非英语母语的指令。