通过显著提高广泛任务的最新性能和揭示新的新兴技能,大型语言模型(LLM)对NLP研究和应用产生了深远影响。为了将输入文本编码为表示向量,已经进行了仅编码器模型的研究;为了创建文本,已经研究了仅解码器模型;为了完成序列到序列的生成,已经研究了编码器-解码器模型。模型大小和训练数据集的指数级增长,这两者都是最大性能的扩展率所需的,是LLM卓越能力背后的主要推动力。例如,尽管BERT模型只包含几亿个参数,但更现代的基于GPT的模型现在包含数千亿个参数。
庞大的模型大小和庞大的训练数据集是提升大型语言模型(LLM)具有惊人学习能力的主要要素。随着NLP的发展,LLM已逐渐向公众开放,以鼓励进一步的研究和实际应用。然而,这些LLM的训练数据集通常只提供部分,特别是对于最新的最先进模型。需要进行大量数据清理和去重,以创建高质量的LLM训练数据。因此,对训练数据更加开放的需求,阻碍了复制发现和推进LLM中的幻觉和偏见研究领域的努力。在多语言学习场景中,这些困难在通常不充分收集和清理多语言文本集合的情况下更加复杂。因此,目前没有一个可以用于跨语言训练LLM的良好开源数据集。CulturaX是由俄勒冈大学和Adobe Research的学术界合作开发的,包括167种语言的63万亿个标记的大型多语言数据集,旨在解决这个问题。为了确保模型训练的最高质量,数据集经过严格的处理流程,包括多个清理和去重的步骤。这些过程包括识别数据集中的语言、使用URL过滤数据集、使用度量标准清理数据集、优化文档和去重数据。
CulturaX经过全面的文档级清理和去重,以确保跨语言训练LLM的最高质量。数据清理过程使用完整的流水线来消除不准确的信息。这需要消除不准确的语言识别、有毒数据和非语言材料等干扰因素。
主要特点
- CulturaX是迄今为止最大的经过全面清理和去重的开源多语言数据集,可用于LLM和NLP应用。
- CulturaX提供了一个多语言、开源和庞大的数据集,具有立即可用和高质量的数据,可用于训练LLM,解决当前数据集的许多问题。
- 虽然存在包含各种语言文本数据的多语言开源数据集,如mC4,但它们的质量和规模不符合高效训练LLM的要求,特别是生成模型如GPT。例如,如介绍中所提到的,mC4和OSCAR都没有提供文档级模糊去重。mC4的语言识别使用cld3的结果较差,这是另一个缺点。虽然CC100确实包含2018年以后的数据,但BigScience ROOTS只为46种语言提供了部分数据的样本。
HuggingFace的CulturaX的完整公开发布将有助于进一步研究多语言LLM及其应用。在这里查看https://huggingface.co/datasets/uonlp/CulturaX
您应该了解一下CulturaX,这是一个包含167种语言的新的多语言数据集。经过全面的工作流程清理和去重后,数据集中含有63万亿个标记。作为一个庞大而高质量的数据集,CulturaX可以轻松用于训练各种语言的有效LLM。这些信息对公众免费提供,并且研究人员希望它可以激发进一步的语言习得研究和实际应用。