AI2发布Dolma：一个3万亿令牌语料库，开创语言模型研究的透明度

AI2发布Dolma：一个3万亿令牌语料库，开创语言模型研究的透明度四海第1张

透明度和开放性在语言模型研究中一直是有争议的问题。封闭数据集的存在、秘密的方法论和有限的监督成为推动该领域发展的障碍。为了应对这些挑战，Allen人工智能研究所（AI2）推出了一项开创性的解决方案——Dolma数据集，该数据集包含了惊人的3万亿个标记。目的是在语言模型研究中引领一个新的合作、透明和共享进步的时代。

在不断发展的语言模型开发领域中，OpenAI和Meta等行业巨头使用的数据集和方法论的模糊性给进展蒙上了阴影。这种不透明性不仅阻碍了外部研究人员对现有模型进行批判性分析、复制和增强的能力，也抑制了该领域的整体增长。AI2的Dolma作为一种开放的象征，出现在一个笼罩在秘密中的领域中。Dolma拥有囊括网络内容、学术文献、代码等的全面数据集，旨在通过赋予研究社区构建、解析和优化其语言模型的工具，赋予他们独立进行研究的能力。

Dolma的创造的核心是一组基础原则。其中最重要的原则是开放性，AI2倡导这一原则以消除与预训练语料库的受限访问相关的障碍。这一理念鼓励开发数据集的改进版本，并促进对数据与其支撑的模型之间复杂关系的深入研究。此外，Dolma的设计强调代表性，模拟已建立的语言模型数据集，以确保可比较的能力和行为。规模也是一个突出的考虑因素，AI2深入研究模型和数据集尺寸之间的动态相互作用。为了进一步加强方法论的透明度和降低风险，AI2采用了可复现性和风险缓解的原则，以及透明的方法论和对个体伤害的最小化承诺。

Dolma的创造是一个数据处理的细致过程。该流程包括特定来源和无源操作，将原始数据转化为干净、朴素的文本文档。这些复杂的步骤包括语言识别、从Common Crawl中筛选网络数据、质量过滤、去重和风险缓解策略等任务。包括代码子集和多样化的来源（包括科学手稿、维基百科和Project Gutenberg等）将Dolma的全面性提升到了新的高度。

AI2发布Dolma：一个3万亿令牌语料库，开创语言模型研究的透明度四海第3张 — 描绘数据集透明度变化程度的插图

总的来说，Dolma的引入标志着语言模型研究中透明度和合作协同的重大进展。AI2决心解决隐藏数据集的问题，通过开放获取和细致的文档记录确立了一个变革性的先例。所提出的方法论Dolma是一个宝贵的精选内容库，将成为全球研究人员的基石资源。它打破了主要行业参与者周围的秘密范式，取而代之的是一个倡导集体进步和对该领域的深入理解的新框架。随着自然语言处理学科开辟新的视野，Dolma的影响将产生涟漪效应，远远超越这个数据集，促进共享知识的文化，催生创新，并培育负责任的人工智能的发展。