自从Transformer设计被发现以来,训练大型人工神经网络的技术已经取得了巨大进展,但支撑这一成就的科学仍处于萌芽阶段。在Transformer发布的同时,一种秩序感逐渐形成,这种秩序在同一时间的大量复杂结果中展现出来,表明性能随着计算量或网络规模的增加而可预测地提高,这种现象现在被称为缩放定律。这些缩放规则成为后续深度学习规模研究的指南,而对这些定律变化的发现导致了性能的大幅提升。
在本文中,研究者探讨了如何通过不同的方式提高数据质量。高质量的数据可以产生更好的结果;例如,数据清洗是创建当前数据集的关键步骤,可以使数据集相对较小或能够通过更多迭代运行数据。最近针对TinyStories的研究表明,高质量数据的好处远不止于此。通过大幅改变缩放定律,改善数据质量可能使得能够用更瘦的训练/模型匹配大规模模型的性能。
在本研究中,微软研究的作者证明了高质量的数据可以进一步提高大型语言模型的最先进技术,同时显著减少数据集的大小和训练计算量。较小的模型需要更少的训练,可以大大减少LLM的环境成本。他们从文档字符串中构建了特定的Python函数,使用LLM进行编码训练。HumanEval是后一篇论文中建议使用的评估标准,常用于比较LLM在代码上的性能。
他们通过对1.3B参数模型进行大约8次7B令牌(略大于50B总令牌数)的预训练,然后对少于2亿个令牌进行微调,展示了高质量数据违反现有缩放规则的能力。总的来说,他们在“课本质量”的数据上进行预训练,包括人工创造的(使用GPT-3.5)和从网络来源筛选的,然后在“类似于课本的练习”数据上进行微调。尽管数据集和模型大小都比竞争模型小几个数量级,但他们在HumanEval上获得了50.6%的pass@1准确率,在MBPP(Mostly Basic Python Programs)上获得了55.5%的pass@1准确率,这是仅使用一个LLM生成的最佳自我报告数字之一。
通过对1.3B参数模型进行大约8次7B令牌的预训练(观察总令牌数略大于50B),然后对少于2亿个令牌进行微调,他们展示了高质量数据违反现有缩放规则的能力。总的来说,他们在“课本质量”的数据上进行预训练,包括人工创造的(使用GPT-3.5)和从网络来源筛选的,然后在“类似于课本的练习”数据上进行微调。尽管数据集和模型大小都比竞争模型小几个数量级,但他们在HumanEval上获得了50.6%的pass@1准确率,在MBPP(Mostly Basic Python Programs)上获得了55.5%的pass@1准确率,这是仅使用一个LLM生成的最佳自我报告数字之一。