训练在多样文本上的语言模型展现出了非凡的通用语言理解和生成能力,成为适用于广泛应用的基础模型。
在这项研究中,来自普林斯顿大学、EleutherAI、多伦多大学、矢量研究所、剑桥大学、卡内基梅隆大学和华盛顿大学的研究人员开发了一种针对数学的领域特定语言模型。他们明确了进行此项努力的几个动机。首先,解决数学问题需要具备识别大量专业先验知识内的模式的能力,这使得它成为领域适应性的理想背景。其次,数学推理本身代表了人工智能领域的一个核心任务,并且仍然是当代研究的一个话题。第三,具备强大数学推理能力的语言模型的发展对各个研究领域具有广泛的影响,包括奖励建模、理论推理的强化学习、算法推理等。
上述图片展示了在ProofPile-2上持续预训练后所得到的LLEMMA,一个带有改进数学推理能力的基础模型。作者们的贡献如下:
- 他们已经训练并提供了LLEMMA模型,包括7B和34B参数的专门针对数学任务的语言模型。这些LLEMMA模型代表了在数学基础模型公开发布领域的最新成果。
- 他们引入了AlgebraicStack数据集,包含11B个代码标记,与数学语境密切相关。
- 他们的研究展示了LLEMMA模型在使用Python解释器和形式化定理证明器等计算工具解决数学问题方面的熟练程度。
与之前的数学语言模型(如Minerva)相比,LLEMMA模型是开放可访问的,作者们还将训练数据和代码开源。这个决定促进了LLEMMA作为推动数学推理领域未来研究的平台的作用。
他们的工作扩展了Lewkowycz等人在Minerva中进行的研究,有几个显著的区别:
(1)他们的模型LLEMMA在训练和评估过程中涵盖了更广泛的数据和任务。这包括包含代码数据(如AlgebraicStack)、利用各种工具以及参与形式化数学任务。
(2)作者们的方法仅依赖于公开可访问的工具和数据源。
(3)他们引入了与训练数据混合物成分、记忆模式和辅助监督微调等方面相关的新分析。
(4)重要的是,他们的工作相关资料全部向公众开放。
研究人员预计,LLEMMA和Proof-Pile-2将为未来的研究提供坚实的基础。这些资源有望支持语言模型泛化、数据集组成分析、领域特定语言模型的扩展、将语言模型用作数学工具以及增强语言模型的数学能力等领域的研究工作。