认识MAmmoTH：一系列专门针对一般数学问题解决而设计的开源大型语言模型（LLM）

认识MAmmoTH：一系列专门针对一般数学问题解决而设计的开源大型语言模型（LLM）四海第1张

现代大型语言模型（LLM）在很大程度上依赖于数学推理，这是本文的主要焦点。尽管在这个领域取得了一些进展，但封闭源模型（如GPT-4、PaLM-2和Claude 2）在GSM8K和MATH等流行的数学推理基准中占据主导地位，而开源模型（如Llama、Falcon和OPT）则远远落后。

解决这个差距的两种主要方法是：

持续的预训练，例如Galactica和MINERVA，现在它正在使用链接到数学的超过1000亿个网页数据上训练LLM。虽然计算代价高昂，但这种方法可以提高模型在科学推理方面的能力。
使用每个数据集独特的训练数据，使用拒绝采样微调（RFT）和WizardMath等微调方法来完善LLM。虽然这些方法在其领域内是有效的，但在需要推理的其他数学领域中无法转移。

滑铁卢大学、俄亥俄州立大学、香港科技大学、爱丁堡大学和IN.AI最近的研究探索了一种轻量级但具有普适性的数学指令调整技术，以提高LLM在数学推理能力上的表现（即不仅仅是微调任务）。

目前的方法在很大程度上依赖于思维链（CoT）方法，描述了它们如何以自然语言步骤解决数学问题。但是，当涉及到计算精度和复杂的数学或算法推理方法时，这种方法表现不佳。基于代码的技术，如PoT和PAL，使用第三方资源来简化数学求解过程。

该方法建议将计算密集型任务（例如使用sympy解二次方程或使用numpy计算矩阵特征值）委托给一个独立的Python解释器。另一方面，PoT在处理更抽象的推理场景（如常识推理、形式逻辑和抽象代数）时具有一些局限性，特别是在缺乏现有API的情况下。

为了充分利用CoT和PoT的优势，该团队提出了一个名为MathInstruct的数学混合指令调整数据集。它的主要特点包括：

全面覆盖各种数学领域和复杂程度
混合CoT和PoT的解释。

六个全新选择的和七个现有的数据集为MathInstruct的数学解释提供了基础。从建模的角度来看，研究人员训练和评估了约50个独特模型，基线范围从7B到70B，以了解各种输入输出格式和数据源的影响。

结果表明，这些模型在数学通用性方面表现出色。

研究人员在各种数据集上对MAmmoTH进行了广泛测试，从领域内（IND）到领域外（OOD），例如GSM8K、MATH、AQuA-RAT和NumGLUE。这些模型显著提高了开源LLM在数学推理上的效率，并且在OOD数据集上比最先进的方法具有更好的泛化能力。在流行的竞赛级别MATH数据集上，7B模型的结果超过了WizardMath（开源MATH SoTA）的3.5倍（35.2%对10.7%），而34B MAmmoTH-Coder（在Code Llama上进行了微调）的结果超过了GPT-4（使用CoT）。这些模型中的MAmmoTH和MAmmoTH-Coder都显著提高了以前可用的开源模型的准确性。