Press "Enter" to skip to content

威斯康辛大学的一项新研究探讨了如何利用随机初始化训练的小型Transformer有效地学习算术运算,其中使用了下一个标记预测目标

威斯康辛大学的一项新研究探讨了如何利用随机初始化训练的小型Transformer有效地学习算术运算,其中使用了下一个标记预测目标 四海 第1张威斯康辛大学的一项新研究探讨了如何利用随机初始化训练的小型Transformer有效地学习算术运算,其中使用了下一个标记预测目标 四海 第2张

对于包括语言和代码翻译、组合思维和基本算术运算在内的各种下游任务,像GPT-3/4、PaLM和LaMDA这样的大型语言模型展示了通用功能,有时还会出现新的技能。也许令人惊讶的是,模型的训练目标通常是基于下一个标记的预测的自回归损失,它并没有直接编码这些目标。这些技能在早期的研究中已经深入探讨过,同时还探讨了它们在训练计算规模、数据类型和模型大小变化时的变化。然而,鉴于数据的复杂性和评估的工作范围,仍然很难分离这些因素。他们出于好奇,想要确定加速这些能力出现的主要因素,因为他们对于促使这些能力在下一个标记预测者中出现的因素感到好奇。

这些因素包括数据的格式和大小、模型的大小、预训练的存在以及提示的风格。他们的工作是在受控环境中进行的,以便更全面地分析这些参数。他们着重教授数学给小型Transformer模型,包括NanoGPT和GPT-2,在从随机初始状态进行训练时。他们使用常见的自回归下一个标记预测损失,从具有1060万参数的模型缩放到具有1.24亿参数的模型。来自UW Madison的研究人员旨在理解这些模型如何有效地学习加法、减法、乘法、平方根和正弦等基本数学运算,从而让我们对于如何引发新出现的才能有更深入的了解。他们在下面概述了他们的结论。

  1. 样本大小和数据格式都很重要。

首先,他们指出使用典型的加法样本(例如“A3A2A1 + B3B1B1 = C3C2C1”)来教授模型加法并不理想,因为它强迫模型首先评估结果的最高位C3,而这取决于两个加数的所有位数的集体。通过训练模型使用结果反转的样本(例如“A3A2A1 + B3B1B1 = C1C2C3”),可以让模型学习一个更简单的函数,这大大增加了样本的复杂性。进一步增强学习的是许多“变体”的样本,这些样本依赖于涉及的位数和进位。即使在这种简单的情况下,他们观察到训练数据量的增加会导致从0%到100%的准确性突变。出乎意料的是,他们指出完成低秩矩阵与从随机样本学习n位加法映射相似。由于这种联系,他们可以对这种阶段性变化提供逻辑上的解释。

  1. 认知流动数据的培训。

基于这些发现,他们研究了在培训过程中使用思维链数据的可能优势。这种格式使模型能够学习困难任务的不同元素,因为它包括逐步操作和中间输出。这种结构直接源自相关文献,例如。根据CoT微调文献,他们发现CoT类型的训练数据在样本复杂性和准确性方面显著提高了学习效果,即使在没有语言预训练的情况下,他们的发现仍然成立。他们假设这是因为模型可以通过将需要实现的复合函数分解为单个组件来学习一个更高维度但更简单的函数映射。他们在他们的研究中给出了他们研究的四种数据格式技术的样本,如图1所示。

  1. 文本和数学混合训练。

由于LLM模型是在从互联网下载的大量数据上进行训练的,其中很难清洗各种形式的数据,因此他们还研究了文本和数值数据在训练过程中的交互方式。他们跟踪文本与算术输入的比例对模型的困惑度和准确性的影响。他们发现了先前处理的算术操作可以分别增强每个任务的性能,并且从零-shot提示到一-shot提示的切换显著增加了准确性。然而,当提供更多的示例时,准确性的提高不太明显。模型大小和预训练的重要性。

  1. 预训练和模型规模的作用。

此外,他们研究了通过微调像GPT-2和GPT-3这样的模型来研究预训练的作用,并发现虽然零-shot性能在算术操作上表现不佳,但预训练期间开发的先前“技能”使得在一些基本算术任务上能够达到可接受的性能,即使只有有限数量的微调样本。然而,当模型在标准格式的操作上进行预训练时,微调非标准格式(如反向格式)可能会干扰模型性能并降低准确性。最后,他们研究了规模对算术性能的影响,并发现虽然规模确实有助于学习算术运算,但并不是必要条件。

  1. 长度和组成的泛化。

人们可能会想知道他们训练的模型是否对数学有深入的理解。他们的研究给出了一个复杂的答案。他们发现将长度推广到训练数字长度之外是具有挑战性的。例如,如果模型在所有n位数长度上进行训练,但排除了某个特定长度,那么它会发现很难调整并正确计算这个缺失的数字长度。因此,模型在训练数字长度范围内表现良好,但在范围之外的地方表现要差得多。这表明模型更多地将算术视为一种映射函数,而不是一种灵活的过程。这超出了死记硬背,但不足以对数学进行彻底的“理解”。

  1. 创新与以前的努力。

他们并不声称他们的方法在所利用的训练数据类型方面是原创的,而是强调它在以前的研究中利用教育性数据来提高模型性能的工作上。关于随机初始化模型的主要强调,以及对各种采样/数据格式和模型规模设置进行深入的消融研究,以分离导致算术能力快速形成的变量,这使他们的工作与该领域的其他研究有所区别。此外,他们在研究中发现的一些现象有一些简单但可能具有启发性的理论解释。

威斯康辛大学的一项新研究探讨了如何利用随机初始化训练的小型Transformer有效地学习算术运算,其中使用了下一个标记预测目标 四海 第3张
图1:本研究中所检验的四种数据格式化技术如图所示。普通:普通的加法格式;反转:输出被反转;简化草稿本:逐位求和和进位;以及全面草稿本:全面的中间加法阶段。使用经过这些不同加法格式化技术处理过的数据,我们从头开始训练微型变压器模型。结果(显示在右侧)显示了数据格式化对性能和样本效果的重要性。随着数据格式中信息量的增加,普通永远无法达到100%的准确性,而其他技术学习完全加法的样本复杂度逐渐降低。
Leave a Reply

Your email address will not be published. Required fields are marked *