Press "Enter" to skip to content

学习如何成长机器学习模型

新的LiGO技术加速了大型机器学习模型的训练,降低了开发AI应用的经济和环境成本

Image: Courtesy of the researchers, edited by MIT News

众所周知,OpenAI的ChatGPT具有一些令人难以置信的能力——例如,聊天机器人可以写出类似于莎士比亚十四行诗的诗歌,或者调试计算机程序的代码。这些能力是由ChatGPT所构建的大型机器学习模型实现的。研究人员发现,当这些类型的模型变得足够大时,就会出现非凡的能力。

但是,更大的模型也需要更多的时间和金钱来进行训练。训练过程涉及向模型展示数千亿个示例。收集这么多数据本身就是一个复杂的过程。然后是运行许多强大的计算机数天或数周来训练可能具有数十亿个参数的模型所产生的货币和环境成本。

“估计训练ChatGPT假设运行所需的模型规模可能需要数百万美元,仅用于单次训练。我们能否通过利用已经训练过的较小语言模型来提高这些训练方法的效率,以便我们可以在更短的时间内和更少的资金中获得良好的模型?” MIT电气工程和计算机科学系助理教授、计算机科学和人工智能实验室(CSAIL)成员Yoon Kim说。

Kim和他的合作者不是舍弃以前的模型,而是将其用作构建新模型的基石。使用机器学习,他们的方法学习从较小模型中“增长”更大模型的方式,以编码较小模型已经获得的知识。这使得更大模型的训练速度更快。

与从头开始训练新模型的方法相比,他们的技术可以节省约50%的计算成本。此外,使用MIT方法训练的模型表现与使用其他技术训练的模型表现一样好,甚至更好,这些技术也使用较小的模型以实现更快速地训练更大的模型。

缩短训练庞大模型所需的时间可以帮助研究人员以更少的费用更快地取得进展,同时还可以减少训练过程中产生的碳排放量。这还可以使较小的研究团队能够使用这些庞大的模型,可能为许多新进展打开大门。

“随着我们试图使这些技术民主化,使训练更快、更便宜变得更加重要,”Kim说,他是这种技术的论文的高级作者。

Kim和他的研究生Lucas Torroba Hennigen与第一作者Peihao Wang,一位来自德克萨斯大学奥斯汀分校的研究生以及MIT-IBM沃森人工智能实验室和哥伦比亚大学的其他研究人员撰写了这篇论文。这项研究将在国际学习表示会议上展示。

越大越好

GPT-3等大型语言模型是使用称为变压器的神经网络架构构建的,该架构是基于人类大脑的松散组成的互连节点或“神经元”的层。每个神经元包含参数,这些参数是在训练过程中学习的变量,神经元用这些参数来处理数据。

变压器架构是独特的,因为随着这些类型的神经网络模型变得更大,它们获得的结果要好得多。

“这导致了公司试图在越来越大的数据集上训练越来越大的变压器的一场竞赛。与其他架构相比,变压器网络似乎随着规模的扩大而变得更好。我们只是不确定这是为什么,”Kim说。

这些模型通常具有数亿或数十亿个可学习参数。从头开始训练所有这些参数是昂贵的,因此研究人员寻求加速这个过程。

一种有效的技术称为模型增长。使用模型增长方法,研究人员可以通过复制神经元或甚至整个网络的前一个版本,然后将它们堆叠在顶部来增加变压器的大小。他们可以通过向图层添加新神经元使网络变宽,或通过添加更多的神经元图层使其变深。

与以前的模型增长方法相比,扩展变压器中新神经元相关的参数并不仅仅是较小网络参数的副本,Kim解释道。相反,它们是学习自较小模型参数的组合。

学习成长

Kim和他的合作者使用机器学习来学习较小模型的参数的线性映射。这个线性映射是一种数学操作,它将一组输入值(在本例中是较小模型的参数)转换为一组输出值(在本例中是更大模型的参数)。

他们的方法被称作学习线性增长算子(LiGO),可以通过数据驱动的方式从较小网络的参数中学习,扩展较大网络的宽度和深度。

但是,较小的模型实际上可能非常大,例如可能有一亿个参数,而研究人员可能想要创建一个十亿个参数的模型。因此,LiGO技术将线性映射分解成较小的部分,以便机器学习算法处理。

LiGO还可以同时扩展宽度和深度,这使其比其他方法更加高效。当用户输入较小的模型及其参数时,可以调整较大模型的宽度和深度。Kim解释说。

当他们将他们的技术与从头开始训练新模型的过程以及模型增长方法进行比较时,它比所有基准线都要快。他们的方法节省了大约50%的计算成本,可以训练视觉和语言模型,同时通常会提高性能。

研究人员还发现,即使没有较小的预训练模型,也可以使用LiGO来加速变压器训练。

Kim说:“我对所有方法,包括我们的方法,与从头开始的基线相比有多么好感到惊讶。”

将来,Kim和他的合作者期待将LiGO应用于更大的模型。

这项工作在一定程度上得到了MIT-IBM Watson AI实验室,亚马逊,IBM Research AI硬件中心,Rensselaer Polytechnic Institute计算创新中心和美国陆军研究办公室的资助。

Leave a Reply

Your email address will not be published. Required fields are marked *