Press "Enter" to skip to content

MIT研究人员使语言模型可扩展的自学习者

科学家们使用基于自然语言的逻辑推理数据集来创建更小的语言模型,其表现优于比它们大得多的模型

Image: Alex Shipps/MIT CSAIL via Midjourney

苏格拉底曾经说过:“事物的大小并不重要,真正重要的是质量。因为真正的价值在物质的本质中,而不是它的容量中。”

对于大型语言模型(LLMs),大小是否总是很重要呢?在一个由LLMs占据主导地位的技术领域中,麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员认为,尤其是对于广泛部署在行业中的自然语言理解产品,不应忽视更小的模型。

为此,研究人员提出了一种解决与大型基于文本的AI模型相关的效率和隐私问题的方法——逻辑感知模型。这种模型在一些语言理解任务上的表现比500倍更大的对手要好,而且不需要人工生成的注释,同时保持着高性能的隐私和稳健性。

LLMs在生成语言、艺术和代码方面显示出了一些有前途的技能,但它们的计算成本很高,其数据需求可能会在使用应用程序编程接口进行数据上传时导致隐私泄漏。相比之下,较小的模型在多任务和弱监督任务方面一直表现较差,尤其是与它们的大型对手相比。

那么,是什么让这些较小的模型变得如此强大呢?一个叫做“文本蕴含”的东西,可以帮助这些模型理解各种语言任务。如果一个句子(前提)是真实的,那么另一个句子(假设)也很可能是真实的。例如,如果前提是“所有猫都有尾巴”,那么假设“虎斑猫有尾巴”就是由前提推出的。这个概念被用于训练“蕴含模型”,该模型证明比团队先前的其他语言模型更少有偏见。然后,他们创建了“提示”,这些提示可以帮助模型根据不同的任务确定某些信息是否由给定的句子或短语所包含。这种方法提高了模型在没有任何额外的训练的情况下适应不同任务的能力,称为零-shot适应。

在“自然语言理解”的领域中,有各种应用涉及确定两个文本之间的关系。例如,在情感分类中,像“我认为这部电影很好”这样的陈述可以从一篇电影评论中推断或包含,该评论说“我喜欢这个故事,演技也很棒”,表明有积极情感。另一个是新闻分类,其中一篇新闻文章的主题可以从其内容中推断出来。例如,如果文章的主要内容报道NBA比赛,则可以推断出“新闻文章是关于体育的”。关键的洞察力是,许多现有的自然语言理解任务可以重新构建为蕴含(即自然语言中的逻辑推理)任务。

“我们的研究是关于提高计算机程序理解和处理自然语言的能力——人类说话和写作的方式。我们的自我训练的3.5亿参数蕴含模型,不需要人工生成的标签,就能表现出比拥有137-1750亿参数的监督语言模型更好的性能,”麻省理工学院CSAIL博士后罗宏音说,他是这项研究的主要作者。“这具有重塑AI和机器学习领域的潜力,为语言建模提供更具可扩展性、可信赖性和经济效益的解决方案。”罗说。 “通过证明较小的模型在语言理解方面可以与较大的模型表现相同,这项工作为更可持续和隐私保护的AI技术铺平了道路。”

研究人员发现,他们可以通过使用一种称为“自我训练”的技术来进一步提高模型的性能,其中模型使用自己的预测来自我教育,有效地学习而不需要人类监督和额外的注释训练数据。自我训练方法显著提高了下游任务的性能,包括情感分析、问答和新闻分类。它的零-shot能力优于Google的LaMDA和FLAN,GPT模型以及其他受监督的算法。

然而,自我训练的一个挑战是模型有时会生成错误或嘈杂的标签,从而影响性能。为了克服这个问题,他们开发了一种名为“SimPLE”(Simple Pseudo-Label Editing)的新算法,一个过程来检查和修改初步学习中生成的伪标签。通过纠正任何错误标记的实例,它提高了自动生成标签的整体质量。这不仅使模型更有效地理解语言,而且在面对对抗数据时更具鲁棒性。

像大多数研究一样,也存在一些限制。多类分类任务的自我训练表现不如二元自然语言理解任务,这表明将蕴含模型应用于多项选择任务的挑战。

“这项研究提出了一种有效的方法,通过将自然语言理解任务作为上下文蕴含问题来训练大型语言模型(LLMs),并采用伪标签的自我训练机制在训练过程中融入大量未标记的文本数据,”CSAIL高级研究科学家詹姆斯·格拉斯说,他也是这篇论文的作者之一。“虽然LLMs领域正在发生快速而戏剧性的变化,但这项研究表明,可以产生相对紧凑的语言模型,在与同等大小的同行或甚至更大的语言模型相比较的基准理解任务上表现得非常好。”

“蕴含任务是评估人工智能模型对于给定上下文“理解”程度的常用代理,”MIT-IBM Watson AI实验室的研究员Leonid Karlinsky说道。“它在许多领域中被用于分析具有单模式(如LLMs)和多模式(如VLMs [视觉语言模型])输入的模型,将有关给定输入上下文的问答任务简化为二元分类问题——这个上下文是否包含某个(例如文本)结论?本文在这一领域提出了两个贡献。首先,它提出了一种通过调整为原始NLU任务生成的合成(专门)蕴含任务来提高零调整(不需要额外调整)NLU性能和对抗攻击的鲁棒性的方法。其次,它提供了一种自监督的SimPLE方法,包括伪标记和基于置信度的过滤,以进一步提高大型LLMs的NLU性能。”

Luo和Glass与MIT电气工程和计算机科学系的助理教授、CSAIL成员Yoon Kim以及北京大学的Jiaxin Ge共同撰写了这篇论文。他们的研究将于今年7月在加拿大安大略省多伦多举行的计算语言学协会会议上展示。本研究得到了香港创新人工智能计划的资助。

Leave a Reply

Your email address will not be published. Required fields are marked *