Press "Enter" to skip to content

斯坦福大学和康奈尔大学的研究人员推出了Tart:一种创新的即插即用Transformer模块,以任务无关的方式增强人工智能推理能力

斯坦福大学和康奈尔大学的研究人员推出了Tart:一种创新的即插即用Transformer模块,以任务无关的方式增强人工智能推理能力 机器学习 第1张斯坦福大学和康奈尔大学的研究人员推出了Tart:一种创新的即插即用Transformer模块,以任务无关的方式增强人工智能推理能力 机器学习 第2张

大型语言模型在不改变模型参数的情况下具有上下文学习技能,可以只给出少量实例就完成工作。由于具有任务不可知性,因此一个模型可以用于各种任务。相反,传统的任务适应技术,包括微调,会为每个任务修改模型参数。尽管如此,上下文学习很少是从业者的选择方法,因为它通常表现不如任务特定的适应技术。以前的大多数研究都将这种性能差异归咎于LLM的受限上下文窗口,该窗口只能容纳少量的任务案例。

然而,他们证明即使在给定相同任务示例的情况下,上下文学习和微调技术之间的差距仍然存在。这一发现引起了他们的关注:任务不可知适应策略的性能差异是一般性质限制还是只对上下文学习具有唯一性。他们能否特别创建符合以下要求的适应策略:

• 任务不可知:同一模型适用于各种活动。

• 质量:在这些多个任务中,实现与任务特定方法竞争的准确性。

• 数据可扩展性:随着任务实例数量的增加,学习效率增加。他们首先研究质量差距的原因。

他们将LLM的上下文学习能力分为两个组成部分:有效任务表示的获取和这些表示上的概率推理或推理执行。差距是由表示中的信息缺失还是由LLM无法分析它们造成的?通过在多个二元分类任务中评估LLM家族的推理和表示差距,他们在经验上测试了这个概念。他们得出结论,LLM具有良好的表示形式,并且大部分质量差异是由他们的推理能力较弱造成的。

他们还发现微调在两个方面都可以增强基本模型,但主要是增强任务特定推理,占性能提升的72%。令人惊讶的是,大多数缩小性能差距的方法,例如提示工程和活动示例选择,只针对LLM的学习表示形式。相反,他们的研究探讨了一种增强LLM推理能力的替代策略。他们使用人工创建的概率推理挑战来改善LLM的推理能力。虽然这种方法提高了模型的基线上下文学习性能,但它也需要单独微调每个LLM。

他们更进一步,推测以一种与任务和模型无关的方式发展推理能力的前景。他们证明了可以采取完全不可知的方法来增强推理能力。在这项研究中,来自斯坦福大学和康奈尔大学的研究人员提出了Tart,它使用合成教授的推理模块来提高LLM的推理能力。Tart只使用合成的逻辑回归问题进行训练,而不管下游任务或基本LLM,以训练基于Transformer的推理模块。不需要进一步的训练,这个推理模块可以使用LLM的嵌入来构建,以增强其演绎能力。

特别是,Tart实现了必要的目标:

• 任务中立:Tart的推理模块必须使用虚构数据进行一次训练。

• 质量:在各种NLP任务中,表现比基本LLM好,使用任务特定的微调技术缩小了差距。

• 数据可扩展性:处理比上下文学习多10倍的实例。

Tart与任务、模型和领域无关。他们证明,Tart在14个NLP分类任务上跨越三个模型系列,并在不同的领域中泛化,使用单个用合成数据训练的推理模块。他们证明,Tart的性能在质量方面优于上下文学习18.4%,任务特定适配器3.4%和完全任务特定微调3.1%。在RAFT基准测试中,Tart将GPT-Neo的性能提高到与GPT-3和Bloom相同的水平,同时超过后者4%。 Tart解决了上下文学习的不便的短期限制,并且具有数据可扩展性。在LLM中,每个示例可能占用多个标记,通常是数百个,而Tart的推理模块仅使用每个案例的两个标记 – 一个用于上下文,一个用于标签。这种数据可扩展性可能带来的好处可达6.8%。从理论上讲,他们证明了Tart的泛化能力主要取决于合成数据分布和自然文本嵌入分布之间的分布偏移,由Wasserstein-1指标评估。

以下是他们的主要贡献概述:

• 使用表示推理分解,研究为什么针对特定任务的微调在访问相同信息的情况下优于上下文学习。

• 提出 Tart,一种新颖的任务无关方法,优于针对特定任务的方法,并且不需要真实数据进行训练。

• 证明 Tart 对于各种 NLP 任务的模型家族都是有效的。同样的推理模块也适用于语音和视觉领域。

Leave a Reply

Your email address will not be published. Required fields are marked *