Press "Enter" to skip to content

Tag: Multimodal AI

谷歌DeepMind的这篇AI论文研究了预训练数据构成和预训练转换器中上下文学习之间的差距

Google DeepMind的研究人员探索了基于大型语言模型,特别是Transformer,在上下文学习(ICL)能力方面的表现,训练数据包括各种任务。然而,他们的研究需要在领域外的任务上进行工作,揭示了除了预训练分布之外的功能泛化的限制性。研究结果表明,高容量序列模型出色的ICL能力更多地依赖于预训练数据的覆盖范围,而不是对基本泛化的内在归纳偏差。 本研究考察了Transformer模型利用ICL进行少样本学习的能力,重点关注了预训练数据对模型性能的影响。研究表明,当预训练数据充分覆盖任务类型时,Transformer在无监督的模型选择方面表现良好。然而,在处理领域外任务时,它们面临着限制和泛化能力降低的问题。研究发现,模型在混合功能类上训练与仅训练一个类别的模型几乎一样好。研究还包括ICL学习曲线,展示了模型在各种预训练数据组合下的性能。 本研究深入探讨了Transformer模型的ICL能力,强调了它们在预训练分布内外学习任务的能力。Transformer模型展示了出色的少样本学习能力,在处理高维和非线性函数方面表现出色。研究关注预训练数据如何影响这些功能,并在受控环境中评估数据来源构建的影响。研究评估了模型在预训练中见过的函数类别之间的选择能力,并调查了领域外泛化。性能评估包括在训练过程中未见过的任务以及预训练过程中见过函数的极端变化。 在一项受控研究中,研究利用了(x,f(x))对训练的Transformer模型,而不是自然语言,以研究预训练数据对少样本学习的影响。通过比较不同预训练数据组合的模型,研究评估了它们在不同评估函数下的性能。通过分析函数类别之间的模型选择和探索领域外泛化,研究包括ICL曲线,展示了各种预训练数据组合的均方误差。对预训练分布内外的任务进行评估揭示了失败模式和泛化能力降低的经验证据。 Transformer模型在预训练数据中具有接近最佳的无监督选择能力,特别是在自然语言设置中。然而,当面临预训练数据之外的任务时,它们会表现出各种失败模式和泛化能力降低。通过比较不同预训练数据组合的模型,研究发现,训练在多样数据混合上的模型几乎与只在一个功能类上进行预训练的模型一样好。本研究介绍了归一化的均方差指标,通过稀疏模型和密集模型之间的差异来强调预训练数据覆盖的重要性,而不是基本归纳偏差。 总之,预训练数据的组成在Transformer模型的准确模型选择中起着关键作用,特别是在自然语言环境中。虽然这些模型可以在没有显式训练的情况下学习新任务,但对于超出预训练数据范围的任务,它们可能需要帮助,导致各种失败模式和泛化能力降低。因此,了解和启用ICL对于提高这些模型的整体效果至关重要。

Leave a Comment