Press "Enter" to skip to content

中国的一项新的人工智能研究提出了SHIP:一种即插即用的生成式人工智能方法,用于改进现有的微调方法

中国的一项新的人工智能研究提出了SHIP:一种即插即用的生成式人工智能方法,用于改进现有的微调方法 四海 第1张中国的一项新的人工智能研究提出了SHIP:一种即插即用的生成式人工智能方法,用于改进现有的微调方法 四海 第2张

本文介绍了一种名为合成提示(SHIP)的新方法,用于改进现有的微调方法。

微调:在预训练之后,模型会在一个较小的、特定任务的数据集上进行微调。这涉及到在新数据上继续训练过程,通常使用较小的学习率。其思想是调整模型从预训练中获得的泛化知识,使其更适用于特定任务。

研究人员要解决的问题是某些类别缺乏数据的情况。他们的目标是训练一个生成模型,可以通过提供类别名称合成特征,从而能够为没有数据的类别生成特征。

中国的一项新的人工智能研究提出了SHIP:一种即插即用的生成式人工智能方法,用于改进现有的微调方法 四海 第3张

为没有数据的类别生成特征是指为训练数据集中不存在的类别或类别合成表示的过程。这在收集某些类别的真实数据可能具有挑战性或不可能的情况下特别有用。

研究人员随后使用现成的方法对CLIP进行了原始标记和新合成特征的微调。然而,一个重要障碍是生成模型通常需要大量数据进行训练,这与他们的数据效率目标相矛盾。他们提出利用变分自编码器(VAE)作为框架,相比于需要对抗训练的模型,在低数据场景中更易于训练且更有效。

尽管GAN和VAE都是能够创建新数据样本的生成模型,但它们在架构、目标和训练方法上存在显著差异。GAN以生成高质量、逼真样本而闻名,但训练难度较大。而VAE提供了一个概率框架,在有限数据的情况下更易于处理,但可能不如GAN产生锐利或逼真的样本。

CLIP(对比式语言-图像预训练)是OpenAI开发的一种模型,可以从文本描述中学习理解和生成图像,反之亦然。它已经在大规模数据集上进行了预训练,并具有对齐的视觉和语言表示。预训练的语言编码器有助于生成更逼真的特征。本文旨在通过利用合成数据来增强CLIP微调方法的性能。研究人员在基于新的泛化、跨数据集迁移学习和广义零样本学习的综合实验中进行了全面的实验,取得了最先进的性能。

所提出的模型架构利用VAE框架对特征进行编码和生成,与CLIP集成以提取图像特征并重构它们。在训练过程中,模型学习将特征编码为潜在空间,然后重构它们。在生成阶段,它使用这个学到的编码为新类别合成特征,允许在某些类别没有数据的情况下对CLIP进行微调。基于CLIP的新颖生成器由轻量级MLP和冻结的CLIP文本编码器组成,在转换潜在代码和构建最终提示符进行特征重构方面起到关键作用。

研究人员观察的实验结果:

基于新的泛化:实验在11个不同的图像分类数据集上进行,包括ImageNet、Caltech101、OxfordPets、StanfordCars、Flowers102、Food101、FGVCAircraft、SUN397、DTD、EuroSAT和UCF101。数据集被分为基类和新类,每个基类以16个样本进行训练。评估同时针对基类和新类进行。

广义零样本设置:本文还在更现实的广义零样本设置下评估了基于新的泛化,其中基类和新类的数据混合在测试数据集中。结果表明,以前的方法在新类别中的性能显著下降,但提出的SHIP方法在新类别中的性能继续提高。

与其他方法的比较:结果与其他方法进行了比较,包括CLIP、CoOp、CLIP-Adapter和Tip-Adapter。提出的SHIP方法在各个数据集中的新类别中表现出了改进的性能。

结论:

本文提出了一种新颖的SyntHesIzed Prompts (SHIP)方法,旨在改进现有的微调方法,特别是在某些类别没有数据的情况下。该方法通过为没有数据的类别合成特征,并使用原始标记和新合成特征对CLIP进行微调,实现了各种任务的最先进性能。本文指出了额外的训练成本作为一种限制,并表达了在未来研究中探索SHIP在密集预测任务中的适用性的意愿。

总体而言,本文通过解决某些类别数据稀缺的挑战,并利用合成数据提高CLIP微调方法的性能,在该领域提出了重要贡献。

Leave a Reply

Your email address will not be published. Required fields are marked *