Press "Enter" to skip to content

如果您只使用适量的未标记图像来训练一个线性层,您能否将您的仅视觉模型转换为VLM?通过跨模型对齐,我们介绍文本到概念(和反向)的方法

如果您只使用适量的未标记图像来训练一个线性层,您能否将您的仅视觉模型转换为VLM?通过跨模型对齐,我们介绍文本到概念(和反向)的方法 四海 第1张如果您只使用适量的未标记图像来训练一个线性层,您能否将您的仅视觉模型转换为VLM?通过跨模型对齐,我们介绍文本到概念(和反向)的方法 四海 第2张

深度视觉模型使用的表示空间中充满了语义结构。然而,由于涉及的统计数据量巨大,人类很难理解这些深度特征空间。与深度模型不同,人类已经发展了语言,用来简洁地表示周围的世界,将概念编码为高维空间中的向量。

马里兰大学和Meta AI提出了一种方法,使用无需文本监督训练的现成视觉编码器将文本映射到概念向量,以便直接比较单词和图像的表示。该方法调整了视觉模型的表示空间,使其与CLIP模型的表示空间一致。CLIP表示空间旨在同时训练视觉和文本编码器。因此,文本到概念的文本编码器已经包含在CLIP模型中。

该方法学习了表示空间之间的映射,以利用商用可用模型的这种能力。更确切地说,研究人员通过最大化一个函数来推断出图像在现成视觉模型中的表示的CLIP表示。在将预包装模型的表示映射到CLIP之后,对于目标文本的概念向量,对齐的特征将存在于同一空间中。然而,映射函数可能会严重改变输入的语义。为了避免这种情况,他们确保映射的假设空间只存在仿射变换。尽管看起来缺乏复杂性,但研究团队发现线性层在实现不同体系结构和训练方法的模型之间的特征空间对齐方面意外地有用。

使用商用可用的文本到概念零射击分类器为该方法提供了强有力的支持。与CLIP模型相比,这些模型在许多任务上表现出惊人的零射击准确性,尽管它们体积更大,使用更多样本进行更丰富的监督,并且最重要的是,明确地专门与文本编码器对齐。

文本到概念的可解释性好处不仅限于免费的零射击学习,还包括将视觉编码器转换为无需概念监督的概念瓶颈模型(CBMs)。例如,研究团队将这种方法应用于RIVAL10数据集,该数据集包含属性标签,以确保零射击概念预测的准确性。通过提出的零射击方法,他们能够以很高的准确度(93.8%)预测RIVAL10的属性,从而获得了具有预期可解释性好处的CBM。

他们的论文还通过分析一组文本到概念向量和数据的对齐表示之间的相似性,展示了文本到概念可以以人类术语解释庞大数据集的分布。通过比较对易理解概念的变化来诊断分布偏移。基于概念的图片检索是另一种文本到概念的方法,它方便与庞大数据集进行交互。研究人员使用概念逻辑来查询满足一组概念相似度阈值的图像表示,使人类能够更多地影响搜索中每个概念的相对权重,并在庞大语料库中定位特定照片时得到可接受的结果。

最后,团队还引入了概念到文本,以直接解码模型表示空间中的向量,完成人机通信循环。他们使用现有的CLIP空间解码器和嵌入来指导GPT-2的输出,在将模型空间与CLIP对齐后。然后,他们利用人类研究来检查解码的标题是否准确解释了与每个向量相关联的类别。研究结果显示,在92%的测试中,他们的简单方法都是成功的。

Leave a Reply

Your email address will not be published. Required fields are marked *