Press "Enter" to skip to content

Google AI 提出了 PaLI-3:一个更小、更快、更强大的视觉语言模型(VLM),与大小为其10倍的类似模型相比,具有更好的性能

视觉语言模型(VLM)是一种先进的人工智能系统,将自然语言理解与图像识别能力相结合。与OpenAI的CLIP和Google的BigGAN一样,VLM能够理解文本描述并解释图像,实现在计算机视觉、内容生成和人机交互等领域的各种应用。它们在理解和生成与视觉内容相关的文本方面展示出了令人印象深刻的能力,使其成为人工智能领域的关键技术。

来自Google Research、Google DeepMind和Google Cloud的研究人员对使用分类和对比目标预训练的视觉变换器(ViT)模型进行了对比,对比预训练模型,特别是基于SigLIP的PaLI,在多模态任务中表现出色,尤其是在定位和文本理解方面。研究人员将SigLIP图像编码器扩展到20亿个参数,实现了新的多语言跨模态检索技术的最新水平。他们的研究主张将视觉编码器的预训练应用于网络规模的图像-文本数据,而不是分类样式的数据。他们的方法揭示了通过PaLI-X在大型视觉语言模型中扩展分类预训练图像编码器的好处。

他们的研究深入探讨了缩放VLM的同时强调了小规模模型在实际应用和高效研究中的重要性。他们介绍了PaLI-3,一个具有50亿个参数并具有竞争力的VLM。PaLI-3的训练过程包括对图像编码器在网络规模数据上进行对比预训练、改进的数据集混合和更高分辨率的训练。他们还介绍了一个包含20亿参数的多语言对比视觉模型。消融研究证实了对比式预训练模型的优越性,尤其是与定位和视觉环境的文本理解相关的任务。

他们的方法采用预训练的ViT模型作为图像编码器,具体是ViT-G14,使用SigLIP的训练方法。ViT-G14具有大约20亿个参数,作为PaLI-3的视觉骨干。对比式预训练包括分别嵌入图像和文本,并对它们的对应关系进行分类。来自ViT输出的视觉记号被投影并与文本记号相结合。然后,这些输入由一个30亿个参数的UL2编码器-解码器语言模型进行处理,用于文本生成,通常由特定任务提示(如VQA问题)驱动。

与较大的模型相比,PaLI-3在定位和视觉环境的文本理解方面表现出色。基于SigLIP的PaLI模型,在对比图像编码器预训练的基础上,建立了一个新的多语言跨模态检索技术的最新水平。完整的PaLI-3模型在指代表达分割方面胜过现有技术,并在检测任务的子组中保持了低错误率。对比式预训练在定位任务中表现更加有效。PaLI-3的ViT-G图像编码器在多个分类和跨模态检索任务中表现出色。

总之,他们的研究强调了对比式预训练的好处,以SigLIP方法为例,以增强和提高VLM的效率。较小的50亿参数的基于SigLIP的PaLI-3模型在定位和文本理解方面表现出色,胜过了多样化多模态基准测试中的较大模型。在PaLI-3中,对图像编码器进行对比式预训练还实现了新的多语言跨模态检索技术的最新水平。他们的研究强调了对VLM训练的各个方面进行全面调查的必要性,超出图像编码器预训练,以进一步提高模型性能。

Leave a Reply

Your email address will not be published. Required fields are marked *