介绍 使用预训练的ViT模型进行图像描述可以看作是一种文本或书面描述,位于图像下方,旨在提供对图像细节的描述。它是将图像转换为文本描述的任务。通过连接视觉(图像)和语言(文本)来完成。在本文中,我们使用PyTorch后端,使用视觉变换器(ViT)作为主要技术,在图像中实现了这一目标。目标是展示一种使用转换器,特别是ViTs,利用经过训练的模型生成图像标题的方法,而无需从头开始重新训练。 来源:Springer 随着社交媒体平台和在线图片使用的当前趋势,掌握这种技能的好处很多,可以出于多种原因进行描述、引用、帮助视力受损者,甚至是搜索引擎优化。这使得学习这种技术对涉及图像的项目非常有用。 学习目标 图像描述的概念 使用ViTs进行图像捕捉 使用预训练模型进行图像描述 使用Python利用转换器 您可以在此GitHub仓库中找到使用的全部代码。 本文是数据科学博客马拉松的一部分。 什么是Transformer模型? 在我们研究ViT之前,让我们先了解一下Transformer。自从Google Brain于2017年引入transformers以来,它引起了人们对其在NLP方面的能力的兴趣。Transformer是一种深度学习模型,其特点是采用自我关注,不同地加权输入数据的每个部分的重要性。并且主要用于自然语言处理(NLP)领域。 Transformer处理序列输入数据,例如自然语言,但transformer一次处理整个输入。借助注意机制,任何输入序列的位置都有上下文。这种效率允许更多的并行化,减少训练时间,同时提高效率。 Transformer体系结构 现在让我们看一下transformers的体系结构组成。Transformer体系结构主要由编码器-解码器结构组成。Transformer体系结构的编码器-解码器结构在一篇著名的论文中被提出,标题为“Attention Is All You Need”。 编码器由层组成,负责逐层处理输入,而解码器层接收编码器输出并生成解码输出。简单地说,编码器将输入序列映射到序列,然后将其馈送到解码器。解码器然后生成一个输出序列。 什么是Vision Transformers? 由于本文展示了ViTs在图像描述中的实际用途,因此也有必要了解ViTs的工作原理。Vision…
Leave a Comment