pertained ViT Models

介绍使用预训练的ViT模型进行图像描述可以看作是一种文本或书面描述，位于图像下方，旨在提供对图像细节的描述。它是将图像转换为文本描述的任务。通过连接视觉（图像）和语言（文本）来完成。在本文中，我们使用PyTorch后端，使用视觉变换器（ViT）作为主要技术，在图像中实现了这一目标。目标是展示一种使用转换器，特别是ViTs，利用经过训练的模型生成图像标题的方法，而无需从头开始重新训练。来源：Springer 随着社交媒体平台和在线图片使用的当前趋势，掌握这种技能的好处很多，可以出于多种原因进行描述、引用、帮助视力受损者，甚至是搜索引擎优化。这使得学习这种技术对涉及图像的项目非常有用。学习目标图像描述的概念使用ViTs进行图像捕捉使用预训练模型进行图像描述使用Python利用转换器您可以在此GitHub仓库中找到使用的全部代码。本文是数据科学博客马拉松的一部分。什么是Transformer模型？在我们研究ViT之前，让我们先了解一下Transformer。自从Google Brain于2017年引入transformers以来，它引起了人们对其在NLP方面的能力的兴趣。Transformer是一种深度学习模型，其特点是采用自我关注，不同地加权输入数据的每个部分的重要性。并且主要用于自然语言处理（NLP）领域。 Transformer处理序列输入数据，例如自然语言，但transformer一次处理整个输入。借助注意机制，任何输入序列的位置都有上下文。这种效率允许更多的并行化，减少训练时间，同时提高效率。 Transformer体系结构现在让我们看一下transformers的体系结构组成。Transformer体系结构主要由编码器-解码器结构组成。Transformer体系结构的编码器-解码器结构在一篇著名的论文中被提出，标题为“Attention Is All You Need”。编码器由层组成，负责逐层处理输入，而解码器层接收编码器输出并生成解码输出。简单地说，编码器将输入序列映射到序列，然后将其馈送到解码器。解码器然后生成一个输出序列。什么是Vision Transformers？由于本文展示了ViTs在图像描述中的实际用途，因此也有必要了解ViTs的工作原理。Vision…

Tag: pertained ViT Models

使用预训练的ViT模型在图像字幕中使用Vision Transformers（ViT）