13 search results for "Ding et al. 2021"

介绍本文将介绍一种计算机视觉技术——图像语义分割。虽然听起来很复杂，但我们会一步一步解析它，并介绍一种使用密集预测变换器（DPTs）实现的图像语义分割概念，这是从Hugging Face的集合中选择的。使用DPTs引入了一个具有非同寻常能力的新阶段。学习目标 DPTs相对于传统对远程连接的理解的比较。使用Python实现使用DPT进行深度预测的语义分割。探索DPT设计，理解它们独特的特点。本文是数据科学博文马拉松的一部分。什么是图像语义分割？想象一下，你有一张图像，并希望根据图像中每个像素的表示对其进行标注。这就是图像语义分割的概念。它可以用于计算机视觉，区分汽车和树木，或者分离图像的不同部分；这一切都是为了智能地标记像素。然而，真正的挑战在于理解对象之间的上下文和关系。让我们将其与处理图像的旧方法进行比较。卷积神经网络（CNNs）第一个突破是使用卷积神经网络来处理涉及图像的任务。然而，CNNs有一些限制，尤其是在捕捉图像中的长距离连接方面。想象一下，如果你试图理解图像中不同元素在长距离上是如何相互作用的，传统的CNNs会遇到困难。这就是我们赞美DPT的地方。这些模型基于强大的变换器架构，具备捕捉关联的能力。我们将在接下来看到DPTs。什么是密集预测变换器（DPTs）？要理解这个概念，想象一下将我们之前在NLP任务中使用的变换器的强大能力与图像分析相结合。这就是密集预测变换器背后的概念。它们就像图像世界中的超级侦探一样。它们不仅能够标记图像中的每个像素，还可以预测每个像素的深度——这在某种程度上提供了有关每个对象与图像之间的距离的信息。我们将在下面看到这一点。 DPT架构工具箱 DPTs有不同类型，每种类型都有其“编码器”和“解码器”层。让我们在这里看一下两种流行的类型： DPT-Swin-Transformer：将其想象为具有10个编码器层和5个解码器层的超级变换器。它擅长理解图像中不同级别的元素之间的关系。 DPT-ResNet：这个类型就像是一个聪明的侦探，具有18个编码器层和5个解码器层。它善于发现远距离对象之间的联系，同时保持图像的空间结构完整性。关键特点以下是关于DPTs如何使用一些关键特点的更详细说明：分层特征提取：就像传统的卷积神经网络（CNNs）一样，DPTs从输入图像中提取特征。然而，它们采用一种分层的方法，将图像分为不同层次的细节。正是这种层次结构有助于捕捉局部和全局上下文，使模型能够理解不同尺度上对象之间的关系。自注意机制：这是DPTs的核心，受原始变换器架构启发，使模型能够捕捉图像内的长程依赖关系，并学习像素之间的复杂关系。每个像素都考虑来自所有其他像素的信息，使模型对图像有整体的理解。使用DPTs进行图像语义分割的Python演示我们将在下面看到DPTs的实现。首先，让我们通过安装Colab上未预安装的库来设置环境。您可以在这里或https://github.com/inuwamobarak/semantic-segmentation找到此代码。首先，我们安装并设置环境。…

Leave a Comment

生物医学数字孪生

Published September 25, 2023 by 四海吧

考虑到在多个尺度上模拟生物现象和系统的转化可能性

Leave a Comment

使用Transformer检测图像中的表格行和列

Published September 5, 2023 by 四海吧

介绍您是否曾经处理过非结构化数据，并考虑过一种方式来检测文档中表格的存在？以帮助您快速处理您的文档？在本文中，我们将不仅了解如何检测表格的存在，还将通过使用Transformer模型来识别这些表格的结构。这将由两个不同的模型实现。一个用于文档中的表格检测，另一个用于结构识别，可以识别表格中的行和列。学习目标如何在图像中检测表格的行和列？ Table Transformers和Detection Transformer（DETR）的介绍 PubTables-1M数据集概述如何使用Table Transformer进行推理文档、文章和PDF文件是有价值的信息来源，通常包含传递关键数据的表格。从这些表格中高效提取信息可能会面临不同格式和表示之间的挑战。手动复制或重新创建这些表格可能耗时且繁琐。在PubTables-1M数据集上训练的Table Transformers解决了表格检测、结构识别和功能分析的问题。本文是Data Science Blogathon的一部分。如何实现的？这是通过一种名为Table Transformer的Transformer模型实现的。它使用了一个名为PubTables-1M的大型注释数据集，可以检测文章中的文档或图像。该数据集包含约一百万个参数，并采用了一些措施来给模型带来最新的感觉。通过解决不完美注释、空间对齐问题和表格结构一致性等挑战，实现了高效性。与该模型一起发布的研究论文利用了Detection Transformer（DETR）模型，用于联合建模表格结构识别（TSR）和功能分析（FA）。因此，DETR模型是Table Transformer运行的骨干，由微软研究开发。让我们更详细地了解一下DETR。 DEtection TRansformer（DETR）如前所述，DETR是DEtection TRansformer的缩写，包括使用编码器-解码器Transformer的卷积骨干，例如ResNet架构。这使得它有潜力进行目标检测任务。DETR提供了一种不需要复杂模型（如Faster R-CNN和Mask…

Leave a Comment

“不那么庞大的语言模型：好的数据推翻巨人”

Published September 1, 2023 by 四海吧

在本文中，我们将看到语言模型（LM）如何专注于更好的数据和训练策略，而不仅仅是通过庞大的规模来实现类似LLM的结果（有时甚至更好），以及人们如何…

Leave a Comment

Swin Transformers | 现代计算机视觉任务

Published August 26, 2023 by 四海吧

介绍 Swin Transformer 是视觉 Transformer 领域的一项重大创新。Transformer 在各种任务中展示了出色的性能。在这些 Transformer 中，Swin Transformer 作为计算机视觉的骨干，提供了无与伦比的灵活性和可扩展性，以满足现代深度学习模型的需求。现在是时候发掘这个 Transformer 的全部潜力，见证其令人印象深刻的能力。学习目标本文旨在介绍 Swin Transformer，这是一类强大的分层视觉 Transformer。通过阅读本文，您应该了解以下内容： Swin Transformer 的关键特性它们在计算机视觉模型中作为骨干的应用 Swin Transformer 在图像分类、物体检测和实例分割等各种计算机视觉任务中的优势。…

Leave a Comment

监控大型语言模型行为的7种方法

Published July 28, 2023 by 四海吧

自然语言处理领域在使用大型语言模型（LLM）方面取得了快速发展通过其令人印象深刻的文本生成和文本理解能力，LLM能够…

Leave a Comment

在CPU上扩展BERT推理（第一部分）

Published July 17, 2023 by 四海吧

.centered { display: block; margin: 0 auto; } figure { text-align: center; display: table; max-width: 85%; /* 示例; 如果可以，请设置一些数量（px或%） */ margin: 10px auto; /* 除非要居中，否则不需要…

Leave a Comment

使用n-gram在🤗 Transformers中提升Wav2Vec2性能

Published July 17, 2023 by 四海吧

Wav2Vec2是一种流行的预训练模型，用于语音识别。该模型由Meta AI Research于2020年9月发布，其创新的架构推动了自监督预训练在语音识别方面的进展，例如Ng等人，2021年，Chen等人，2021年，Hsu等人，2021年和Babu等人，2021年。在Hugging Face Hub上，Wav2Vec2最受欢迎的预训练检查点当前每月下载量超过250,000次。使用连续时间分类（CTC），预训练的类似Wav2Vec2的检查点非常容易在下游语音识别任务上进行微调。简而言之，微调预训练的Wav2Vec2检查点的工作原理如下：在预训练的检查点之上堆叠一个随机初始化的线性层，并训练它将原始音频输入分类为一系列字母。它通过以下方式实现：从原始音频中提取音频表示（使用CNN层），使用一堆transformer层处理音频表示的序列，和将处理后的音频表示分类为一系列输出字母。以前的音频分类模型需要额外的语言模型（LM）和字典，以将分类的音频帧序列转换为连贯的转录。Wav2Vec2的架构基于transformer层，因此每个处理后的音频表示都能从其他所有音频表示中获取上下文。此外，Wav2Vec2利用CTC算法进行微调，解决了“输入音频长度”与“输出文本长度”比例不同的对齐问题。由于具有上下文化的音频分类和没有对齐问题，Wav2Vec2不需要外部语言模型或字典就能产生可接受的音频转录。正如官方论文的附录C所示，Wav2Vec2在LibriSpeech上表现出色，而无需使用语言模型。然而，从附录中也可以清楚地看出，结合语言模型使用Wav2Vec2可以显著提高性能，特别是当模型仅在10分钟的转录音频上进行训练时。直到最近，🤗 Transformers库没有提供一个简单的用户界面来使用经过微调的Wav2Vec2和语言模型解码音频文件。这个情况幸运地发生了改变。🤗 Transformers现在提供了与Kensho Technologies的pyctcdecode库的简单集成。本博客文章是一篇逐步的技术指南，解释了如何使用🤗 Datasets和🤗 Transformers创建一个n-gram语言模型，并将其与现有的经过微调的Wav2Vec2检查点结合使用。我们首先进行以下步骤：使用语言模型解码音频与不使用语言模型解码音频有何不同？如何获取适合语言模型的数据？如何使用KenLM构建n-gram模型？如何将n-gram模型与经过微调的Wav2Vec2检查点结合使用？如果想深入了解Wav2Vec2的工作原理（不是本博客文章所必需的），建议阅读以下资料：…

Leave a Comment

使用预训练的ViT模型在图像字幕中使用Vision Transformers（ViT）

Published June 26, 2023 by 四海吧

介绍使用预训练的ViT模型进行图像描述可以看作是一种文本或书面描述，位于图像下方，旨在提供对图像细节的描述。它是将图像转换为文本描述的任务。通过连接视觉（图像）和语言（文本）来完成。在本文中，我们使用PyTorch后端，使用视觉变换器（ViT）作为主要技术，在图像中实现了这一目标。目标是展示一种使用转换器，特别是ViTs，利用经过训练的模型生成图像标题的方法，而无需从头开始重新训练。来源：Springer 随着社交媒体平台和在线图片使用的当前趋势，掌握这种技能的好处很多，可以出于多种原因进行描述、引用、帮助视力受损者，甚至是搜索引擎优化。这使得学习这种技术对涉及图像的项目非常有用。学习目标图像描述的概念使用ViTs进行图像捕捉使用预训练模型进行图像描述使用Python利用转换器您可以在此GitHub仓库中找到使用的全部代码。本文是数据科学博客马拉松的一部分。什么是Transformer模型？在我们研究ViT之前，让我们先了解一下Transformer。自从Google Brain于2017年引入transformers以来，它引起了人们对其在NLP方面的能力的兴趣。Transformer是一种深度学习模型，其特点是采用自我关注，不同地加权输入数据的每个部分的重要性。并且主要用于自然语言处理（NLP）领域。 Transformer处理序列输入数据，例如自然语言，但transformer一次处理整个输入。借助注意机制，任何输入序列的位置都有上下文。这种效率允许更多的并行化，减少训练时间，同时提高效率。 Transformer体系结构现在让我们看一下transformers的体系结构组成。Transformer体系结构主要由编码器-解码器结构组成。Transformer体系结构的编码器-解码器结构在一篇著名的论文中被提出，标题为“Attention Is All You Need”。编码器由层组成，负责逐层处理输入，而解码器层接收编码器输出并生成解码输出。简单地说，编码器将输入序列映射到序列，然后将其馈送到解码器。解码器然后生成一个输出序列。什么是Vision Transformers？由于本文展示了ViTs在图像描述中的实际用途，因此也有必要了解ViTs的工作原理。Vision…

Leave a Comment

Can't find what you're looking for? Try refining your search: