Press "Enter" to skip to content

47 search results for "ResNet"

苹果研究人员揭开了DeepPCR,这是一种创新的机器学习算法,可以并行化通常顺序进行的操作,以加速神经网络的推理和训练

“` 由于人工智能和深度学习在领域的进步,许多新的创新成为可能。借助神经网络的帮助,如文本或图像合成,分割和分类等复杂任务得到了成功处理。然而,由于计算需求的原因,神经网络训练可能需要几天甚至几周来获得充分的结果。预训练模型的推理有时也很慢,特别对于复杂的设计。 并行化技术可以加快深度神经网络的训练和推理。尽管这些方法被广泛使用,但神经网络中的某些操作仍然是按顺序进行的。扩散模型通过一系列去噪阶段生成输出,正向和反向传递逐层进行。随着步骤数的增加,这些过程的顺序执行变得计算代价高昂,可能导致计算瓶颈。 为了解决这个问题,苹果公司的研究人员提出了DeepPCR,一种独特的算法,旨在加快神经网络的训练和推理。DeepPCR通过将一系列L个步骤视为一组方程的答案来执行。该团队采用了并行循环消减(PCR)算法来提取此解决方案。将顺序处理​​的计算成本从O(L)降低到O(log2 L)是DeepPCR的主要优势。减少复杂性后的速度加快,尤其是对于高值的情况。 团队进行了实验,以验证关于DeepPCR降低复杂性的理论断言,并确定加速的条件。通过将DeepPCR应用于多层感知机的前向传递和后向传递并行化,他们实现了前向传递速度提升30倍,后向传递速度提升200倍。 团队还通过使用DeepPCR来训练具有1024层的ResNets展示了DeepPCR的适应性。由于DeepPCR的使用,训练速度可以提高多达7倍。该技术用于扩散模型的生成阶段,相比顺序方法,生成速度提高了11倍。 团队总结了他们的主要贡献如下: 引入了DeepPCR,这是一种创新的方法,用于并行化神经网络的序列处理,其主要特点是能够将计算复杂性从O(L)降低到O(log2 L),其中L是序列长度。 使用DeepPCR并行化多层感知机(MLP)的前向传递和后向传递。对技术性能进行了全面分析,同时考虑了基本设计参数,以确定方法的高性能区域。该研究还调查了速度,解决方案的正确性和内存使用之间的权衡。 使用DeepPCR加速了在MNIST上训练的深度ResNet和在MNIST、CIFAR-10和CelebA数据集上训练的扩散模型的生成。结果表明,尽管DeepPCR显示了显着的加速,对于ResNet的训练速度提高了7倍,对于扩散模型的生成速度提高了11倍,但仍产生与顺序技术相媲美的结果。 “`

Leave a Comment

本AI论文介绍了BioCLIP:利用TreeOfLife-10M数据集来改变生物学和保护中的计算机视觉

许多生物学的分支,包括生态学、进化生物学和生物多样性学,越来越多地将数字图像和计算机视觉作为研究工具。现代技术极大地提高了他们分析来自博物馆、相机陷阱和公民科学平台的大量图像的能力。这些数据随后可以用于物种划分、理解适应机制、估计种群结构和丰度,以及监测和保护生物多样性。 然而,当试图使用计算机视觉来解决生物学问题时,寻找和训练适合特定任务的合适模型,并手动标记足够的数据以用于特定物种和研究仍然是重大挑战。这需要大量的机器学习知识和时间。 来自俄亥俄州立大学、微软、加州大学欧文分校和伦斯勒理工学院的研究人员正在研究在该努力中构建“生命之树”基础视觉的模型。该模型必须满足以下要求,以便广泛适用于真实生物学任务。首先,它需要能够适应调查各种不同类群的研究人员,而不仅仅是一个类群,并且最好能够推广到整个生命之树。此外,它应该获取生物图像的细粒度表示,因为在生物学领域常常会遇到外观相似的生物体,例如同属或为了适应而模仿对方外观的近亲物种。由于生命之树将生物事物组织成广泛的群组(如动物、真菌和植物)和非常细粒度的群组,这种粒度水平是重要的。最后,在数据收集和标记在生物学中的高昂费用的情况下,具有低数据区域(即零样本或少样本)的优秀结果是至关重要的。 当前训练在数亿张图像上的通用领域视觉模型在应用于进化生物学和生态学时表现不佳,尽管这些目标对计算机视觉来说并不新鲜。研究人员确定了在生物学中创建视觉基础模型的两个主要障碍。首先,需要更好的预训练数据集,因为目前可用的数据集在规模、多样性或标签细粒度方面都不足。其次,由于当前的预训练算法不能很好地满足这三个主要目标,因此有必要找到更好的预训练方法,利用生物领域的独特特征。 考虑到这些目标和实现障碍,团队提出了以下内容: TREEOFLIFE-10M,一个庞大的ML准备生物学图片数据集 BIOCLIP是一个基于适当类群在TREEOFLIFE-10M中进行训练的生命之树的视觉模型。 TREEOFLIFE-10M是一个广泛而多样的生物图像数据集,适用于ML。研究人员已经策划和发布了迄今为止最大的ML准备生物学图像数据集,其中包含超过1000万张照片,涵盖了生命之树上的45.4万个类群,并附带有分类标签。仅有270万张照片代表10,000个类群的iNat21是最大的ML准备生物学图像集合。现有的高质量数据集,如iNat21和BIOSCAN-1M,已纳入TREEOFLIFE-10M中。TREEOFLIFE-10M中的大部分数据多样性来自生命百科全书(eol.org),其中包含了该来源的最新选定的照片。TREEOFLIFE-10M中的每张图像的分类层次和更高分类排名都进行了最大程度的注释。借助TREEOFLIFE-10M,可以培训BIOCLIP和其他生物学的未来模型。 BIOCLIP是基于视觉的生命之树的表示。在像TREEOFLIFE10M这样的大规模标记数据集上训练视觉模型的一个常见且简单的方法是使用监督分类目标,从图像中学习预测分类标志。ResNet50和Swin Transformer也使用了这种策略。然而,这种方法忽视并没有利用复杂的分类系统——类群不是孤立存在的,而是在一个完整的分类系统中相互关联。因此,使用基本的监督分类进行训练的模型可能无法对未知的类群进行零样本分类或对训练期间不存在的类群进行很好的泛化。相反,团队采用了一种新方法,将BIOCLIP的广泛生物分类与CLIP风格的多模式对比学习相结合。通过使用CLIP对比学习目标,他们可以在将分类系统从王国级别扁平化为代表分类名称的字符串之后,学习将图片与相应的分类名称关联起来。当使用不可见的类群的分类名称时,BIOCLIP还可以进行零样本分类。 团队还建议并展示了一种混合文本类型训练技术的益处;这意味着他们保留了分类学名称的概括性,但在测试时更具灵活性,通过结合多种文本类型(例如,科学名称与通用名称)进行训练。例如,下游用户仍然可以使用通用物种名称,而BIOCLIP将表现出色。他们对BIOCLIP进行了全面评估,涵盖了涉及植物、动物和昆虫的十个细粒度图片分类数据集,以及一个专门策划的罕见物种数据集,在训练过程中未使用。BIOCLIP显著超过了CLIP和OpenCLIP,在少样本和零样本情况下,分别取得了平均绝对提升17%和18%的成绩。此外,它的内在分析可以解释BIOCLIP更好的泛化能力,表明它已经学习到了符合生命之树的分层表示。 尽管团队使用了CLIP目标来有效地学习数十万个分类群的视觉表示,BIOCLIP的训练仍然专注于分类。为了使BIOCLIP能够提取细粒度的特征级表示,他们计划在未来的工作中加入来自inaturalist.org的研究级照片,该网站拥有1亿张照片或更多,并收集物种外观的更详细的文本描述。

Leave a Comment

卷积神经网络(CNNs)中的空洞卷积全面指南

介绍 在计算机视觉领域中,卷积神经网络(CNN)已经重新定义了图像分析和理解的领域。这些强大的网络已经在图像分类、物体检测和语义分割等任务中取得了突破。它们为医疗保健、自动驾驶等领域的各种应用奠定了基础。 然而,随着对更具上下文感知和稳健模型的需求不断增长,传统的卷积层在捕捉广泛的上下文信息方面面临限制。这导致了对能够提高网络理解更广泛上下文能力的创新技术的需求,而不会显著增加计算复杂性。 介绍扩张卷积(Atrous Convolution),这是一种颠覆卷积神经网络中常规规则的突破性方法。扩张卷积,也被称为空洞卷积,通过在深度学习领域引入新的维度,使网络能够在不显著增加计算成本或参数的情况下捕捉更广泛的上下文。 学习目标 了解卷积神经网络的基本知识,以及它们如何处理视觉数据来理解图像。 了解扩张卷积如何改进传统卷积方法,从而在图像中捕捉更大的上下文。 探索使用扩张卷积的知名CNN架构,例如DeepLab和WaveNet,以了解它如何提高它们的性能。 通过实际示例和代码片段,获得对扩张卷积在CNN中应用的实际理解。 本文是Data Science Blogathon的一部分。 理解卷积神经网络:它的工作原理 卷积神经网络(CNN)是一类主要用于分析图像和视频等视觉数据的深度神经网络。它们受到人类视觉系统的启发,在涉及视觉数据的模式识别任务中非常有效。以下是详情: 卷积层:CNN由多个层组成,其中卷积层是核心。这些层使用卷积运算将可学习的滤波器应用于输入数据,从图像中提取各种特征。 汇聚层:在卷积之后,通常会使用汇聚层来减小空间维度,压缩卷积层学到的信息。常见的汇聚操作包括最大汇聚或平均汇聚,它们减小表示的大小同时保留关键信息。 激活函数:在卷积和汇聚层之后使用非线性激活函数(例如ReLU)来引入非线性,让网络能够学习数据中的复杂模式和关系。 全连接层:在CNN末尾,通常使用全连接层。这些层整合前面层提取的特征,并执行分类或回归任务。 逐点卷积:逐点卷积,也被称为1×1卷积,是CNN中用于降低维度和特征组合的技术。它涉及将1×1滤波器应用于输入数据,有效减少输入通道数,并允许跨通道组合特征。逐点卷积通常与其他卷积操作一起使用,以增强网络捕捉数据中的复杂模式和关系的能力。 可学习参数:CNN依赖于在训练过程中更新的可学习参数(权重和偏置)。训练过程包括前向传播,其中输入数据通过网络,以及反向传播,根据网络的性能调整参数。 从扩张卷积开始 扩张卷积,也被称为空洞卷积,是一种引入了参数扩张率的卷积操作。与常规卷积将滤波器应用于相邻像素不同,扩张卷积通过在它们之间引入间隙来分散滤波器的参数,由扩张率来控制。这个过程扩大了滤波器的感受野,而不增加参数的数量。简单来说,它允许网络在不增加复杂性的情况下从输入数据中捕获更广泛的上下文。 扩张率决定了卷积的每一步之间跳过多少像素。1的扩张率表示常规卷积,而较高的扩张率跳过更多的像素。这个扩大的感受野能够捕获更大的上下文信息,而不增加计算成本,使网络能够高效地捕获局部细节和全局上下文。 本质上,扩张卷积有助于将更广泛的上下文信息整合到卷积神经网络中,从而更好地对数据中的大规模模式进行建模。它通常用于需要关注不同尺度上的背景信息的应用,例如计算机视觉中的语义分割或自然语言处理任务中处理序列。…

Leave a Comment

纽约大学和Meta公司的研究人员推出了Dobb-E:一个用于学习家庭机器人操作的开源通用框架

“`html 纽约大学和Meta的研究团队旨在通过引入高度适应型的DobbE系统,解决家庭环境中机器人操作学习的挑战,能够从用户示范中学习和适应。实验展示了系统的效率,同时强调了现实世界环境中的独特挑战。 研究中承认了积累大量机器人数据集的最新进展,强调了以家庭和第一人称机器人互动为中心的数据集的独特性。利用iPhone的能力,该数据集提供了高质量的动作和稀有的深度信息。与现有的自动化操作重点表示模型相比,强调了用于通用表示的域内预训练。他们建议使用非机器人家庭视频的非域内信息来增强数据集,承认这些增强对于他们的研究有潜在的改进。 引言中提到了在创建全面家庭助手方面面临的挑战,主张从受控环境向真实家庭的转变。强调效率、安全和用户舒适性,并介绍了体现这些原则的DobbE框架。它利用大规模数据和现代机器学习来提高效率,利用人类示范来确保安全,并使用符合人体工程学的工具来提高用户舒适度。DobbE将围绕Hello Robot Stretch集成硬件、模型和算法。还讨论了纽约家庭数据集中来自22个家庭的多样化示范以及用于视觉模型的自监督学习技术。 该研究采用行为克隆框架,一种模仿学习的子集,来训练DobbE模仿人类或专家行为。设计的硬件设置促进了无缝示范收集和转移到机器人实体,利用了包括iPhone视觉里程计在内的多种家庭数据。基本模型在这些数据上进行预训练。经过测试,训练模型在真实家庭中进行测试,消融实验评估了视觉表示、所需示范、深度感知、示范者专业知识以及系统中是否需要参数化策略。 DobbE在陌生的家庭环境中接受仅五分钟示范和15分钟适应家庭预先训练的表示模型后,显示出81%的成功率。在10个不同的家庭中经过30天的学习,DobbE成功学会了109项任务中的102项,证明了使用ResNet模型进行视觉表示和使用两层神经网络进行行动预测等简单方法的有效性。任务的完成时间和难度通过回归分析进行了分析,消融实验评估了不同系统组件,包括图形表示和示范者专业知识。 总之,DobbE是一种经过测试的成本效益高且适用于各种家庭环境的机器人操作系统,具有令人印象深刻的81%的成功率。DobbE团队慷慨地开源了其软件堆栈、模型、数据和硬件设计,以推动家用机器人研究的发展,并促进机器人管家的广泛采用。DobbE的成功归功于其强大而简单的方法,包括行为克隆和用于行动预测的两层神经网络。该研究还提供了有关光照条件和阴影对任务执行的影响的见解。 “`

Leave a Comment

加州大学伯克利分校研究人员开发了ALIA:用于细粒度分类任务的自动语言引导图像增强的突破性技术

“`html 精细化图像分类是一项计算机视觉任务,旨在将图像分类为更大类别中的子类别。它涉及对特定的、往往是稀有的动物进行复杂的识别。然而,它们在需要更多广泛的训练数据方面存在问题,导致分类器在适应领域中的不同方面时遇到困难,比如天气条件或地理位置的改变。 数据增强是一种常用的方法,用于使训练数据多样化,在精细分类等专门任务中面临挑战。使用生成模型或传统的翻转或裁剪等方法的方法显示出一定的潜力,但通常需要进行大量的微调或生成对于此类任务不适当的图像。 尽管有各种各样的提出的方法试图解决这些挑战,但该领域仍面临着在创建增强数据集方面的困难,这些数据集代表了多样的变化,同时保持与原始训练数据的视觉一致性和相关性。 一种新颖的方法——自动语言引导图像增强(ALIA)应运而生,以克服这些持续存在的挑战。ALIA利用了与大型视觉模型结合使用的数据集领域的自然语言描述,通过语言引导的图像编辑以自动生成训练数据的多样化变化。与先前的方法不同,ALIA不依赖昂贵的微调或用户提供的提示。相反,它智能地过滤掉最小的编辑和可能破坏与分类相关信息的编辑,提供了一种有希望的解决方案,增强了数据集的多样性,并提高了专门任务(如精细化分类)分类器的泛化能力。 该过程包括: 生成领域描述:利用图像字幕生成和大型语言模型(LLM)将图像上下文总结为不超过十个领域描述。 使用语言引导对图像进行编辑:使用文本条件下的图像编辑技术,创建与这些描述相符的多样化图像。 过滤失败的编辑:使用CLIP进行语义过滤,并使用分类器进行基于置信度的过滤,以删除失败的编辑,确保任务相关信息和视觉一致性的保留。 据作者称,这种方法可以扩展数据集20-100%,同时保持视觉一致性并涵盖更广泛的领域范围。 研究团队进行了大量实验证明了ALIA数据增强方法在专门任务(领域泛化、精细化分类和鸟类分类中的上下文偏见)中的有效性。通过对ResNet50模型进行微调,并使用稳定扩散进行图像编辑,ALIA始终优于传统的增强技术,甚至优于实际数据增加在领域泛化任务中,显示出相对原始数据的17%的改进。在精细分类中,ALIA表现出了竞争性的性能,即使没有领域转移也能保持准确性。ALIA在涉及上下文偏见的功能中,在领域内外的准确性方面表现出色,尽管在图像编辑质量和纯文本修改方面面临挑战。这些实验证明了ALIA在增强数据集多样性和模型性能方面的潜力,尽管在一定程度上依赖于模型质量和图像编辑方法的选择。 总之,作者介绍了ALIA,一种基于大型语言模型和语言引导的图像编辑技术的数据增强先进策略,利用广泛的领域知识。对于已提供的训练集中的领域描述和增强数据,该方法展示了在领域适应、偏见减少甚至在缺乏领域转移的情况下的出色能力。 对于未来的研究,作者认为字幕、大型语言模型和图像编辑的进一步改进将极大地增强该方法的效果和适用性。使用从实际训练数据中得出的结构化提示可能在改善数据集多样性和解决当前方法中遇到的各种限制方面发挥关键作用。这为探索ALIA在更广泛的领域中的应用前景和潜在进展提供了有希望的途径。 “`

Leave a Comment

探索在卷积神经网络中的逐点卷积:替换全连接层

介绍 卷积神经网络(CNNs)在理解图像和模式上起着关键作用,改变了深度学习的领域。旅程始于Yan引入LeNet架构,如今,我们拥有一系列可供选择的CNNs。传统上,这些网络在将事物分类时严重依赖于全连接层。但等等,有些变化正在发生。我们正在探索一种使用逐点卷积(Pointwise Convolution)的不同架构,这是CNNs的一种新鲜改进方法。就像走上一条新的道路一样。这种方法挑战了传统全连接层的常规用法,带来了一些酷炫的优势,使我们的网络更智能、更快。让我们一起来探索逐点卷积的奥秘,发现它如何帮助我们的网络运行更高效,表现更好。 学习目标 了解从早期模型(如LeNet)到现今多种不同架构使用中的卷积神经网络(CNNs)的发展历程。 探索传统全连接层在CNNs中与计算强度和空间信息丢失相关的问题。 探索逐点卷积作为CNNs中高效特征提取的替代方法。 培养实际实现CNNs中的逐点卷积的实践能力,包括网络修改和超参数调整等任务。 本文是《数据科学博客马拉松》的一部分。 理解全连接层 在传统的卷积神经网络(CNNs)中,全连接层在连接每一层的所有神经元上起着关键作用,形成了密集的互联结构。在图像分类等任务中使用这些层,网络通过学习将特定特征与特定类别关联起来。 主要观点 全局连接:全连接层创建了全局连接,使得一层中的每个神经元都与后续层中的每个神经元相连。 参数强度:全连接层中的参数数量之多可能大幅增加模型的参数数量。 空间信息丢失:在全连接层中对输入数据进行扁平化可能导致原始图像的空间信息丢失,这在特定应用中可能是一个缺点。 计算强度:与全连接层相关的计算负荷可能非常大,特别是当网络规模扩大时。 实际应用 在卷积层之后:全连接层通常在CNN架构中的卷积层之后使用,卷积层从输入数据中提取特征。 稠密层:在某些情况下,全连接层被称为“稠密”层,强调其连接所有神经元的作用。 为什么需要变革? 现在,我们对普通卷积神经网络(CNNs)中的全连接层有了基本的了解,让我们谈谈为什么有些人正在寻找不同的东西。虽然全连接层工作得很好,但它们也面临一些挑战。它们可能会给计算机带来一些负担,使用大量参数,并且有时会丢失图片的关键细节。 我们为什么要探索新的方法: 全连接的阻碍:将全连接层视为一个工作能力强,但存在一些问题的人-它们很有效,但也带来了挑战。 寻找更智能的方式:人们寻求更创新、更高效的建立这些网络的方式,而不带来这些阻碍。 让事情变得更好:目标是使这些网络工作得更好——更快、更智能、更节省计算资源。…

Leave a Comment

解码复杂的 AI 模型:普渡大学研究人员将深度学习预测转化为拓扑地图

复杂预测模型的高度参数化特性使得对预测策略进行描述和解释困难。研究人员引入了一种使用拓扑数据分析(TDA)的新方法来解决这个问题。这些模型,包括机器学习、神经网络和人工智能模型,已经成为各个科学领域中的标准工具,但由于它们的广泛参数化而通常难以解释。 普渡大学的研究人员意识到需要一种将这些复杂模型转化为更易于理解的格式的工具。他们利用TDA构建Reeb网络,提供了一种拓扑视图,有助于预测策略的解释。该方法已应用于各个领域,展示了它在大型数据集上的可扩展性。 所提出的Reeb网络本质上是拓扑结构的离散化,以便可视化预测景观。Reeb网络中的每个节点代表预测空间的本地简化,计算为具有类似预测的数据点的聚类。节点基于共享数据点连接,揭示了预测与训练数据之间的有用关系。 这种方法的一个显著应用是在检测训练数据中的标签错误。Reeb网络在识别模糊区域或预测边界方面表现出良好的效果,指导进一步对潜在错误的研究。该方法还在理解图像分类中的泛化和观察与BRCA1基因中的致病突变相关的预测方面展示了实用性。 与tSNE和UMAP等广泛使用的可视化技术进行了比较,突出了Reeb网络提供有关预测之间边界和训练数据与预测之间关系的更多信息。 构建Reeb网络需要具备一组具有未知标签的数据点、数据点之间已知的关系以及每个预测值的实值指南等前提条件。研究人员采用了一种称为GTDA(基于图的TDA)的递归分裂和合并过程,从原始数据点和图中构建了Reeb网络。经过对ImageNet中的130万图像的分析验证了该方法的可扩展性。 在实际应用中,Reeb网络框架应用于根据亚马逊评论预测产品类型的图神经网络。它揭示了产品类别中的关键模糊性,强调了预测准确性的限制,并提出了需要改进标签的建议。将该框架应用于在Imagenet数据集上预训练的ResNet50模型时,也获得了类似的见解,提供了图像的视觉分类和揭示了真相标签错误的分类。 研究人员还展示了将Reeb网络应用于理解与恶性基因突变相关的预测,特别是BRCA1基因。网络突出了DNA序列中的局部组成部分及其与次级结构的映射,有助于解释。 总之,研究人员预计拓扑检查技术,如Reeb网络,将在将复杂预测模型转化为可操作的人类级洞察力方面起到关键作用。该方法从标签错误到蛋白质结构方面的问题,表明其广泛的适用性和作为预测模型的早期诊断工具的潜力。

Leave a Comment

Amazon EC2 DL2q实例现已全面推出,用于经济高效的高性能人工智能推断

这是一篇由来自高通AI的A.K Roy所撰写的客座文章亚马逊弹性计算云(Amazon EC2)DL2q实例由高通AI 100标准加速器提供动力,可用于在云端高效部署深度学习(DL)工作负载它们还可用于开发和验证DL工作负载的性能和准确度

Leave a Comment

这篇AI论文介绍了一种深度学习模型,该模型使用真实世界的视网膜OCT扫描来分类和分析年龄相关性黄斑变性的不同阶段

一篇新的研究论文提出了一种基于深度学习的分类器,用于使用视网膜光学相干断层扫描(OCT)检测老年性黄斑变性(AMD)阶段。该模型利用两阶段卷积神经网络,将Topcon OCT图像中以黄斑为中心的3D体积分成正常、早期/中期AMD(iAMD)、萎缩(GA)和新生血管(nAMD)阶段。第一阶段采用2D ResNet50进行B扫描分类,第二阶段使用较小模型(ResNet)进行体积分类。 经过大量数据集的训练,该模型在将以黄斑为中心的3D体积分类为正常、iAMD、GA和nAMD阶段方面表现出色。该研究强调了准确的AMD分期对于及时治疗的重要性。性能指标包括ROC-AUC、平衡准确率、准确率、F1分数、敏感性、特异性和马修斯相关系数。 研究详细介绍了使用视网膜OCT扫描创建基于深度学习的自动AMD检测和分期系统。与传统方法相比,OCT是一种非侵入性成像技术,在提供关于AMD分期的详细见解方面至关重要。该研究强调了准确的AMD分期对于有效治疗和视觉保护的重要性。该研究强调了高质量数据集对于强大分析的重要性。 该研究采用了两阶段深度学习模型,利用ImageNet预训练的ResNet50和四个独立的ResNet对OCT扫描中的AMD生物标志物进行二元分类。第一阶段在体积中定位疾病类别,而第二阶段执行体积级别的分类。该模型在实际世界的OCT数据集上训练,展示了有希望的性能指标,包括ROC-AUC、平衡准确率、准确率、F1分数、敏感性、特异性和马修斯相关系数。该研究指出了使用不同设备的多样化OCT数据集面临的挑战,并讨论了潜在的泛化问题。 基于深度学习的AMD检测和分期系统在实际测试集中展示出有希望的性能,平均ROC-AUC为0.94。在推理时间加入蒙特卡洛丢弃(Monte-Carlo dropout)增强了分类不确定性估计的可靠性。该研究利用了2079只眼睛的3995个OCT体积的精选数据集,利用各种指标评估性能,包括AUC、BACC、ACC、F1分数、敏感性、特异性和MCC。结果凸显了该模型在准确的AMD分类和分期方面的潜力,有助于及时治疗和视觉功能保护。 该研究成功开发了一种基于深度学习的自动AMD检测和分期系统,利用OCT扫描准确地将以黄斑为中心的3D体积分成四个类别:正常、iAMD、GA和nAMD。与基线方法相比,这种深度学习模型在性能上显示出可比或更好的表现,并带有B扫描级别疾病定位的额外好处。 进一步研究可以提高深度学习模型在各种OCT设备上的泛化能力,考虑对Cirrus和Spectralis等扫描仪进行适应性调整。应探索域漂移适应方法,以应对与特定数据集训练相关的限制,确保在各种信噪比情况下的强大性能。该模型对于回顾性AMD发病检测的潜力可以扩展,实现对纵向数据集的自动标记。在实际筛查环境中应用不确定性估计并探索该模型在检测除AMD之外的其他疾病生物标志物方面的潜力,这是未来研究的有希望的方向,有助于在更广泛的人群中进行疾病筛查。

Leave a Comment

每个数据科学家都应该了解的图像嵌入的前10个预训练模型

计算机视觉的快速发展——图像分类的用例得益于迁移学习的出现而进一步加快在大型图像数据集上训练计算机视觉神经网络模型需要大量的计算资源和时间幸运的是,通过迁移学习,这些时间和资源可以减少

Leave a Comment

如何优化视频动作识别?揭示在深度学习方法中空间和时间注意力模块的力量

动作识别是在视频中自动识别和分类人类动作或移动的过程。它在各个领域中都有应用,包括监控、机器人技术、运动分析等等。其目标是使机器能够理解和解释人类的行动,从而改善决策和自动化能力。 随着深度学习的出现,尤其是卷积神经网络(CNNs)的应用,视频动作识别领域取得了显著的进展。CNNs在直接从视频帧中提取时空特征方面表现出了有效性。早期的方法,比如Improved Dense Trajectories(IDT),聚焦于手工设计特征,这些特征计算成本高且难以扩展。随着深度学习的普及,引入了两通道模型和3D CNNs等方法,用于有效利用视频的空间和时间信息。然而,有效提取相关视频信息的挑战依然存在,尤其是区分具有鉴别性的帧和空间区域。此外,某些方法(如光流计算)所需的计算需求和内存资源必须得到处理,以提高可扩展性和适用性。 为了应对上述挑战,中国的一个研究团队提出了一种新颖的动作识别方法,利用了改进的残差卷积神经网络和注意机制。所提出的方法名为帧和空间注意网络(FSAN),重点是引导模型强调视频数据中的重要帧和空间区域。 FSAN模型结合了一个伪-3D卷积网络和一个两级注意模块。两级注意模块有助于在通道、时间和空间维度上利用信息特征,增强模型对视频数据时空特征的理解。还引入了一个视频帧注意模块,以减少不同视频帧之间相似性的负面影响。这种基于注意的方法,通过在不同级别引入注意模块,有助于生成更有效的动作识别表示。 根据作者的观点,将残差连接和注意机制整合到FSAN中具有明显的优势。残差连接,尤其是通过伪-ResNet架构,增强了训练过程中的梯度流动,有助于更有效地捕捉复杂的时空特征。同时,在时间和空间维度上的注意机制可以重点关注重要的帧和空间区域。这种选择性注意增强了鉴别能力并减少了噪声干扰,优化了信息提取。此外,这种方法确保了根据特定数据集和要求进行定制最佳适应性和可扩展性。总体而言,这种整合增强了动作识别模型的鲁棒性和效果,从而提高了性能和准确性。 为了验证他们提出的FSAN在动作识别方面的有效性,研究人员在两个关键基准数据集UCF101和HMDB51上进行了大量实验。他们在Ubuntu 20.04 bionic操作系统上实施了该模型,利用Intel Xeon E5-2620v4 CPU和GeForce RTX 2080 Ti GPU进行计算。模型的训练包括使用随机梯度下降(SGD)和特定参数进行的100个epochs,使用4个GeForce RTX 2080 Ti GPUs的系统进行训练。他们还应用了智能数据处理技术,如快速视频解码、帧提取以及数据增强方法,如随机裁剪和翻转。在评估阶段,FSAN模型与最先进的方法在两个数据集上进行了比较,展示了在动作识别准确性方面的显著提升。通过消融研究,研究人员强调了注意模块发挥的关键作用,确认了FSAN在增强识别性能和有效区分时空特征以准确进行动作识别方面的有效性。 总之,将改进的残差卷积神经网络和注意机制整合到FSAN模型中为视频动作识别提供了一个强大的解决方案。这种方法通过有效解决特征提取、鉴别帧识别和计算效率方面的挑战,提高了准确性和适应性。通过对基准数据集进行全面实验,研究人员展示了FSAN的超强性能,展示了其在推动动作识别方面的潜力。这项研究强调了借助注意机制和深度学习来更好地理解人类动作的重要性,为各个领域的变革性应用提供了前景。

Leave a Comment

使用密集预测变换进行图像语义分割

介绍 本文将介绍一种计算机视觉技术——图像语义分割。虽然听起来很复杂,但我们会一步一步解析它,并介绍一种使用密集预测变换器(DPTs)实现的图像语义分割概念,这是从Hugging Face的集合中选择的。使用DPTs引入了一个具有非同寻常能力的新阶段。 学习目标 DPTs相对于传统对远程连接的理解的比较。 使用Python实现使用DPT进行深度预测的语义分割。 探索DPT设计,理解它们独特的特点。 本文是数据科学博文马拉松的一部分。 什么是图像语义分割? 想象一下,你有一张图像,并希望根据图像中每个像素的表示对其进行标注。这就是图像语义分割的概念。它可以用于计算机视觉,区分汽车和树木,或者分离图像的不同部分;这一切都是为了智能地标记像素。然而,真正的挑战在于理解对象之间的上下文和关系。让我们将其与处理图像的旧方法进行比较。 卷积神经网络(CNNs) 第一个突破是使用卷积神经网络来处理涉及图像的任务。然而,CNNs有一些限制,尤其是在捕捉图像中的长距离连接方面。想象一下,如果你试图理解图像中不同元素在长距离上是如何相互作用的,传统的CNNs会遇到困难。这就是我们赞美DPT的地方。这些模型基于强大的变换器架构,具备捕捉关联的能力。我们将在接下来看到DPTs。 什么是密集预测变换器(DPTs)? 要理解这个概念,想象一下将我们之前在NLP任务中使用的变换器的强大能力与图像分析相结合。这就是密集预测变换器背后的概念。它们就像图像世界中的超级侦探一样。它们不仅能够标记图像中的每个像素,还可以预测每个像素的深度——这在某种程度上提供了有关每个对象与图像之间的距离的信息。我们将在下面看到这一点。 DPT架构工具箱 DPTs有不同类型,每种类型都有其“编码器”和“解码器”层。让我们在这里看一下两种流行的类型: DPT-Swin-Transformer:将其想象为具有10个编码器层和5个解码器层的超级变换器。它擅长理解图像中不同级别的元素之间的关系。 DPT-ResNet:这个类型就像是一个聪明的侦探,具有18个编码器层和5个解码器层。它善于发现远距离对象之间的联系,同时保持图像的空间结构完整性。 关键特点 以下是关于DPTs如何使用一些关键特点的更详细说明: 分层特征提取:就像传统的卷积神经网络(CNNs)一样,DPTs从输入图像中提取特征。然而,它们采用一种分层的方法,将图像分为不同层次的细节。正是这种层次结构有助于捕捉局部和全局上下文,使模型能够理解不同尺度上对象之间的关系。 自注意机制:这是DPTs的核心,受原始变换器架构启发,使模型能够捕捉图像内的长程依赖关系,并学习像素之间的复杂关系。每个像素都考虑来自所有其他像素的信息,使模型对图像有整体的理解。 使用DPTs进行图像语义分割的Python演示 我们将在下面看到DPTs的实现。首先,让我们通过安装Colab上未预安装的库来设置环境。您可以在这里或https://github.com/inuwamobarak/semantic-segmentation找到此代码。 首先,我们安装并设置环境。…

Leave a Comment

目标检测排行榜

欢迎来到我们最新的排行榜和模型评估领域的深入探索。在之前的一篇文章中,我们探索了对大型语言模型进行评估的方法。今天,我们将转向一个不同但同样具有挑战性的领域-目标检测。 最近,我们发布了我们的目标检测排行榜,根据一些指标对Hub中可用的目标检测模型进行排名。在这篇博客中,我们将演示模型是如何进行评估的,并揭示目标检测中常用的指标,从交并比(IoU)到平均精度(AP)和平均召回率(AR)。更重要的是,我们将重点介绍在评估过程中可能出现的差异和陷阱,确保您具备不仅能理解而且能够批判性评估模型性能的知识。 每个开发者和研究人员都希望拥有一个能够准确检测和描绘对象的模型。我们的目标检测排行榜是找到最适合其应用需求的开源模型的正确地方。但在这个背景下,“准确”到底意味着什么?应该相信哪些指标?它们是如何计算的?而且,更关键的是,为什么一些模型在不同的报告中可能呈现出不同的结果?所有这些问题将在本博客中得到回答。 因此,让我们一起展开这次探索,揭开目标检测排行榜的秘密!如果您想跳过介绍,直接了解如何计算目标检测指标,请前往指标部分。如果您想了解如何根据目标检测排行榜选择最佳模型,请查看目标检测排行榜部分。 目录 介绍 什么是目标检测 指标 什么是平均精度,如何计算? 什么是平均召回率,如何计算? 平均精度和平均召回率的变体有哪些? 目标检测排行榜 根据指标选择最佳模型的方法 哪些参数可能会影响平均精度的结果? 结论 其他资源 什么是目标检测? 在计算机视觉领域,目标检测是指在图像中识别和定位各个对象的任务。与图像分类不同,图像分类的任务是确定图像中占主导地位的对象或场景,目标检测不仅对出现的对象类别进行分类,还提供空间信息,绘制出每个检测到的对象的边界框。一个目标检测器还可以对每个检测到的对象输出一个“分数”(或“置信度”)。它表示根据模型预测,检测到的对象属于每个边界框预测类别的概率。 例如,下面的图像显示了五个检测结果:一个“球”置信度为98%,以及四个“人”置信度分别为98%、95%、97%和97%。 目标检测模型具有各种各样的应用,涵盖各个领域。其中一些用例包括自动驾驶中的视觉、人脸检测、监控和安全、医学成像、增强现实、体育分析、智慧城市、手势识别等。 Hugging Face Hub拥有数百个目标检测模型,它们在不同的数据集上进行了预训练,能够识别和定位各种对象类别。 一种特殊类型的目标检测模型称为零样本模型,它可以接收额外的文本查询,以搜索在文本中描述的目标对象。这些模型可以检测到它们在训练期间没有见过的对象,而不仅仅局限于训练时使用的类别集合。 检测器的多样性不仅限于它们能识别的输出类别范围。它们在底层架构、模型大小、处理速度和预测准确性等方面都有所不同。…

Leave a Comment

使用Transformer检测图像中的表格行和列

介绍 您是否曾经处理过非结构化数据,并考虑过一种方式来检测文档中表格的存在?以帮助您快速处理您的文档?在本文中,我们将不仅了解如何检测表格的存在,还将通过使用Transformer模型来识别这些表格的结构。这将由两个不同的模型实现。一个用于文档中的表格检测,另一个用于结构识别,可以识别表格中的行和列。 学习目标 如何在图像中检测表格的行和列? Table Transformers和Detection Transformer(DETR)的介绍 PubTables-1M数据集概述 如何使用Table Transformer进行推理 文档、文章和PDF文件是有价值的信息来源,通常包含传递关键数据的表格。从这些表格中高效提取信息可能会面临不同格式和表示之间的挑战。手动复制或重新创建这些表格可能耗时且繁琐。在PubTables-1M数据集上训练的Table Transformers解决了表格检测、结构识别和功能分析的问题。 本文是Data Science Blogathon的一部分。 如何实现的? 这是通过一种名为Table Transformer的Transformer模型实现的。它使用了一个名为PubTables-1M的大型注释数据集,可以检测文章中的文档或图像。该数据集包含约一百万个参数,并采用了一些措施来给模型带来最新的感觉。通过解决不完美注释、空间对齐问题和表格结构一致性等挑战,实现了高效性。与该模型一起发布的研究论文利用了Detection Transformer(DETR)模型,用于联合建模表格结构识别(TSR)和功能分析(FA)。因此,DETR模型是Table Transformer运行的骨干,由微软研究开发。让我们更详细地了解一下DETR。 DEtection TRansformer(DETR) 如前所述,DETR是DEtection TRansformer的缩写,包括使用编码器-解码器Transformer的卷积骨干,例如ResNet架构。这使得它有潜力进行目标检测任务。DETR提供了一种不需要复杂模型(如Faster R-CNN和Mask…

Leave a Comment

这项AI研究提出了Strip-Cutmix:一种更适用于人员再识别的数据增强方法

在计算机视觉中,人物再识别是当今互联世界中的一项重要追求。它涉及在不理想条件下跨不同摄像机视图识别个体的挑战性任务。然而,要实现准确的再识别模型,需要大量多样化且标记完整的数据。这就是数据增强的重要性所在。数据增强技术可以提高可用数据的质量和数量,使模型能够学习到强大的特征并适应各种场景。 在文献中,人物再识别采用了各种数据增强方法。包括随机擦除、随机水平翻转、遮挡样本生成、具有不同光照条件的虚拟图像创建,甚至涉及生成对抗网络(GANs)的方法。然而,像Cutmix和mixup这样可以生成高质量图像的方法,由于难以将它们适应人物再识别的三元组损失框架,很少被使用。 最近,中国的一个研究团队发表了一篇新论文,介绍了一种将Cutmix数据增强方法应用于人物再识别的解决方案。作者将常用的三元组损失扩展为处理十进制相似性标签,优化图像相似性。他们还提出了Strip-Cutmix,一种适用于人物再识别的增强技术,并提供了在该领域中有效应用该技术的策略。 具体而言,该论文调整了三元组损失和cutmix以解决这个挑战。Cutmix涉及将一幅图像的部分粘贴到另一幅图像上以创建一个新的图像。尽管常用,但由于cutmix生成的十进制相似性标签与其不兼容,它在人物再识别中很少被使用。 为了解决这个问题,作者修改了三元组损失以适应十进制相似性标签,并允许cutmix与三元组损失同时使用。修改后的三元组损失根据目标相似性动态调整优化方向。此外,三元组损失的决策条件被重写以与目标相似性标签对齐。 具体而言,作者扩展了三元组损失以处理十进制相似性标签,在再识别背景下使用cutmix。Cutmix通常将图像的一部分裁剪并粘贴到另一幅图像上,以创建一幅新的组合图像。然而,原始的三元组损失在人物再识别的度量学习中起着重要作用,但它在cutmix生成的十进制相似性标签上存在困难。 为了克服这个挑战,作者动态修改了三元组损失的优化方向以处理十进制标签,使其与cutmix和原始三元组损失兼容。他们还引入了Strip-Cutmix,将图像分成水平块,利用个体的相似特征通常在图像之间的对应位置上找到的事实。这种方法提高了生成图像的质量,并为三元组损失提供了更好的边界条件。Strip-Cutmix与标准cutmix不同之处在于强调基于位置的混合和图像块,使其可以获取组合图像之间的相似性标签。 在实践中,该解决方案涉及: 修改三元组损失以处理十进制标签。 引入Strip-Cutmix技术。 确定在训练过程中应用Strip-Cutmix的最佳方案。 进行了实验研究,以评估所提出方法的有效性。实验在Market-1501、DukeMTMC-ReID和MSMT17数据集上进行。使用平均平均精度(mAP)和累积匹配特性(CMC)进行评估。 研究人员选择了ResNet-50作为骨干网络。结果显示,该方法优于其他方法,在ResNet-50和RegNetY-1.6GF骨干网络上取得了最佳结果。此外,该技术表现出对过拟合的抵抗力,达到了最先进的性能。总体而言,该方法在数据集上提升了人物再识别任务的一致优势。 总之,本文介绍了一种将cutmix数据增强技术应用于人物再识别的方法。人物再识别中使用的现有三元组损失被扩展以适应十进制相似性标签,确保在处理这种新形式时的兼容性。此外,还引入了一种名为strip-cutmix的新概念,专门为人物再识别任务量身定制。通过研究strip-cutmix的最佳利用方案,作者确定了最有效的方法。该提出的方法超越了其他基于卷积神经网络的人物再识别模型,在纯卷积网络框架中实现了最佳性能。

Leave a Comment

医疗保健中的生成式人工智能

简介 生成式人工智能在过去几年中获得了突然的关注。医疗保健和生成式人工智能之间的强烈吸引力也并不令人意外。人工智能(AI)已经迅速改变了各个行业,医疗保健领域也不例外。人工智能的一个特定子集,生成式人工智能,在医疗保健领域已经成为一个改变者。 生成式人工智能系统可以生成新的数据、图像,甚至完整的艺术作品。在医疗保健领域,这项技术对于改进诊断、药物研发、患者护理和医学研究具有巨大的潜力。本文探讨了生成式人工智能在医疗保健领域的潜在应用和好处,并讨论了其实施挑战和道德考虑。 学习目标 生成式人工智能及其在医疗保健中的应用。 生成式人工智能在医疗保健中的潜在好处。 在医疗保健中实施生成式人工智能的挑战和限制。 生成式人工智能在医疗保健中的未来趋势。 本文作为Data Science Blogathon的一部分发表。 生成式人工智能在医疗保健中的潜在应用 已经在几个领域进行了研究,以了解生成式人工智能如何融入医疗保健。它对药物的分子结构和化合物的生成产生了影响,促进了潜在药物候选物的鉴定和发现。这可以节省时间和成本,同时利用尖端技术。其中一些潜在的应用包括: 增强医学成像和诊断 医学成像在诊断和治疗计划中起着至关重要的作用。生成式人工智能算法,如生成式对抗网络(GAN)和变分自动编码器(VAE),已经显著改进了医学图像分析。这些算法可以生成类似真实患者数据的合成医学图像,有助于机器学习模型的训练和验证。它们还可以通过生成额外的样本来增强有限的数据集,提高基于图像的诊断的准确性和可靠性。 促进药物发现和开发 发现和开发新药物是复杂、耗时和昂贵的。生成式人工智能可以通过生成具有所需特性的虚拟化合物和分子,显著加快这个过程。研究人员可以利用生成模型来探索广阔的化学空间,实现新药候选物的发现。这些模型可以从现有数据集中学习,包括已知的药物结构和相关属性,生成具有理想特性的新分子。 个性化医学和治疗 生成式人工智能有潜力通过利用患者数据来改变个性化医学,创建量身定制的治疗计划。通过分析大量的患者信息,包括电子健康记录、基因组信息和临床结果,生成式人工智能模型可以生成个性化的治疗建议。这些模型可以识别模式,预测疾病进展,并估计患者对干预措施的反应,使医疗保健提供者能够做出明智的决策。 医学研究和知识生成 生成式人工智能模型可以通过生成符合特定特征和约束的合成数据来促进医学研究。合成数据可以解决与共享敏感患者信息相关的隐私问题,同时允许研究人员提取有价值的见解并发展新的假设。 生成式人工智能还可以为临床试验生成合成患者队列,在进行昂贵且耗时的实际患者试验之前,使研究人员能够模拟各种场景并评估治疗效果。这项技术有潜力加速医学研究,推动创新,并扩大对复杂疾病的理解。 案例研究:CPPE-5医疗个人防护装备数据集 CPPE-5(医疗个人防护装备)是Hugging Face平台上的一个新数据集。它为在医学中进行生成式人工智能提供了强有力的背景。您可以通过对医疗个人防护装备进行分类来将其纳入计算机视觉任务中。这也解决了其他流行数据集关注广泛类别的问题,因为它专为医学目的而设计。利用这个新的医学数据集可以培养新的生成式人工智能模型。…

Leave a Comment

通过预测糖尿病视网膜病变的阶段来预防视力丧失

介绍 糖尿病视网膜病变是一种导致视网膜血管变化的眼部疾病。如果不及时治疗,会导致视力丧失。因此,检测糖尿病视网膜病变的阶段对于预防眼盲至关重要。本案例研究旨在从糖尿病视网膜病变症状中检测眼盲,以防止患者眼盲。这些数据是通过各种训练有素的临床专家使用眼底相机(拍摄眼部后部的相机)在农村地区收集的。这些照片是在各种成像条件下拍摄的。2019年,Kaggle举办了一个竞赛(APTOS 2019盲人检测),用于检测糖尿病视网膜病变的阶段;我们的数据来自同一个Kaggle竞赛。早期发现糖尿病视网膜病变可以加快治疗并显著降低视力丧失的风险。 训练有素的临床专家的人工干预需要时间和精力,尤其是在不发达国家。因此,本案例研究的主要目标是使用高效的技术来检测疾病的严重程度,以预防眼盲。我们采用深度学习技术来获得对疾病严重程度进行分类的有效结果。 学习目标 了解糖尿病视网膜病变:了解眼部疾病及其对视力的影响,强调早期检测的重要性。 深度学习基础知识:探索深度学习的基础知识及其在诊断糖尿病视网膜病变中的相关性。 数据预处理和增强:了解如何有效地准备和增强用于训练深度学习模型的数据集。 模型选择和评估:学习选择和评估用于严重程度分类的深度学习模型。 实际部署:了解使用Flask进行实际预测的最佳模型的部署。 本文是数据科学博客马拉松的一部分。 业务问题 在这里,人的病情严重程度被分为五个类别,即多类别分类,因为一个人只能被识别为其中一种严重程度。 业务约束 在医疗领域,准确性和可解释性非常重要。因为错误的预测会导致忽视病情,可能夺走一个人的生命,我们没有任何严格的延迟关注,但我们必须对结果准确。 数据集描述 数据集包括3,662张已标记的临床患者视网膜图像,训练有素的临床专家根据糖尿病视网膜病变的严重程度对每个图像进行分类,如下所示。 0 — 无糖尿病视网膜病变, 1 — 轻度, 2 —…

Leave a Comment

SEER 自监督计算机视觉模型的突破?

在过去的十年中,人工智能(AI)和机器学习(ML)取得了巨大的进展如今,它们比以往任何时候都更加准确、高效和有能力现代的人工智能和机器学习模型可以无缝地准确识别图像或视频文件中的对象此外,它们还能够生成与人类智能相媲美的文本和语音[…]

Leave a Comment

“可能是补丁的原因吗?这种AI方法分析了视觉Transformer成功的关键因素”

卷积神经网络(CNN)一直是计算机视觉任务系统的基础。它们一直是各种问题的首选架构,从目标检测到图像超分辨率。事实上,深度学习领域的著名突破(例如AlexNet)之所以能够实现,得益于卷积神经网络。 然而,当基于Transformer模型的新架构——Vision Transformer(ViT)展示出有希望的结果并在大型数据集上优于经典的卷积架构时,情况发生了变化。从那时起,该领域一直在寻求为多年来使用CNN解决的问题提供基于ViT的解决方案。 ViT使用自注意力层来处理图像,但如果在像素级别上天真地应用,这些层的计算成本将随图像每个像素的数量呈二次倍增。因此,ViT首先将图像分成多个补丁,对其进行线性嵌入,然后直接将Transformer应用于这个补丁集合。 在原始ViT的成功之后,许多工作修改了ViT架构以提高其性能。替换自注意力层、进行其他小的改变等。虽然进行了所有这些改变,几乎所有的ViT架构都遵循一个共同且简单的模板。它们在整个网络中保持相等的大小和分辨率,并表现出各向同性的行为,通过在交替步骤中实现空间和通道混合来实现。此外,所有网络都使用补丁嵌入,这允许在网络开始时进行下采样,并促进了直接和统一的混合设计。 这种基于补丁的方法是所有ViT架构的常见设计选择,简化了整体设计过程。因此,问题就出现了。视觉变换器的成功主要是由于基于补丁的表示吗?还是由于使用了自注意力和MLP等先进且富有表现力的技术?视觉变换器的出色性能主要取决于哪个因素? 有一种方法可以找到答案,它被称为ConvMixer。 ConvMixer概述。来源:https://openreview.net/forum?id=rAnB7JSMXL ConvMixer是一种卷积架构,用于分析ViT的性能。它在许多方面与ViT非常相似:它直接处理图像补丁,在整个网络中保持一致的分辨率,并将通道混合与图像不同部分的空间混合分离开。 然而,关键的区别在于ConvMixer使用标准卷积层来实现这些操作,而不是Vision Transformer和MLP-Mixer模型中使用的自注意力机制。最终,由此得到的模型在计算能力方面更便宜,因为深度卷积和逐点卷积操作比自注意力和MLP层更便宜。 尽管极其简单,ConvMixer在某些参数数量相似的“标准”计算机视觉模型(例如ResNet)以及一些对应的ViT和MLP-Mixer变体之上表现出色。这表明基于补丁的各向同性混合架构是一种功能强大的基本原理,几乎适用于任何良好的混合操作选择。 ConvMixer是一类极其简单的模型,它独立地使用标准卷积来混合补丁嵌入的空间和通道位置。通过使用受ViT和MLP-Mixer大感受野启发的大内核大小,可以实现显著的性能提升。最后,ConvMixer可以作为未来基于补丁的架构的基准。

Leave a Comment

Can't find what you're looking for? Try refining your search: