Press "Enter" to skip to content

“可能是补丁的原因吗?这种AI方法分析了视觉Transformer成功的关键因素”

“可能是补丁的原因吗?这种AI方法分析了视觉Transformer成功的关键因素” 四海 第1张“可能是补丁的原因吗?这种AI方法分析了视觉Transformer成功的关键因素” 四海 第2张

卷积神经网络(CNN)一直是计算机视觉任务系统的基础。它们一直是各种问题的首选架构,从目标检测到图像超分辨率。事实上,深度学习领域的著名突破(例如AlexNet)之所以能够实现,得益于卷积神经网络。

然而,当基于Transformer模型的新架构——Vision Transformer(ViT)展示出有希望的结果并在大型数据集上优于经典的卷积架构时,情况发生了变化。从那时起,该领域一直在寻求为多年来使用CNN解决的问题提供基于ViT的解决方案。

ViT使用自注意力层来处理图像,但如果在像素级别上天真地应用,这些层的计算成本将随图像每个像素的数量呈二次倍增。因此,ViT首先将图像分成多个补丁,对其进行线性嵌入,然后直接将Transformer应用于这个补丁集合。

在原始ViT的成功之后,许多工作修改了ViT架构以提高其性能。替换自注意力层、进行其他小的改变等。虽然进行了所有这些改变,几乎所有的ViT架构都遵循一个共同且简单的模板。它们在整个网络中保持相等的大小和分辨率,并表现出各向同性的行为,通过在交替步骤中实现空间和通道混合来实现。此外,所有网络都使用补丁嵌入,这允许在网络开始时进行下采样,并促进了直接和统一的混合设计。

“可能是补丁的原因吗?这种AI方法分析了视觉Transformer成功的关键因素” 四海 第3张

这种基于补丁的方法是所有ViT架构的常见设计选择,简化了整体设计过程。因此,问题就出现了。视觉变换器的成功主要是由于基于补丁的表示吗?还是由于使用了自注意力和MLP等先进且富有表现力的技术?视觉变换器的出色性能主要取决于哪个因素?

有一种方法可以找到答案,它被称为ConvMixer。

“可能是补丁的原因吗?这种AI方法分析了视觉Transformer成功的关键因素” 四海 第4张
ConvMixer概述。来源:https://openreview.net/forum?id=rAnB7JSMXL

ConvMixer是一种卷积架构,用于分析ViT的性能。它在许多方面与ViT非常相似:它直接处理图像补丁,在整个网络中保持一致的分辨率,并将通道混合与图像不同部分的空间混合分离开。

然而,关键的区别在于ConvMixer使用标准卷积层来实现这些操作,而不是Vision Transformer和MLP-Mixer模型中使用的自注意力机制。最终,由此得到的模型在计算能力方面更便宜,因为深度卷积和逐点卷积操作比自注意力和MLP层更便宜。

尽管极其简单,ConvMixer在某些参数数量相似的“标准”计算机视觉模型(例如ResNet)以及一些对应的ViT和MLP-Mixer变体之上表现出色。这表明基于补丁的各向同性混合架构是一种功能强大的基本原理,几乎适用于任何良好的混合操作选择。

ConvMixer是一类极其简单的模型,它独立地使用标准卷积来混合补丁嵌入的空间和通道位置。通过使用受ViT和MLP-Mixer大感受野启发的大内核大小,可以实现显著的性能提升。最后,ConvMixer可以作为未来基于补丁的架构的基准。

Leave a Reply

Your email address will not be published. Required fields are marked *