Press "Enter" to skip to content

“解锁视觉Transformer中的效率:稀疏移动视觉MoEs在资源受限应用中胜过密集对应物”

“解锁视觉Transformer中的效率:稀疏移动视觉MoEs在资源受限应用中胜过密集对应物” 四海 第1张“解锁视觉Transformer中的效率:稀疏移动视觉MoEs在资源受限应用中胜过密集对应物” 四海 第2张

一种称为Mixture-of-Experts (MoE)的神经网络架构将各种专家神经网络的预测结果结合起来。MoE模型处理复杂的工作,其中问题的几个子任务或元素需要专门的知识。它们的引入是为了增强神经网络的表示能力,并使其能够处理各种具有挑战性的任务。

此外,一种称为稀疏门控Mixture-of-Experts (MoE)模型的神经网络架构通过在门控机制中添加稀疏性来扩展传统的MoE模型的概念。这些模型的创建旨在提高MoE设计的效率和可扩展性,使其能够处理大规模的任务,并降低计算成本。

由于它们能够在每个给定的输入标记上独占激活模型参数的一小部分,它们可以将模型大小与推理效率分离。

在使用神经网络(NNs)时,尤其是当只有少量计算资源可用时,平衡性能和效率仍然是困难的。最近,稀疏门控Mixture-of-Experts模型(稀疏MoEs)被视为潜在的解决方案,它们可以将模型大小与推理效果分离。

稀疏MoEs提供了增加模型功能同时降低计算成本的可能性。这使得它们成为与Transformer集成的选择,后者是大规模视觉建模的主要架构选择。

因此,苹果研究团队在他们的论文《Mobile V-MoEs: Scaling Down Vision Transformers via Sparse Mixture-of-Experts》中介绍了稀疏Mobile Vision MoEs的概念。这些V-MoEs是一种高效、适用于移动设备的Mixture-of-Experts设计,能够在缩小视觉Transformer(ViTs)的同时保持卓越的模型性能。

研究人员强调他们开发了一种简单而强大的训练过程,通过利用语义超类来引导路由器训练,避免了专家不平衡的问题。它使用每个图像一个路由器,而不是每个补丁的路由器。在传统的每个补丁的路由器中,通常为每个图像激活更多的专家。然而,每个图像一个路由器减少了每个图像激活的专家数量。

研究团队通过训练基线模型开始训练阶段。然后,在训练数据集中保留的验证集上记录了模型的预测结果,创建了一个混淆矩阵。然后,使用这个混淆矩阵作为基础,对混淆图进行图聚类算法处理。由此过程形成了超类划分。

他们表示该模型在标准的ImageNet-1k分类基准测试上呈现了实证结果。他们从头开始在包含1.28M个图像的ImageNet-1k训练集上训练了所有模型,然后在包含50K个图像的验证集上评估了它们的Top-1准确率。

研究人员希望将MoE设计应用于除了ViTs之外的其他移动设备友好的模型。他们还打算考虑其他视觉任务,如目标检测。此外,他们希望对所有模型的实际设备延迟进行量化。

Leave a Reply

Your email address will not be published. Required fields are marked *