Press "Enter" to skip to content

威斯康星大学麦迪逊分校的研究人员提出了Eventful Transformers:一种成本效益高、准确度损失最小的视频识别方法

威斯康星大学麦迪逊分校的研究人员提出了Eventful Transformers:一种成本效益高、准确度损失最小的视频识别方法 四海 第1张威斯康星大学麦迪逊分校的研究人员提出了Eventful Transformers:一种成本效益高、准确度损失最小的视频识别方法 四海 第2张

最初用于语言建模的Transformer最近被研究人员作为一种可能的视觉相关任务架构来进行研究。视觉Transformer在目标识别、图片分类和视频分类等应用中具有最先进的性能,在各种视觉识别问题上表现出色。视觉Transformer的高计算成本是其主要缺点之一。与标准卷积网络(CNN)相比,视觉Transformer有时需要更高的计算量,每张图片高达数百GFlops。视频处理中涉及的大量数据进一步增加了这些开销。这种有趣的技术的潜力受到了高计算需求的限制,这些需求阻止了视觉Transformer在资源有限或需要低延迟的设备上的使用。

这项工作由威斯康星大学麦迪逊分校的研究人员提出,旨在利用连续输入之间的时间冗余来降低视觉Transformer在处理视频数据时的成本。想象一下将视觉Transformer逐帧或逐段应用于视频序列。这个Transformer可能是一个简单的逐帧模型(如目标检测器)或者是一个时空模型中的过渡阶段(如初始分解模型)。与语言处理不同,他们将Transformer视为应用于时间上的几个不同输入(帧或片段),而不是代表整个序列的一个Transformer输入。自然电影具有很高的时间冗余度和帧间变化很小的特点。然而,尽管如此,深度网络(如Transformer)在每一帧上都经常被“从头开始”计算。

这种方法是低效的,因为它丢弃了先前结论中任何可能有用的数据。他们的主要观点是,他们可以通过重复使用先前时间步骤的中间计算来更好地利用冗余序列。智能推理。视觉Transformer(和深度网络一般)的推理成本通常由设计确定。然而,现实世界应用中可用的资源可能随着时间的推移而发生变化(例如,由于竞争进程或电源供应的变化)。因此,需要能够实时修改计算成本的模型。适应性是这项研究的主要设计目标之一,该方法旨在提供对计算成本的实时控制。有关他们如何在电影中更改计算预算的示例,请参见图1(下部分)。

威斯康星大学麦迪逊分校的研究人员提出了Eventful Transformers:一种成本效益高、准确度损失最小的视频识别方法 四海 第3张
图1:该策略利用了连续模型输入之间的时间重叠。 (上)他们仅检测和更新在每个Transformer块中随时间发生重大变化的令牌。 (下)他们的解决方案在提高效率的同时提供了对运行时计算成本的精细控制。

以前的研究已经研究了CNN的时间冗余和适应性。然而,由于Transformer和CNN之间存在重大的架构差异,这些方法通常与Transformer的视觉不兼容。尤其是,Transformer引入了一种新的原语——自注意力,这与多个基于CNN的方法有所不同。尽管存在这些障碍,视觉Transformer提供了巨大的可能性。将CNN的稀疏性增益(特别是通过考虑时间冗余所获得的稀疏性)转化为明显的加速是具有挑战性的。要做到这一点,必须对稀疏结构设置大约束条件,或者使用特殊的计算核心。相比之下,由于Transformer操作的本质是围绕令牌向量的操作,因此将稀疏性转化为更短的运行时间使用传统操作符更简单。具有事件的Transformer。

为了促进有效的自适应推理,他们提出了一种称为Eventful Transformers的新型Transformer,该Transformer利用输入之间的时间冗余。 “Eventful”一词是为了描述被称为事件相机的传感器,它们在响应场景变化时创建稀疏输出。Eventful Transformers选择性地在每个时间步更新令牌表示和自注意力图,以跟踪令牌级别的变化。门控模块是Eventful Transformer中的块,允许对更新的令牌数量进行运行时控制。他们的方法适用于各种视频处理应用,并可以用于预先构建的模型(通常无需重新训练)。他们的研究表明,基于当前最先进模型创建的Eventful Transformers可以大大降低计算成本,同时基本保持原始模型的准确性。

他们的源代码包含了用于创建Eventful Transformers的PyTorch模块,并向公众开放。Wisionlab的项目页面位于wisionlab.com/project/eventful-transformers。他们在CPU和GPU上展示了加速的实际时间。从技术角度来看,他们基于标准PyTorch操作符的方法可能不是最佳选择。他们确信通过进一步减少开销(例如构建用于门控逻辑的融合CUDA内核)可以进一步提高加速比。此外,他们的方法会导致一定的内存开销。毫不奇怪,保留某些张量在内存中是必要的,以便重用之前时间步骤的计算。

查看论文。本研究的所有功劳归功于该项目的研究人员。此外,别忘了加入我们的29k+机器学习SubReddit40k+ Facebook社区Discord频道电子邮件通讯,我们在那里分享最新的人工智能研究新闻、酷炫的人工智能项目等等。

如果你喜欢我们的工作,你会喜欢我们的通讯。

这篇文章来自威斯康星大学麦迪逊分校的研究人员,提出了Eventful Transformers:一种在视频识别中成本效益高且准确度损失最小的方法。该文章最初发表于MarkTechPost。

Leave a Reply

Your email address will not be published. Required fields are marked *