Press "Enter" to skip to content

CVPR 2023的笔记

在加拿大广场附近的几天……

CVPR 2023在温哥华会议中心。来源:作者

我很幸运能够参加CVPR——计算机视觉和模式识别的首要会议,于2023年6月18日至22日在加拿大卑诗省温哥华温哥华会议中心举行。有太多有趣的研讨会、教程和会议——有时是并行的。我学到了很多知识,仍在研究一些会后的论文和视频。在这篇文章中,我将分享其中的一些。

关于ViTs的一切:理解和解释视觉中的注意力

这是由Hila Chefer和Sayak Paul组织的非常清晰易懂的教程。Hila在注意力/Transformer可解释性方面做了大量的工作,并且是一个出色的演讲者。在我看来,她的工作非常重要,因为我认为很少有人工智能从业者真正了解Transformer的内部工作原理并能解释结果。这是因为他们没有正确的工具集。Hila的工作实际上可以成为更好理解基于Transformer的模型的途径——而这在未来基本上是一切。详情:https://all-things-vits.github.io/atv/

研讨会:长篇视频理解与生成

这个研讨会涉及到我工作中的一些有趣挑战,比如视频事件边界检测、事件边界字幕等。由于我参加了上面的教程,所以无法参加这个研讨会,但我想提一下以备将来参考。更多详情,请访问https://sites.google.com/view/loveucvpr23

研讨会:多模态开放领域推理

DeepMind Flamingo论文的作者之一Karel Lenc在Flamingo上分享了他关于“评估和训练具有视觉能力的大型语言模型”的工作。Karel分享了模型架构——一个仅有解码器的基于Transformer的网络。Flamingo的视觉处理类似于CLIP,但与ViT不同,Flamingo使用NFNet——将汇聚层从网络中移除,并直接使用图像特征向量进行处理。它提出了一种名为“感知器重采样器”的新颖重采样技术,用于视觉处理内部。他们还使用了一种新颖的“门控交叉……

Leave a Reply

Your email address will not be published. Required fields are marked *