谷歌研究人员介绍了RO-ViT：一种简单的人工智能方法，以区域感知的方式预训练视觉变换器，以提高开放词汇检测能力

谷歌研究人员介绍了RO-ViT：一种简单的人工智能方法，以区域感知的方式预训练视觉变换器，以提高开放词汇检测能力四海第1张

近年来的进步使计算机能够像人类视觉一样解释和理解来自世界的视觉信息。它涉及处理、分析和从图像和视频中提取有意义的信息。计算机视觉使需要视觉解释的任务自动化，减少了手动干预的需要。目标检测是一项计算机视觉任务，涉及在图像或视频帧中识别和定位多个感兴趣的对象。

目标检测的目标是确定场景中存在哪些对象，并提供关于它们在图像中的位置的信息。大多数现代目标检测器依赖于区域和类别标签的手动注释，这限制了它们的词汇量大小，并使进一步扩展变得昂贵。

与此相反，可以使用视觉语言模型（VLM）来填补图像级预训练和对象级微调之间的差距。然而，在这些模型的预训练过程中，需要充分利用对象/区域的概念。

Google Brain的研究人员提出了一种简单的模型来填补图像级预训练和对象级微调之间的差距。他们提出了区域感知开放词汇视觉变换器（RO-ViT）来完成这个任务。

RO-ViT是一种简单的方式，以区域感知的方式预训练视觉变换器，用于开放词汇对象检测。标准的预训练需要完整的图像位置嵌入。相反，研究人员随机裁剪和调整位置嵌入的区域，而不是使用整个图像的位置嵌入。他们称这种方法为“裁剪位置嵌入”。

团队展示了使用聚焦损失的图像-文本预训练比现有的softmax CE损失更有效。他们还提出了各种新颖的目标检测技术。他们认为，现有方法在对象提议阶段经常会错过新颖的对象，因为这些提议通常需要更加平衡。

该团队表示，他们的模型RO-ViT在LVIS开放词汇检测基准测试中达到了最先进的水平。他们的统计数据显示，在12个图像-文本检索基准测试指标中，它在9个指标上取得了最好的成绩。这反映出在区域级别上学到的表示对开放词汇检测非常有益且高效。

随着目标检测技术的不断发展，负责任的开发、部署和监管将至关重要，以确保其积极影响的最大化，同时减轻潜在风险。总体而言，目标检测技术的持续进步有望通过革新产业、提高安全和生活质量，并实现曾被视为科幻的创新，为更加光明的未来做出贡献。

查看论文和Google博客。该研究的所有荣誉归于该项目的研究人员。还请不要忘记加入我们的29k+ ML SubReddit、40k+ Facebook社群、Discord频道和邮件订阅，我们会分享最新的人工智能研究新闻、有趣的人工智能项目等。

如果你喜欢我们的工作，你会喜欢我们的新闻通讯..

这篇文章最初发表于MarkTechPost。