Press "Enter" to skip to content

Tag: object detection

介绍OWLv2:谷歌在零样本目标检测方面的突破

介绍 2023年即将结束,对计算机视觉界而言,令人兴奋的消息是,谷歌最近在零样本目标检测领域取得了重大进展,并发布了OWLv2。这款尖端模型现在已经在🤗 Transformers中可用,并代表着迄今为止最强大的零样本目标检测系统之一。它基于去年推出的OWL-ViT v1模型打下了坚实的基础。 在本文中,我们将介绍该模型的行为和架构,并展示如何进行推理的实践方法。让我们开始吧。 学习目标 了解计算机视觉中零样本目标检测的概念。 了解谷歌OWLv2模型背后的技术和自我训练方法。 使用OWLv2的实际方法。 本文作为Data Science Blogathon的一部分发表。 OWLv2背后的技术 OWLv2的强大能力归功于其新颖的自我训练方法。该模型在一个包含超过10亿个示例的Web规模数据集上进行了训练。为了实现这一点,作者利用了OWL-ViT v1的强大功能,使用它生成伪标签,然后用这些伪标签来训练OWLv2。 此外,该模型还在检测数据上进行了微调,从而提高了其前身OWL-ViT v1的性能。自我训练为开放世界定位提供了Web规模的训练,与目标分类和语言建模领域的趋势相呼应。 OWLv2架构 尽管OWLv2的架构与OWL-ViT相似,但其目标检测头部有一个显著的补充。现在它包括一个目标性分类器,用于预测预测框中包含物体的可能性。目标性得分提供了洞察力,并可用于独立于文本查询对预测进行排序或筛选。 零样本目标检测 零样本学习是一个新的术语,自从GenAI的趋势以来变得流行起来。它通常在大型语言模型(LLM)的微调中见到。它涉及使用一些数据对基础模型进行微调,使其扩展到新的类别。零样本目标检测是计算机视觉领域的一个改变者。它的核心是使模型能够在图像中检测物体,而无需手工注释边界框。这不仅加快了处理速度,还减少了手工注释的需求,使其对人类更具吸引力和乐趣。 如何使用OWLv2? OWLv2遵循与OWL-ViT类似的方法,但使用了更新的图像处理器Owlv2ImageProcessor。此外,该模型依赖于CLIPTokenizer对文本进行编码。Owlv2Processor是一个方便的工具,结合了Owlv2ImageProcessor和CLIPTokenizer,简化了文本编码过程。以下是使用Owlv2Processor和Owlv2ForObjectDetection进行对象检测的示例。 在此处找到完整的代码:https://github.com/inuwamobarak/OWLv2 步骤1:设置环境…

Leave a Comment

使用Transformer检测图像中的表格行和列

介绍 您是否曾经处理过非结构化数据,并考虑过一种方式来检测文档中表格的存在?以帮助您快速处理您的文档?在本文中,我们将不仅了解如何检测表格的存在,还将通过使用Transformer模型来识别这些表格的结构。这将由两个不同的模型实现。一个用于文档中的表格检测,另一个用于结构识别,可以识别表格中的行和列。 学习目标 如何在图像中检测表格的行和列? Table Transformers和Detection Transformer(DETR)的介绍 PubTables-1M数据集概述 如何使用Table Transformer进行推理 文档、文章和PDF文件是有价值的信息来源,通常包含传递关键数据的表格。从这些表格中高效提取信息可能会面临不同格式和表示之间的挑战。手动复制或重新创建这些表格可能耗时且繁琐。在PubTables-1M数据集上训练的Table Transformers解决了表格检测、结构识别和功能分析的问题。 本文是Data Science Blogathon的一部分。 如何实现的? 这是通过一种名为Table Transformer的Transformer模型实现的。它使用了一个名为PubTables-1M的大型注释数据集,可以检测文章中的文档或图像。该数据集包含约一百万个参数,并采用了一些措施来给模型带来最新的感觉。通过解决不完美注释、空间对齐问题和表格结构一致性等挑战,实现了高效性。与该模型一起发布的研究论文利用了Detection Transformer(DETR)模型,用于联合建模表格结构识别(TSR)和功能分析(FA)。因此,DETR模型是Table Transformer运行的骨干,由微软研究开发。让我们更详细地了解一下DETR。 DEtection TRansformer(DETR) 如前所述,DETR是DEtection TRansformer的缩写,包括使用编码器-解码器Transformer的卷积骨干,例如ResNet架构。这使得它有潜力进行目标检测任务。DETR提供了一种不需要复杂模型(如Faster R-CNN和Mask…

Leave a Comment

NVIDIA的AI模型拯救地球,NASA提供资金支持

流星雨照亮夜空的景象令人惊叹。然而,更大的天体与地球相撞的威胁构成了实际的危险。为了对抗这种潜在的灾难,加利福尼亚大学圣塔芭芭拉分校(UCSB)物理学教授菲利普·卢宾和他的本科生团队正在开展开创性的PI-Terminal行星防御计划。他们的目标是更有效地检测和减轻空间威胁,并且他们最近获得了NASA的二期资金用于研究。NVIDIA通过他们的应用研究加速器计划向该团队提供了一张NVIDIA RTX A6000图形卡,以帮助他们完成任务。让我们深入了解这个旨在保护我们的星球免受宇宙威胁的创新人工智能项目的细节。 另请阅读:外星人启发的航天器设计:NASA进军太空未来的大胆跃进 粉碎空间威胁 PI-Terminal行星防御计划的核心目标是更早地检测到相关威胁并采取果断行动来最小化其影响。面对即将发生的碰撞,UCSB团队计划利用一系列高超速动能穿透器。这些专门设计的设备旨在粉碎和解体小行星或小彗星,有效地消除威胁,使其在到达地球表面之前消失。通过分解这些天体,可以大大减少潜在的损害和对地球生命的风险。 检测即将来临的灾难 识别威胁是保护地球的第一个至关重要的步骤。卢宾和他的学生们利用人工智能(AI)分析了大量的天体物理数据。虽然现代调查收集了大量数据,但在所需的速度下处理和分析这些信息是具有挑战性的。为了克服这一障碍,UCSB团队正在设计适用于行星防御的大规模调查。这项调查将产生更多的数据,需要快速处理和分析。 训练AI哨兵 卢宾的团队使用机器学习技术训练了一个名为“You Only Look Once Darknet”的神经网络。这个几乎实时的物体检测系统每张图像的操作时间少于25毫秒。通过利用一个大型的标记图像数据集,神经网络已经被训练来识别低级几何特征,例如线条、边缘、圆圈以及像小行星和小彗星这样的威胁。早期结果表明,由AI驱动的源提取过程比传统方法快10倍,准确率几乎提高了3倍。 另请阅读:AI发现了太阳系外的新行星,科学家未能找到 超级加速处理速度 为了加速他们的图像分析过程,UCSB团队已经整合了NVIDIA RTX A6000 GPU和CUDA并行计算平台。团队最初面临的挑战是减少处理时间并满足GPU内存需求。然而,由于RTX A6000拥有48GB的内存,他们可以处理复杂的图形和大型数据集,而不会影响性能。通过实施新的基于CuPy的算法,该团队极大地减少了减法和识别时间,使整个流程可以在仅六秒钟内运行。 解决技术挑战 随着项目的发展和越来越多的训练数据,该团队面临着处理越来越大的文件大小的挑战。RTX A6000慷慨的内存容量使该团队能够处理分辨率约为100百万像素的图像数据集。这个强大的GPU消除了数据传输瓶颈,确保了平稳的处理和分析。 逼真的模拟以获得精确的解决方案…

Leave a Comment