介绍DiffusionDet：一种利用扩散进行目标检测的人工智能（AI）模型

介绍DiffusionDet：一种利用扩散进行目标检测的人工智能（AI）模型四海第1张

目标检测是一种强大的技术，用于识别图像和视频中的物体。借助深度学习和计算机视觉的进展，它近年来取得了长足的发展。它有潜力在从交通和安全到医疗和零售的各个行业中引发革命。随着技术的不断改进，我们可以期待在目标检测领域看到更多令人兴奋的发展。

目标检测中的一个关键挑战是准确地定位图像中的物体。这涉及到确定物体是否存在以及确定其精确的位置和大小。

大多数目标检测器使用回归和分类技术的组合来识别图像中的物体。通常通过查看图像的特定区域，如滑动窗口或区域建议，并使用这些作为“引导”来帮助识别物体。其他方法，如锚框或参考点，也可以帮助目标检测。

尽管这些目标检测技术相对简单且有效，但它们依赖于一组固定的预定搜索条件。大多数情况下需要定义一组候选物体。然而，定义所有这些预定条件可能很繁琐。是否有一种更简化这个过程而无需这些预定搜索准则的方法？

腾讯的研究人员提出了DiffusionDet，这是一种在目标检测中使用的扩散模型。

在过去几个月中，扩散模型一直是人工智能界的关注中心，主要得益于稳定扩散模型的公开发布。简单来说，扩散模型将输入作为噪声，并逐渐去噪，遵循一定的规则，直到得到期望的输出。在稳定扩散的背景下，输入是通过文本提示获得的噪声图像，并且在逐渐去噪，直到获得与给定文本提示类似的图像。

那么，扩散方法如何用于目标检测？我们不是在生成新的东西，而是想知道给定图像中的物体。他们是如何做到的？

介绍DiffusionDet：一种利用扩散进行目标检测的人工智能（AI）模型四海第3张 — DiffusionDet的概览。来源：https://arxiv.org/pdf/2211.09788.pdf

在DiffusionDet中，设计了一种新颖的框架，用于直接从一组随机框中检测物体。这些框在训练期间不包含需要优化的可学习参数，预期通过噪声到框的方法逐渐精确地覆盖目标物体。

将这些框想象成输入噪声，这里的约束是它们应该包含一个物体。因此，最终我们希望得到一组包含不同物体的框。去噪步骤是逐渐改变框的大小和位置。这种方法不需要启发式的对象先验和可学习的查询，简化了物体候选的识别，并推动了检测流水线的发展。

介绍DiffusionDet：一种利用扩散进行目标检测的人工智能（AI）模型四海第4张 — DiffusionDet的框架。来源：https://arxiv.org/pdf/2211.09788.pdf

DiffusionDet将目标检测视为涉及图像中边界框位置和大小的生成任务。在训练过程中，通过方差调度控制的噪声被添加到地面实况框中，创建了带有噪声的框，然后使用这些框从骨干编码器的输出特征图中裁剪特征。然后，将这些特征发送到检测解码器，该解码器被训练以无噪声地预测地面实况框。这使得DiffusionDet能够从随机框中预测地面实况框。在推理时，DiffusionDet通过反向学习扩散过程并调整噪声先验分布到学习到的边界框分布来生成边界框。