一个新的人工智能研究介绍了“识别任何东西模型（RAM）”：一种强大的图像标记基础模型

一个新的人工智能研究介绍了“识别任何东西模型（RAM）”：一种强大的图像标记基础模型计算科学第1张

在自然语言处理（NLP）任务中，大型语言模型（LLM）在大规模在线数据集上训练表现出色。通过扩大数据规模，分割任何模型（SAM）在计算机视觉（CV）中显示出了出色的零样本定位能力。

不幸的是，SAM 无法生成语义标签，这是与定位相当的基本任务。多标签图像识别是识别单个图像的多个标签的目标，也称为图像标记。由于图像包含各种标签，包括对象、场景、属性和活动，图像标记是一个重要且有用的计算机视觉问题。

以下是阻碍图像标记的两个主要因素：

高质量数据的广泛收集。目前仍缺乏一个能够半自动或自动注释各类大量照片的高效数据注释引擎，以及一个标准化和全面的标记系统。
建立起足够的开放词汇表和强大的模型，采用高效灵活的模型设计，利用大规模的弱监督数据。

识别任何模型（RAM）是一个强大的图像标记基础模型，由OPPO研究院、国际数字经济学院（IDEA）和AI2机器人的研究人员刚刚推出。在数据方面，RAM可以克服标签系统不足、数据集不足、数据引擎低效和架构限制等问题。

研究人员首先创建了标准的全球命名约定。他们使用学术数据集（分类、检测和分割）和商业标记工具（Google、Microsoft和Apple）来丰富他们的标记系统。通过将所有可用的公共标记与常见的基于文本的标记相结合，标记方法产生6,449个标签，共同解决了绝大部分用例。研究人员表示，可以使用开放集识别来识别其余的开放词汇标签。

自动注释大规模照片使用标签系统是一项具有挑战性的任务。图像标记的提出方法受到了该领域以前的工作的启发，该领域使用大规模的公共图像文本对来训练强大的视觉模型。为了将这些大量的图片文本数据用于标记，团队采用了自动文本语义解析来提取图像标签。通过这种方法，他们可以在不依赖手动注释的情况下，基于图像文本对获得大量的图片标签。

因为互联网来源的图像文本组合往往存在随机噪声，所以团队创建了数据标记引擎来提高注释准确性。为了解决缺少标签的问题，他们采用现有模型来产生补充分类。在处理错误标记区域时，他们确定图像中与不同标签相关的某些部分，然后使用区域聚类方法查找和消除同一类别内的异常值。此外，还删除做出不一致预测的标签，以获得更精确的注释。

RAM通过为标签搜索添加语义上下文，允许对新颖类别进行泛化。RAM的识别能力可以通过这种模型架构为任何视觉数据集提高。通过展示一个在嘈杂的、无注释的数据上训练的通用模型可以击败高度监督的模型，RAM引入了一种新的图像标记范式。RAM需要一个免费且公开可用的没有注释的数据集。RAM的最强大版本只需在8个A100 GPU上训练三天。

据团队表示，RAM仍有改进的空间。这包括运行多个数据引擎迭代、增加骨干参数以提高模型容量，以及扩展训练数据集超过1400万张照片，以更好地覆盖不同领域。