Press "Enter" to skip to content

SEER 自监督计算机视觉模型的突破?

在过去的十年中,人工智能(AI)和机器学习(ML)取得了巨大的进展。如今,它们比以往任何时候都更准确、高效和强大。现代AI和ML模型可以无缝地、准确地识别图像或视频文件中的物体。此外,它们能够生成与人类智能相媲美的文本和语音。

如今的AI和ML模型在很大程度上依赖于在标记的数据集上进行训练,这些数据集教会它们如何解释一段文本、识别图像或视频帧中的物体以及其他几项任务。

尽管AI和ML模型具有很强的能力,但它们并不完美,科学家们正在努力构建能够从所提供的信息中学习的模型,而不一定依赖于标记或注释的数据。这种方法被称为“自我监督学习”,它是构建超越当前AI模型能力的“常识”或背景知识来解决问题的最有效方法之一。

自我监督学习已经在自然语言处理领域取得了成果,它使开发人员能够训练能够处理大量数据的大型模型,并在自然语言推理、机器翻译和问答等领域取得了多项突破。

Facebook AI的SEER模型旨在最大限度地发挥自我监督学习在计算机视觉领域的能力。SEER(SElf SupERvised)是一种自我监督的计算机视觉学习模型,拥有超过十亿个参数,能够在没有适当注释或标签的情况下,从互联网上随机组合的图像中找到模式或学习。

计算机视觉中自我监督学习的必要性

数据注释或数据标记是机器学习和人工智能模型开发的预处理阶段。数据注释过程识别原始数据,如图像或视频帧,然后为模型添加标签以指定数据的上下文。这些标签使模型能够对数据进行准确的预测。

在开发计算机视觉模型时,开发人员面临的最大障碍和挑战之一是找到高质量的标记数据。如今的计算机视觉模型依赖这些标记或注释的数据集来学习识别图像中的模式。

数据注释及其在计算机视觉模型中的使用带来以下挑战:

管理一致的数据集质量

开发人员面临的最大障碍可能是始终获得高质量的数据集,因为具有适当标签和清晰图像的高质量数据集可以实现更好的学习和准确的模型。然而,始终获得高质量的数据集也面临着自身的挑战。

人力资源管理

数据标注通常涉及人力资源管理问题,主要是因为需要大量的工人来处理和标记大量的非结构化和无标签数据,同时确保质量。因此,开发人员需要在数据标注方面在质量和数量之间取得平衡。

财务限制

最大的障碍可能是伴随数据标注过程的财务限制,大部分时间,数据标注成本占整个项目成本的很大比例。

正如您所见,数据注释是开发先进的计算机视觉模型的主要障碍,特别是在开发涉及大量训练数据的复杂模型时。这就是为什么计算机视觉行业需要自我监督学习来开发更准确、更有能力、成本效益和可行性的复杂计算机视觉模型的原因。

话虽如此,已经有很多自我监督学习模型在受控环境中表现良好,主要是在ImageNet数据集上。尽管这些模型可能做得很好,但它们不满足计算机视觉中自我监督学习的主要条件:从任何无限数据集或随机图像中学习,而不仅仅是从定义良好的数据集中学习。在理想情况下,自我监督学习可以帮助开发更准确、更有能力的计算机视觉模型,同时具有成本效益和可行性。

SEER或自我监督模型:简介

AI和机器学习行业最近的趋势表明,半监督、弱监督和自监督学习等模型预训练方法可以显著提高大多数深度学习模型在下游任务中的性能。

有两个关键因素对这些深度学习模型性能的提升做出了巨大贡献。

大规模数据集上的预训练

在大规模数据集上进行预训练通常会导致更好的准确性和性能,因为它使模型接触到各种各样的数据。大量的数据集可以使模型更好地理解数据中的模式,并最终使模型在实际情况下表现更好。

像GPT-3模型和Wav2vec 2.0模型这样的性能最佳模型都是在大规模数据集上训练的。GPT-3语言模型使用的预训练数据集包含超过3000亿个单词,而用于语音识别的Wav2vec 2.0模型使用的数据集包含超过53000小时的音频数据。

具有大规模容量的模型

具有更多参数的模型通常会产生准确的结果,因为更多的参数使模型只关注数据中必要的对象,而不是干扰或噪声。

过去的开发者曾尝试使用不带标签或未筛选的较小数据集对自监督学习模型进行训练,但这些数据集只包含几百万张图像。但是,当自监督学习模型在大量未标记和未筛选的数据上进行训练时,它们能够产生高准确性吗?这正是SEER模型试图回答的问题。

SEER模型是一个深度学习框架,旨在独立于策划或标记的数据集上注册互联网上的图像。SEER框架允许开发者在没有监督的情况下对随机数据进行大规模复杂ML模型的训练,即模型自行分析数据并学习模式或信息,无需任何额外的手动输入。

SEER模型的最终目标是帮助开发出使用未筛选数据进行预训练的策略,以在迁移学习中提供一流的卓越性能。此外,SEER模型还旨在创建能够以自监督的方式持续学习来自无休止的数据流的系统。

SEER框架在从互联网上提取的数十亿个随机非约束图像上训练高容量模型。这些模型训练时不依赖于图像元数据或注释来训练模型或过滤数据。近年来,自监督学习在使用未筛选数据训练模型时表现出了很高的潜力,与用于下游任务的监督预训练模型相比,效果更好。

SEER框架和RegNet:它们有什么关联?

为了分析SEER模型,它专注于RegNet架构,该架构具有超过7亿个参数,与SEER在未筛选数据上进行自监督学习的目标相吻合,原因有两个:

  1. 它们在性能和效率之间取得了完美的平衡。
  2. 它们非常灵活,可以用于扩展参数。

SEER 自监督计算机视觉模型的突破? 四海 第1张

SEER框架:不同领域的先前工作

SEER框架旨在通过自监督学习在未筛选或未标记的数据集上训练大型模型架构,并从该领域的先前工作中汲取灵感。

视觉特征的无监督预训练

自监督学习在计算机视觉领域已经实施了一段时间,使用自动编码器、实例级别的区分或聚类等方法。近年来,使用对比学习的方法表明,使用无监督学习为下游任务预训练模型可以比监督学习方法更好地发挥作用。

从无监督学习视觉特征中的主要收获是,只要在过滤后的数据上进行训练,就不需要监督标签。SEER模型旨在探索当大型模型架构在大量未筛选、无标签和随机图像上进行训练时,模型是否能够学习准确的表示。

大规模学习视觉特征

以往的模型受益于在大型标记数据集上进行预训练,使用弱监督学习、监督学习和半监督学习对数百万个经过过滤的图像进行训练。此外,模型分析还表明,与从头开始训练模型相比,将模型预训练到数十亿个图像上通常会产生更高的准确性。

此外,将模型训练在大规模上通常依赖于数据过滤步骤,使图像与目标概念产生共鸣。这些过滤步骤要么利用预训练分类器的预测结果,要么使用经常是ImageNet类别的哈希标签。SEER模型的工作方式不同,它旨在学习任意随机图像中的特征,因此SEER模型的训练数据不是为了与预定义的特征或概念集相匹配而策划的。

图像识别的扩展架构

通常情况下,模型受益于在质量更好的视觉特征上训练大型架构。当对大型数据集进行预训练很重要时,训练大型架构至关重要,因为容量有限的模型往往会欠拟合。当预训练与对比学习同时进行时,这一点甚至更加重要,因为在这种情况下,模型必须学会区分数据实例,以便学习更好的视觉表示。

然而,对于图像识别来说,扩展架构涉及的远不止改变模型的深度和宽度,要构建一个具有更高容量的规模高效模型,需要投入大量的文献研究。SEER模型展示了在大规模上使用RegNets模型系列进行自监督学习的好处。

SEER:方法和组件的使用

SEER框架使用各种方法和组件预训练模型以学习视觉表示。SEER框架使用的一些主要方法和组件包括:RegNet和SwAV。让我们简要讨论SEER框架中使用的方法和组件。

使用SwAV进行自监督预训练

SEER框架使用SwAV进行预训练,这是一种在线自监督学习方法。SwAV是一种无需注释的在线聚类方法,用于训练卷积网络框架。SwAV框架通过训练产生在同一图像的不同视图之间保持一致的聚类分配的嵌入。然后,系统通过挖掘对数据增强不变的聚类来学习语义表示。

在实践中,SwAV框架通过利用不同视图的特征之间的比较来比较图像的不同视图的特征。如果这些分配捕捉到相同或相似的特征,就可以使用另一个视图的特征来预测一个图像的分配。

SEER模型考虑了一组K个聚类,每个聚类与一个可学习的d维向量vk相关联。对于一批B个图像,每个图像i被转换为两个不同的视图:xi1和xi2。然后,利用卷积网络对视图进行特征化,得到两组特征:(f11, …, fB2)和(f12, …, fB2)。然后,每个特征集通过一个最优输运求解器独立地分配给聚类原型。

最优输运求解器确保特征在聚类之间均匀分配,并帮助避免将所有表示映射到单个原型的平凡解决方案。然后,将生成的分配在两个集合之间交换:需要使用视图xi2的特征表示fi2来预测视图xi1的聚类分配yi1,反之亦然。

然后,对原型权重和卷积网络进行训练,以最小化所有示例的损失。聚类预测损失l实质上是特征f和聚类分配的点积的softmax之间的交叉熵。

SEER 自监督计算机视觉模型的突破? 四海 第2张

RegNetY:高效模型家族

扩展模型容量和数据需要的是既在内存上高效,又在运行时高效的架构,而RegNets框架就是专为此目的设计的模型家族。

RegNet体系结构由设计空间中的4个阶段的卷积网络组成,每个阶段包含一系列相同的块,同时保证块的结构保持固定,主要是残差瓶颈块。

SEER框架专注于RegNetY体系结构,并在标准RegNets体系结构中添加了“挤压和激励”以改善其性能。此外,RegNetY模型具有5个参数,有助于在消耗合理资源的固定FLOP数量的搜索中找到良好的实例。SEER模型旨在通过在自监督预训练任务中直接实现RegNetY体系结构来改善其结果。

RegNetY 256GF体系结构:SEER模型主要专注于RegNetY 256GF体系结构,在RegNetY家族中使用了RegNets体系结构的缩放规则。参数的描述如下。

SEER 自监督计算机视觉模型的突破? 四海 第3张

RegNetY 256GF体系结构有4个阶段,阶段宽度分别为(528, 1056, 2904, 7392),阶段深度为(2, 7, 17, 1),总共超过6.96亿个参数。在使用512个V100 32GB NVIDIA GPU进行训练时,每次迭代需要约6125ms,批量大小为8704张图像。在超过10亿张图像的数据集上,使用512个GPU以8704张图像的批量大小进行训练,需要114,890次迭代,训练持续约8天。

规模化的优化和训练

SEER模型提出了几种调整方法,以对自监督方法进行训练,并将这些方法应用到大规模上。这些方法包括:

  1. 学习率调度。
  2. 减少每个GPU的内存消耗。
  3. 优化训练速度。
  4. 在大规模上进行预训练数据。

让我们简要讨论一下它们。

学习率调度

SEER模型探索了使用两种学习率调度的可能性:余弦波学习率调度固定学习率调度

余弦波学习率调度用于公平比较不同模型,因为它能够根据更新的次数进行自适应调整。然而,余弦波学习率调度不适用于大规模训练,主要是因为它根据图像在训练过程中的观察顺序对图像进行加权,并且在调度时使用完整的更新。

固定学习率调度将学习率保持不变,直到损失不下降,然后将学习率除以2。分析表明,固定学习率调度效果更好,因为它有助于使训练更具灵活性。然而,由于该模型只对10亿张图像进行训练,因此在训练其最大模型RegNet 256GF时,使用余弦波学习率进行训练。

减少每个GPU的内存消耗

该模型还通过利用混合精度和渐进式检查点来减少训练期间所需的GPU数量。该模型利用NVIDIA Apex Library的O1优化级,在16位浮点精度下执行卷积和GEMM等操作。该模型还使用了PyTorch的梯度检查点实现,通过交换计算量来节省内存。

此外,该模型还会在前向传递期间丢弃任何中间激活,并在后向传递期间重新计算这些激活。

优化训练速度

使用混合精度来优化内存使用还具有额外的好处,因为加速器利用FP16的尺寸减小,从而在与FP32相比时提高吞吐量。它有助于通过改善内存带宽瓶颈来加快训练速度。

SEER模型还通过在多个GPU上创建进程组来同步BatchNorm层,而不是使用通常需要更长时间的全局同步。最后,SEER模型中使用的数据加载器预提取更多的训练批次,从而在与PyTorch的数据加载器相比,提高了数据吞吐量。

大规模预训练数据

SEER模型在预训练期间使用了超过十亿张图像,并考虑到一个从互联网和Instagram直接采样随机图像的数据加载器。由于SEER模型在野外和在线训练这些图像,因此不对这些图像应用任何预处理,也不使用去重或标签过滤等处理对其进行精选。

<p 值得注意的是,数据集是动态的,数据集中的图像每三个月刷新一次。但是,刷新数据集不会影响模型的性能。

SEER模型实现

SEER模型使用RegNetY 256GF和SwAV进行预训练,每个图像使用六个裁剪,在每个图像的分辨率为2×224 + 4×96。在预训练阶段,该模型使用一个三层MLP或多层感知器,具有10444×8192、8192×8192和8192×256的投影头尺寸。

SEER模型在头部不使用BatchNorm层,而是使用了1.6万个原型,并将温度t设置为0.1。Sinkhorn正则化参数设置为0.05,并执行10次迭代算法。该模型还在GPU上同步BatchNorm统计信息,并创建了多个大小为64的进程组进行同步。

此外,该模型使用了LARS(Layer-wise Adaptive Rate Scaling)优化器,权重衰减为10-5,使用了激活检查点和O1混合精度优化。然后,使用随机梯度下降对模型进行训练,使用8192个随机图像的批量大小分布在512个NVIDIA GPU上,每个GPU有16个图像。

学习率从0.15线性增加到9.6,前8000个训练更新。热身结束后,模型遵循余弦学习率调度,衰减到最终值0.0096。总体而言,SEER模型在122,000次迭代中训练了超过十亿张图像。

SEER框架:结果

自监督预训练方法生成的特征质量在各种基准测试和下游任务中进行了研究和分析。该模型还考虑了低样本设置,为下游任务提供了对图像及其标签的有限访问权限。

微调大型预训练模型

通过将在随机数据上预训练的模型转移到ImageNet基准测试中进行对象分类来衡量其质量。对大型预训练模型进行微调的结果是基于以下参数确定的。

实验设置

该模型使用6个不同容量的RegNet架构,即RegNetY- {8,16,32,64,128,256}GF,在超过10亿个随机和公共Instagram图像上使用SwAV进行预训练。然后,将这些模型用于在ImageNet上进行图像分类,该数据集使用超过128万个标准训练图像和具有适当标签的标准验证集超过5万个图像进行评估。

该模型使用与SwAV相同的数据增强技术,并使用SGD优化器(随机梯度下降)进行35个epoch的微调,批量大小为256,学习率为0.0125,在30个epoch后降低10倍,动量为0.9,权重衰减为10-4。该模型使用224×224的中心裁剪对验证数据集报告top-1准确率。

与其他自监督预训练方法的比较

在下表中,将RegNetY-256GF中最大的预训练模型与使用自监督学习方法的现有预训练模型进行了比较。

SEER 自监督计算机视觉模型的突破? 四海 第4张

正如您所见,SEER模型在ImageNet上的Top-1准确率为84.2%,超过了现有最佳预训练模型SimCLRv2的1%。

此外,下图比较了SEER框架与不同容量的模型。可以看出,在预训练期间,将RegNet框架与SwAV结合使用可以获得准确的结果。

SEER 自监督计算机视觉模型的突破? 四海 第5张

SEER模型是在未经筛选和随机图像上进行预训练的,它们具有RegNet架构和SwAV自监督学习方法。将SEER模型与SimCLRv2和具有不同网络架构的ViT模型进行了比较。最后,模型在ImageNet数据集上进行了微调,并报告了Top-1准确率。

模型容量的影响

模型容量对预训练的模型性能有重要影响,下图将其与从头开始训练时的影响进行了比较。

SEER 自监督计算机视觉模型的突破? 四海 第6张

可以清楚地看到,预训练模型的Top-1准确率要高于从头开始训练的模型,并且随着参数数量的增加,差异越来越大。同时,可以明显看出,尽管模型容量对预训练和从头开始训练的模型都有益处,但对于处理大量参数时,对预训练模型的影响更大。

训练模型从头开始时可能出现过拟合的一个可能原因是ImageNet数据集的规模较小。

少样本学习

少样本学习是指在低样本设置下评估SEER模型的性能,即在执行下游任务时仅使用总数据的一小部分。

实验设置

SEER框架使用两个数据集进行少样本学习,即Places205和ImageNet。此外,该模型在迁移学习期间假设对数据集的访问受限,包括图像和标签。这种受限访问设置与用于自监督学习的默认设置不同,其中模型可以访问整个数据集,只有对图像标签的访问受限。

  • Places205数据集上的结果

下图显示了将模型预训练在Place205数据集的不同部分上的影响。

SEER 自监督计算机视觉模型的突破? 四海 第7张

所采用的方法与使用相同的RegNetY-128 GF架构在ImageNet数据集上监督预训练模型进行对比。比较结果令人惊讶,无论可用于对Places205数据集进行微调的训练数据部分是多少,都可以观察到约2.5%的稳定提升的Top-1准确率。

监督和自监督预训练过程之间观察到的差异可以解释为训练数据性质的差异,因为模型从野外的随机图像中学到的特征可能更适合对场景进行分类。此外,非均匀分布的概念可能对在不平衡数据集(如Places205)上进行预训练有优势。

ImageNet上的结果

SEER 自监督计算机视觉模型的突破? 四海 第8张

上表将SEER模型的方法与自监督预训练方法和半监督方法在少样本学习上进行了比较。值得注意的是,所有这些方法都使用ImageNet数据集中的全部120万个图像进行预训练,只限制对标签的访问。另一方面,SEER模型使用的方法只允许它看到数据集中的1%到10%的图像。

随着网络在预训练过程中看到了来自相同分布的更多图像,这对这些方法有着巨大的好处。但令人印象深刻的是,尽管SEER模型仅仅看到了ImageNet数据集的1%到10%,它仍然能够达到约80%的top-1准确率,这几乎接近了上表中讨论的方法的准确率。

模型容量的影响

下图讨论了模型容量对低样本学习的影响:在ImageNet数据集的1%、10%和100%。

SEER 自监督计算机视觉模型的突破? 四海 第9张

可以观察到,增加模型容量可以提高模型的准确率,因为它减少了对数据集中图像和标签的访问。

转移到其他基准

为了进一步评估SEER模型并分析其性能,预训练特征被转移到其他下游任务中。

图像分类的线性评估

SEER 自监督计算机视觉模型的突破? 四海 第10张

上表比较了SEER预训练的RegNetY-256GF和RegNetY128-GF的特征与具有相同架构但没有监督的ImageNet数据集的预训练特征。为了分析特征的质量,模型冻结权重,并在特征之上使用线性分类器使用训练集进行下游任务。此过程考虑以下基准:Open-Images(OpIm)、iNaturalist(iNat)、Places205(Places)和Pascal VOC(VOC)。

检测和分割

下图比较了在检测和分割上预训练的特征,并对其进行评估。

SEER 自监督计算机视觉模型的突破? 四海 第11张

SEER框架使用预训练的RegNetY-64GF和RegNetY-128GF作为构建块,在COCO基准上训练了一个Mask-RCNN模型。在架构和下游任务方面,SEER的自监督预训练方法在AP点上优于有监督训练1.5至2个。

与弱监督预训练的比较

互联网上的大多数图像通常有元描述、alt文本、描述或地理位置信息,这些信息在预训练过程中可以提供支持。先前的研究表明,预测一组精心筛选或标记的标签可以提高预测结果的视觉特征质量。然而,这种方法需要筛选图像,并且仅在存在文本元数据时效果最好。

下图比较了在随机图像上训练的ResNetXt101-32dx8d架构的预训练与在带有标签图像和元数据的相同架构上训练的预训练,并报告了两者的top-1准确率。

SEER 自监督计算机视觉模型的突破? 四海 第12张

可以看出,尽管SEER框架在预训练过程中不使用元数据,但其准确率与使用元数据进行预训练的模型相当。

消融研究

消融研究用于分析特定组件对模型整体性能的影响。通过完全删除模型中的某个组件来进行消融研究,并了解模型的表现如何。这为开发者提供了关于该特定组件对模型性能的影响的简要概述。

模型架构的影响

模型架构对模型的性能有着重要影响,特别是当模型被扩展或预训练数据的规格被修改时。

下图讨论了改变架构如何影响评估ImageNet数据集时预训练特征的质量。在这种情况下,可以直接探测预训练特征,因为评估不偏向从头开始在ImageNet数据集上训练时返回高准确率的模型。

SEER 自监督计算机视觉模型的突破? 四海 第13张

可以观察到,对于ResNeXts和ResNet架构,从倒数第二层获取的特征在当前设置下效果更好。另一方面,RegNet架构优于其他架构。

总体而言,可以得出结论,增加模型容量对特征质量有积极影响,并且模型性能呈对数增长。

扩大预训练数据规模

训练模型在更大的数据集上能够提高模型学习到的视觉特征的整体质量有两个主要原因:更多独特的图像和更多参数。让我们简要看一下这些原因如何影响模型性能。

增加独特图像的数量

SEER 自监督计算机视觉模型的突破? 四海 第14张

上图比较了两种不同的架构,RegNet8和RegNet16,它们具有相同数量的参数,但是它们在不同数量的独特图像上进行训练。SEER框架为模型训练提供了对应于10亿图像的更新,或者对应于32个独特图像的32个时期,并采用单半波余弦学习率。

可以观察到,要使模型表现良好,馈送给模型的独特图像数量理想情况下应该更高。在这种情况下,当模型被馈送的独特图像数量大于ImageNet数据集中的图像数量时,模型表现良好。

更多参数

下图显示了使用RegNet-128GF架构在10亿图像上训练时,模型性能的变化。可以观察到,当参数数量增加时,模型的性能稳步提升。

SEER 自监督计算机视觉模型的突破? 四海 第15张

现实世界中的自监督计算机视觉

到目前为止,我们已经讨论了自监督学习和SEER计算机视觉模型的工作原理。现在,让我们来看看自监督计算机视觉在真实世界场景中的应用,以及为什么SEER是自监督计算机视觉的未来。

SEER模型可以与自然语言处理行业中的工作相媲美,高端的最先进模型在预训练模型时使用了数万亿的数据集和参数,以及数万亿的文本词汇。下游任务的性能通常随着用于训练模型的输入数据的增加而增加,计算机视觉任务也是如此。

但是,对自然语言处理使用自监督学习技术与对计算机视觉使用自监督学习有所不同。这是因为在处理文本时,语义概念通常被拆分为离散的单词,但在处理图像时,模型必须决定哪些像素属于哪个概念。

此外,不同的图像具有不同的视角,即使多个图像可能具有相同的对象,概念也可能有显着差异。例如,考虑一个包含猫图像的数据集。尽管主要对象猫在所有图像中都是共同的,但是概念可能因猫在一张图像中静止而在下一张图像中与球玩耍等而有显着差异。因为图像通常具有不同的概念,所以对于模型来说,有必要查看大量图像以掌握相同概念周围的差异。

成功地将模型扩展到可以高效处理高维度和复杂的图像数据需要两个组成部分:

  1. 足够大的卷积神经网络(CNN),可以从非常大的图像数据集中捕获并学习视觉概念。
  2. 一种可以从大量图像中学习模式的算法,不需要任何标签、注释或元数据。

SEER模型旨在将上述组件应用于计算机视觉领域。SEER模型旨在利用SwAV的进展,SwAV是一种使用在线聚类将具有相似视觉概念的图像分组或配对的自监督学习框架,并利用这些相似性更好地识别模式。

SEER 自监督计算机视觉模型的突破? 四海 第1张

通过SwAV架构,SEER模型能够更有效地利用自监督学习在计算机视觉中,并将训练时间缩短最多6倍。

此外,在大规模训练模型时,超过10亿张图片需要一个既能在运行时间和内存方面高效,又能在准确性方面进行优化的模型架构。这就是RegNet模型的应用,因为这些RegNet模型是可以扩展到数万亿参数的ConvNets模型,并且可以根据内存限制和运行时间规定进行优化。

结论:自监督学习的未来

自监督学习一直是人工智能和机器学习行业的重要话题,因为它使得AI模型能够直接从互联网上随机可用的大量数据中学习信息,而不是依赖于经过精心策划和标记的数据集,这些数据集的唯一目的是为了训练AI模型。

自监督学习对于AI和机器学习的未来至关重要,因为它有潜力让开发人员创建适应真实世界场景的AI模型,并具有多个用途,而不仅仅是具有特定目的,而SEER是在计算机视觉行业中实施自监督学习的一个重要里程碑。

SEER模型迈出了计算机视觉行业转型的第一步,减少了我们对标记数据集的依赖。SEER模型旨在消除对数据集进行注释的需求,这将使开发人员能够处理各种多样化的大量数据。SEER的实施对于在具有有限图像或元数据的领域(如医疗行业)工作的开发人员尤其有帮助。

此外,消除人工注释将使开发人员能够更快地开发和部署模型,从而使他们能够更快、更准确地应对快速发展的情况。

Leave a Reply

Your email address will not be published. Required fields are marked *