Press "Enter" to skip to content

本AI论文介绍了BioCLIP:利用TreeOfLife-10M数据集来改变生物学和保护中的计算机视觉

许多生物学的分支,包括生态学、进化生物学和生物多样性学,越来越多地将数字图像和计算机视觉作为研究工具。现代技术极大地提高了他们分析来自博物馆、相机陷阱和公民科学平台的大量图像的能力。这些数据随后可以用于物种划分、理解适应机制、估计种群结构和丰度,以及监测和保护生物多样性。

然而,当试图使用计算机视觉来解决生物学问题时,寻找和训练适合特定任务的合适模型,并手动标记足够的数据以用于特定物种和研究仍然是重大挑战。这需要大量的机器学习知识和时间。

来自俄亥俄州立大学、微软、加州大学欧文分校和伦斯勒理工学院的研究人员正在研究在该努力中构建“生命之树”基础视觉的模型。该模型必须满足以下要求,以便广泛适用于真实生物学任务。首先,它需要能够适应调查各种不同类群的研究人员,而不仅仅是一个类群,并且最好能够推广到整个生命之树。此外,它应该获取生物图像的细粒度表示,因为在生物学领域常常会遇到外观相似的生物体,例如同属或为了适应而模仿对方外观的近亲物种。由于生命之树将生物事物组织成广泛的群组(如动物、真菌和植物)和非常细粒度的群组,这种粒度水平是重要的。最后,在数据收集和标记在生物学中的高昂费用的情况下,具有低数据区域(即零样本或少样本)的优秀结果是至关重要的。

当前训练在数亿张图像上的通用领域视觉模型在应用于进化生物学和生态学时表现不佳,尽管这些目标对计算机视觉来说并不新鲜。研究人员确定了在生物学中创建视觉基础模型的两个主要障碍。首先,需要更好的预训练数据集,因为目前可用的数据集在规模、多样性或标签细粒度方面都不足。其次,由于当前的预训练算法不能很好地满足这三个主要目标,因此有必要找到更好的预训练方法,利用生物领域的独特特征。

考虑到这些目标和实现障碍,团队提出了以下内容:

  1. TREEOFLIFE-10M,一个庞大的ML准备生物学图片数据集
  2. BIOCLIP是一个基于适当类群在TREEOFLIFE-10M中进行训练的生命之树的视觉模型。

TREEOFLIFE-10M是一个广泛而多样的生物图像数据集,适用于ML。研究人员已经策划和发布了迄今为止最大的ML准备生物学图像数据集,其中包含超过1000万张照片,涵盖了生命之树上的45.4万个类群,并附带有分类标签。仅有270万张照片代表10,000个类群的iNat21是最大的ML准备生物学图像集合。现有的高质量数据集,如iNat21和BIOSCAN-1M,已纳入TREEOFLIFE-10M中。TREEOFLIFE-10M中的大部分数据多样性来自生命百科全书(eol.org),其中包含了该来源的最新选定的照片。TREEOFLIFE-10M中的每张图像的分类层次和更高分类排名都进行了最大程度的注释。借助TREEOFLIFE-10M,可以培训BIOCLIP和其他生物学的未来模型。

BIOCLIP是基于视觉的生命之树的表示。在像TREEOFLIFE10M这样的大规模标记数据集上训练视觉模型的一个常见且简单的方法是使用监督分类目标,从图像中学习预测分类标志。ResNet50和Swin Transformer也使用了这种策略。然而,这种方法忽视并没有利用复杂的分类系统——类群不是孤立存在的,而是在一个完整的分类系统中相互关联。因此,使用基本的监督分类进行训练的模型可能无法对未知的类群进行零样本分类或对训练期间不存在的类群进行很好的泛化。相反,团队采用了一种新方法,将BIOCLIP的广泛生物分类与CLIP风格的多模式对比学习相结合。通过使用CLIP对比学习目标,他们可以在将分类系统从王国级别扁平化为代表分类名称的字符串之后,学习将图片与相应的分类名称关联起来。当使用不可见的类群的分类名称时,BIOCLIP还可以进行零样本分类。

团队还建议并展示了一种混合文本类型训练技术的益处;这意味着他们保留了分类学名称的概括性,但在测试时更具灵活性,通过结合多种文本类型(例如,科学名称与通用名称)进行训练。例如,下游用户仍然可以使用通用物种名称,而BIOCLIP将表现出色。他们对BIOCLIP进行了全面评估,涵盖了涉及植物、动物和昆虫的十个细粒度图片分类数据集,以及一个专门策划的罕见物种数据集,在训练过程中未使用。BIOCLIP显著超过了CLIP和OpenCLIP,在少样本和零样本情况下,分别取得了平均绝对提升17%和18%的成绩。此外,它的内在分析可以解释BIOCLIP更好的泛化能力,表明它已经学习到了符合生命之树的分层表示。

尽管团队使用了CLIP目标来有效地学习数十万个分类群的视觉表示,BIOCLIP的训练仍然专注于分类。为了使BIOCLIP能够提取细粒度的特征级表示,他们计划在未来的工作中加入来自inaturalist.org的研究级照片,该网站拥有1亿张照片或更多,并收集物种外观的更详细的文本描述。

Leave a Reply

Your email address will not be published. Required fields are marked *