Press "Enter" to skip to content

352 search results for "计算机视觉"

如何使用AWS原型实现ICL-Group在Amazon SageMaker上构建计算机视觉模型

这是由ICL和AWS员工共同撰写的客户帖子ICL是一家总部位于以色列的跨国制造和采矿公司,以独特矿物为基础生产产品,并满足人类的基本需求,主要涉及农业、食品和工程材料三个市场他们的采矿场地使用必须进行监控的工业设备

Leave a Comment

本AI论文介绍了BioCLIP:利用TreeOfLife-10M数据集来改变生物学和保护中的计算机视觉

许多生物学的分支,包括生态学、进化生物学和生物多样性学,越来越多地将数字图像和计算机视觉作为研究工具。现代技术极大地提高了他们分析来自博物馆、相机陷阱和公民科学平台的大量图像的能力。这些数据随后可以用于物种划分、理解适应机制、估计种群结构和丰度,以及监测和保护生物多样性。 然而,当试图使用计算机视觉来解决生物学问题时,寻找和训练适合特定任务的合适模型,并手动标记足够的数据以用于特定物种和研究仍然是重大挑战。这需要大量的机器学习知识和时间。 来自俄亥俄州立大学、微软、加州大学欧文分校和伦斯勒理工学院的研究人员正在研究在该努力中构建“生命之树”基础视觉的模型。该模型必须满足以下要求,以便广泛适用于真实生物学任务。首先,它需要能够适应调查各种不同类群的研究人员,而不仅仅是一个类群,并且最好能够推广到整个生命之树。此外,它应该获取生物图像的细粒度表示,因为在生物学领域常常会遇到外观相似的生物体,例如同属或为了适应而模仿对方外观的近亲物种。由于生命之树将生物事物组织成广泛的群组(如动物、真菌和植物)和非常细粒度的群组,这种粒度水平是重要的。最后,在数据收集和标记在生物学中的高昂费用的情况下,具有低数据区域(即零样本或少样本)的优秀结果是至关重要的。 当前训练在数亿张图像上的通用领域视觉模型在应用于进化生物学和生态学时表现不佳,尽管这些目标对计算机视觉来说并不新鲜。研究人员确定了在生物学中创建视觉基础模型的两个主要障碍。首先,需要更好的预训练数据集,因为目前可用的数据集在规模、多样性或标签细粒度方面都不足。其次,由于当前的预训练算法不能很好地满足这三个主要目标,因此有必要找到更好的预训练方法,利用生物领域的独特特征。 考虑到这些目标和实现障碍,团队提出了以下内容: TREEOFLIFE-10M,一个庞大的ML准备生物学图片数据集 BIOCLIP是一个基于适当类群在TREEOFLIFE-10M中进行训练的生命之树的视觉模型。 TREEOFLIFE-10M是一个广泛而多样的生物图像数据集,适用于ML。研究人员已经策划和发布了迄今为止最大的ML准备生物学图像数据集,其中包含超过1000万张照片,涵盖了生命之树上的45.4万个类群,并附带有分类标签。仅有270万张照片代表10,000个类群的iNat21是最大的ML准备生物学图像集合。现有的高质量数据集,如iNat21和BIOSCAN-1M,已纳入TREEOFLIFE-10M中。TREEOFLIFE-10M中的大部分数据多样性来自生命百科全书(eol.org),其中包含了该来源的最新选定的照片。TREEOFLIFE-10M中的每张图像的分类层次和更高分类排名都进行了最大程度的注释。借助TREEOFLIFE-10M,可以培训BIOCLIP和其他生物学的未来模型。 BIOCLIP是基于视觉的生命之树的表示。在像TREEOFLIFE10M这样的大规模标记数据集上训练视觉模型的一个常见且简单的方法是使用监督分类目标,从图像中学习预测分类标志。ResNet50和Swin Transformer也使用了这种策略。然而,这种方法忽视并没有利用复杂的分类系统——类群不是孤立存在的,而是在一个完整的分类系统中相互关联。因此,使用基本的监督分类进行训练的模型可能无法对未知的类群进行零样本分类或对训练期间不存在的类群进行很好的泛化。相反,团队采用了一种新方法,将BIOCLIP的广泛生物分类与CLIP风格的多模式对比学习相结合。通过使用CLIP对比学习目标,他们可以在将分类系统从王国级别扁平化为代表分类名称的字符串之后,学习将图片与相应的分类名称关联起来。当使用不可见的类群的分类名称时,BIOCLIP还可以进行零样本分类。 团队还建议并展示了一种混合文本类型训练技术的益处;这意味着他们保留了分类学名称的概括性,但在测试时更具灵活性,通过结合多种文本类型(例如,科学名称与通用名称)进行训练。例如,下游用户仍然可以使用通用物种名称,而BIOCLIP将表现出色。他们对BIOCLIP进行了全面评估,涵盖了涉及植物、动物和昆虫的十个细粒度图片分类数据集,以及一个专门策划的罕见物种数据集,在训练过程中未使用。BIOCLIP显著超过了CLIP和OpenCLIP,在少样本和零样本情况下,分别取得了平均绝对提升17%和18%的成绩。此外,它的内在分析可以解释BIOCLIP更好的泛化能力,表明它已经学习到了符合生命之树的分层表示。 尽管团队使用了CLIP目标来有效地学习数十万个分类群的视觉表示,BIOCLIP的训练仍然专注于分类。为了使BIOCLIP能够提取细粒度的特征级表示,他们计划在未来的工作中加入来自inaturalist.org的研究级照片,该网站拥有1亿张照片或更多,并收集物种外观的更详细的文本描述。

Leave a Comment

微软研究人员提出了InstructDiffusion:一种统一且通用的人工智能框架,用于将计算机视觉任务与人类指令对齐

在向可适应、普适视觉模型迈出重大一步的突破性进展中,来自微软亚洲研究院的研究人员发布了InstructDiffusion。这一创新性框架通过为多种视觉任务提供统一的接口,革命性地改变了计算机视觉领域的格局。论文《InstructDiffusion: A Generalist Modeling Interface for Vision Tasks》介绍了一种能够同时处理各种视觉应用的模型。 InstructDiffusion的核心是一种新颖的方法:将视觉任务构建为人类直观的图像处理过程。与依赖预定义输出空间(如类别或坐标)的传统方法不同,InstructDiffusion在灵活的像素空间中运作,更接近人类感知。 该模型旨在根据用户提供的文本指令修改输入图像。例如,“在红色中圈出男人的右眼”这样的指令可以使模型适用于关键点检测等任务。同时,“将蓝色掩码应用于最右侧的狗”这样的指令可用于分割。 支撑该框架的是去噪扩散概率模型(DDPM),它生成像素输出。训练数据包括三元组,每个三元组由指令、源图像和目标输出图像组成。该模型被设计为处理三种主要输出类型:RGB图像、二值掩码和关键点。这涵盖了广泛的视觉任务,包括分割、关键点检测、图像编辑和增强。 关键点检测 a) 在鲸鱼的右眼周围创建一个黄色圆圈。 (b) 用蓝色圆圈标记汽车标志。 分割 a) 将镜子中猫的像素标记为蓝色,其他保持不变。 (b) 将阴影像素涂成蓝色,保持其他像素的当前外观。 图像编辑 模型生成的图像结果 低级任务 InstructDiffusion也适用于包括图像去模糊、去噪和去水印在内的低级视觉任务。…

Leave a Comment

Meta AI在计算机视觉公平性方面的两项新尝试:引入DINOv2许可证和发布FACET

在不断发展的计算机视觉领域中,一个紧迫的问题是确保公平性。这篇文章揭示了人工智能技术(尤其是计算机视觉)中潜在的巨大潜力,它是促成各个领域变革性突破的催化剂,从维护生态保护努力到推动开拓性的科学探索。然而,它对这项技术崛起所带来的固有风险保持了坦诚的态度。 Meta AI的研究人员强调必须达到的关键平衡,即快速创新的节奏与必要时出现的有意识的开发实践之间的和谐平衡。这些实践不仅仅是一种选择,而且是对这项技术可能无意中给历史上被边缘化社区带来的潜在伤害的重要防护。 Meta AI的研究人员针对这个多方面的挑战制定了一项全面的路线图。他们首先通过开源Apache 2.0许可证使DINOv2成为一种先进的计算机视觉模型,该模型通过自监督学习的锻炼器锻炼而成。DINOv2是Data-Efficient Image Neural Network Version 2的缩写,代表着计算机视觉模型的一次重要飞跃。它利用自监督学习技术创建通用特征,使其能够以高度灵活的方式理解和解释图像。 DINOv2的能力不仅限于传统的图像分类。它在许多任务中表现出色,包括语义图像分割,可以准确识别物体边界并将图像分割成有意义的区域,以及单目深度估计,使其能够感知图像中物体的空间深度。这种多功能性使DINOv2成为计算机视觉应用的强大工具。这种扩展的可访问性使开发人员和研究人员能够在广泛的应用领域中利用DINOv2强大的功能,进一步推动计算机视觉创新的前沿。 Meta对计算机视觉中公平性的承诺的核心在于引入FACET(计算机视觉评估中的公平性)。FACET是一个里程碑式的基准数据集,包含约32,000张图片,涵盖约50,000个个体。然而,FACET的独特之处在于专家人工标注者的细致注释。这些专家经过细心的注释工作,将数据集按多个维度进行分类。其中包括感知性别表达、年龄组别以及感知肤色和发型等身体属性。值得注意的是,FACET引入了与个人相关的类别,涵盖了像“篮球运动员”和“医生”这样多样化的职业。该数据集还通过包含69,000个口罩标签增强了其研究目的的重要性。 使用FACET进行的初步研究已经揭示了先进模型在不同人群中的性能差异。例如,这些模型在准确检测肤色较暗或头发卷曲的个体方面经常遇到挑战,揭示了潜在的偏见,值得仔细研究。 在使用FACET进行性能评估时,最先进的模型在不同人群之间展示出性能差异。例如,模型可能难以检测到肤色较暗的个体,对于头发卷曲的个体则更加困难。这些差异凸显了对计算机视觉模型中的偏见进行全面评估和缓解的必要性。 尽管主要用于研究评估而不是用于训练目的,但FACET有可能成为评估计算机视觉模型公平性的卓越标准。它为对人工智能中的公平性进行深入细致的检查奠定了基础,超越了传统的人口属性,包括了与个人相关的类别。 总之,Meta的文章放大了计算机视觉中的公平性问题,并揭示了FACET揭示的性能差异。Meta的方法包括扩大对DINOv2等先进模型的访问,并引入一种开创性的基准数据集。这种多方面的方法彰显了他们对促进创新、坚持道德标准和缓解公平问题的坚定承诺。它突显了他们对负责任的发展的不懈奉献,为实现一个公平的人工智能领域铺平了道路,即利用技术造福于所有人的领域。

Leave a Comment

Swin Transformers | 现代计算机视觉任务

介绍 Swin Transformer 是视觉 Transformer 领域的一项重大创新。Transformer 在各种任务中展示了出色的性能。在这些 Transformer 中,Swin Transformer 作为计算机视觉的骨干,提供了无与伦比的灵活性和可扩展性,以满足现代深度学习模型的需求。现在是时候发掘这个 Transformer 的全部潜力,见证其令人印象深刻的能力。 学习目标 本文旨在介绍 Swin Transformer,这是一类强大的分层视觉 Transformer。通过阅读本文,您应该了解以下内容: Swin Transformer 的关键特性 它们在计算机视觉模型中作为骨干的应用 Swin Transformer 在图像分类、物体检测和实例分割等各种计算机视觉任务中的优势。…

Leave a Comment

SEER 自监督计算机视觉模型的突破?

在过去的十年中,人工智能(AI)和机器学习(ML)取得了巨大的进展如今,它们比以往任何时候都更加准确、高效和有能力现代的人工智能和机器学习模型可以无缝地准确识别图像或视频文件中的对象此外,它们还能够生成与人类智能相媲美的文本和语音[…]

Leave a Comment

计算机视觉系统能从视频中推断出你的肌肉活动吗?认识行动中的肌肉(MIA):一个新的数据集,用于学习将肌肉活动融入人体运动表示

近年来,人工智能领域一直是讨论的话题。无论是基于自然语言处理和自然语言理解的人类模仿大型语言模型(如GPT 3.5),还是基于计算机视觉的文本到图像模型DALL-E,AI正朝着成功的方向迈进。计算机视觉作为AI的一个子领域,在每一项新应用的发布中都在不断进步。它已经能够从视频中分析人类动作,并因此能够处理姿势估计、动作识别和动作转移等各种任务。 尽管计算机视觉在确定人类动作方面取得了进展,但它不仅仅是外观问题。每一个动作都是我们的大脑通过神经传递电脉冲引起我们的肌肉收缩,最终导致关节运动的结果。研究人员一直在努力开发一种方法,通过该方法可以模拟驱动人类运动的内在肌肉活动。为了在这项研究中取得进展,哥伦比亚大学的两位研究人员推出了一个名为“Muscles in Action”(MIA)的新颖数据集。该数据集包含了12.5小时的同步视频和表面肌电图(sEMG)数据,记录了十个主体进行各种运动的情况。 表面肌电图(sEMG)传感器是确定肌肉活动的传统工具,分为侵入性和非侵入性版本。研究人员开发了一种能够从视频中预测肌肉激活,反过来,利用MIA数据集从肌肉激活数据重建人体动作的表示方法。其主要目的是理解底层肌肉活动与视觉信息之间的复杂联系。通过同时建模两种模态,模型已经被调整为生成与肌肉激活一致的动作。 这个项目的主要部分是建立视频中人体动作与sEMG信号反映的内部肌肉活动之间关联的框架。研究团队分享的研究论文简要概述了人体活动分析、条件运动生成、多模态学习、肌电图和基于物理的人体动作生成等相关工作。随后对多模态数据集进行了详细描述和分析。 为了评估,研究人员对内部分布的参与者和锻炼进行了实验,同时还对外部分布的主体和锻炼进行了实验,以确定他们的模型的性能如何。他们对与训练分布不同的数据以及与其训练数据相似的数据进行了测试。这种评估有助于验证方法的泛化能力。 总之,在计算机视觉系统中利用肌肉具有许多潜在的用途。通过理解和模拟内部肌肉活动,可以产生更丰富的虚拟人体模型。这些模型可以在各种实际场景中使用,包括与体育、健身以及增强现实和虚拟现实相关的场景。

Leave a Comment

图像识别与计算机视觉:有什么区别?

在当前的人工智能和机器学习行业中,“图像识别”和“计算机视觉”是最热门的两个趋势这两个领域都涉及到识别视觉特征,这也是为什么通常情况下这两个术语经常被互换使用的原因尽管有些相似之处,但计算机视觉和图像识别代表了不同的技术,[…]

Leave a Comment

2023年的顶级计算机视觉工具/平台

计算机视觉使计算机和系统能够从数字照片、视频和其他视觉输入中提取有用的信息,并根据这些信息执行操作或提供建议。计算机视觉使机器具有感知、观察和理解的能力,就像人工智能使它们具有思考的能力一样。 人类视觉比计算机视觉具有优势,因为它存在的时间更长。通过终身的上下文,人的视觉有学习如何区分事物、确定它们与观察者的距离、确定它们是否在移动以及确定图像是否正确的优势。 通过相机、数据和算法代替视网膜、视神经和视觉皮层,计算机视觉教会计算机在更短的时间内执行类似的任务。一个经过训练的系统可以快速超越人类,因为它可以在每分钟检查成千上万个产品或过程,同时发现肉眼无法察觉的缺陷或问题。 能源、公用事业、制造业和汽车行业都使用计算机视觉,市场仍在不断扩大。 计算机视觉系统可以用于以下几种典型的工作: 对象分类。在对图像或视频中的对象进行预定标题分类之前,系统会分析视觉数据。例如,算法可以在图像中的所有项中识别出一只狗。 物品识别。系统分析视觉数据并识别出图片或视频中的特定对象。例如,算法可以从图像中的一组狗中挑选出一只特定的狗。 对象跟踪。系统分析视频,识别满足搜索条件的对象(或对象)并跟踪该对象的进展。 顶级计算机视觉工具 Kili Technology的视频标注工具 Kili Technology的视频标注工具旨在简化和加速从视频文件中创建高质量数据集的过程。该工具支持各种标注工具,包括边界框、多边形和分割,以实现精确的标注。通过先进的跟踪功能,您可以轻松地浏览帧并在直观的浏览视图中查看所有标签。 该工具支持各种视频格式,并与流行的云存储提供商无缝集成,确保与现有的机器学习流水线平稳集成。Kili Technology的视频标注工具是优化标注流程和构建强大数据集的终极工具包。 OpenCV OpenCV 是一个用于机器学习和计算机视觉的软件库。OpenCV 旨在为计算机视觉应用提供标准基础设施,并为用户提供超过2,500种传统和前沿算法。 这些算法可以用于人脸识别、去除红眼、识别对象、提取对象的3D模型、跟踪移动对象以及将多个帧拼接成高分辨率图像等任务。 Viso Suite Viso Suite 是一个完整的计算机视觉开发、部署和监控平台,使企业能够创建实用的计算机视觉应用。作为无代码平台的基础,Viso…

Leave a Comment

Can't find what you're looking for? Try refining your search: