Press "Enter" to skip to content

352 search results for "计算机视觉"

这篇人工智能研究介绍了PERF:将单张图像转化为可探索的3D场景的全景NeRF变换

NeRF代表神经辐射场,是一种基于深度学习的三维场景重建和视图合成技术。为了准确地构建三维表示,通常需要多张场景的图像或视图。 NeRF包括一组从不同视点拍摄的场景图片。 NeRF已经激发了扩展和改进,例如NeRF-W,旨在使其更加高效、准确,并适用于各种场景,包括动态场景和实时应用。其变种对计算机视觉、计算机图形和三维场景重建领域都产生了重要影响。 然而,如果只有一张图片并且想要融入3D先验知识,就需要改善三维重建的质量。目前的技术限制了视野范围,这极大地限制了其在面对真实世界的360度全景场景和大尺寸情况下的可扩展性。研究人员提出了一种名为PERF的360度全景新视图合成框架。其中PERF代表全景神经辐射场。他们的框架通过单个全景图来训练一个全景神经辐射场。 全景图是通过捕捉多张图像,通常是连续的,然后将它们拼接在一起形成一个无缝的广角景观、城市景观或其他场景的表示。团队提出了一种协同RGBD修复方法,用于完成可见区域的RGB图像和深度图的修复。他们还训练了一个单目深度估计器,用于生成从输入全景图中不可见的新奇外观和三维形状。 从单个全景图中训练一个全景神经辐射场(NeRF)是一个具有挑战性的问题,原因是缺乏三维信息、大尺寸对象遮挡、重建和生成的耦合问题以及在填充期间可见区域和不可见区域之间的几何冲突。为了解决这些问题,PERF包括三个步骤:1)获得带深度监督的单视角NeRF训练;2)协同RGBD修复感兴趣区域;3)使用渐进式填充和抹除生成。 为了优化感兴趣区域的深度图预测并使其与整体全景场景一致,他们提出了填充和抹除方法,该方法通过从随机视角填充不可见区域并从其他参考视图中观察到的冲突几何区域进行抹除,以获得更好的三维场景完成。 研究人员在Replica和PERF-in-the-wild数据集上进行了实验。他们证明了PERF实现了最新的单视角全景神经辐射场技术。他们表示PERF可以应用于全景到三维、文本到三维和三维场景风格化任务,以获得令人惊叹的结果和几个有前景的应用。 PERF显著提高了单镜头NeRF的性能,但严重依赖深度估计器和稳定扩散的准确性。因此,团队表示未来的工作将包括改进深度估计器和稳定扩散模型的准确性。

Leave a Comment

骑行之光:Sunswift赛车在世界太阳能挑战赛上大放异彩

在今年世界上最大规模的太阳能赛车活动中,新南威尔士大学的Sunswift Racing团队正大放异彩。 首次于35年前启动的World Solar Challenge吸引了来自全球的学术参与者。今年的比赛吸引了近100个竞争对手。 比赛历时大约四天,总里程约1900英里,参赛者不是为了速度而是为了最大能源效率而争夺。 悉尼新南威尔士大学(UNSW)赢得了能源效率比赛,并且以其使用NVIDIA Jetson Xavier NX进行能源优化的Sunswift 7车辆第一个越过终点线,获得了巡航杯的荣誉。它也是唯一一支搭载4人并拥有遥控任务控制团队的参赛者。 “能够使用最少的能量在其他任何人之前到达阿德莱德,这是一个完全不同的命题,但第一个越过终点线只是为了炫耀权利,” Sunswift项目经理、UNSW教授Richard Hopkins说道。 Hopkins之前在英国管理过F1赛车队。 比赛组织者将这项活动称为“对未来更可持续的移动方式做出的最伟大的创新和工程挑战”,该活动贯穿整个澳大利亚公路,从北部的达尔文到南部的阿德莱德。它也成为了追求电动车行业职业道路的学生们的跳板。 像许多竞争对手一样,UNSW在因COVID-19大流行而经历了三年的比赛暂停后再次参赛,使得今年的比赛备受期待。 “每个团队成员都需要理解他们正在做什么和在团队中的角色,并在这五天半的比赛中表现最佳,” Hopkins说道。 “这使人筋疲力尽。” 全力以赴的能源效率 比赛允许参与者在车辆停留在两个位置过夜时,从完全充电的电池开始充电。剩下的约90%的能量来自太阳和车辆的太阳能电池板。 UNSW第七代Sunswift 7使用算法进行能源效率优化,基本上关闭所有非必要的计算,以最大化电池寿命。 这辆太阳能电动车依靠NVIDIA…

Leave a Comment

使用英特尔的OpenVINO工具包精通AI优化和部署

介绍 由于人工智能对人们手工劳动的日益影响,在我们几乎每天都在谈论人工智能。建立AI-enabled软件在短时间内迅速增长。企业和商家相信将可靠和负责任的AI集成到他们的应用程序中以产生更多的收入。将AI集成到应用程序中最具挑战性的部分是在训练模型时使用的模型推理和计算资源。已经存在许多技术来通过使用较少的计算资源在推理过程中优化模型以提高性能。基于这个问题陈述,英特尔推出了OpenVINO Toolkit,这是一个绝对的游戏改变者。OpenVINO是一个用于优化和部署AI推理的开源工具包。 学习目标 在本文中,我们将: 了解OpenVINO Toolkit及其在优化和部署AI推理模型方面的目的。 探索OpenVINO的实际用例,特别是其在边缘人工智能未来中的重要性。 学习如何在Google Colab中使用OpenVINO在图像中实现文本检测项目。 了解使用OpenVINO的关键功能和优势,包括其模型兼容性和对硬件加速器的支持以及它如何影响各个行业和应用。 本文是数据科学博客马拉松的一部分。 什么是OpenVINO? OpenVINO代表开放的视觉推理和神经网络优化,是由英特尔团队开发的开源工具包,旨在促进深度学习模型的优化。OpenVINO工具包的愿景是通过更高效和更有效的方法在本地、设备上或云中部署您的人工智能深度学习模型。 OpenVINO Toolkit特别有价值,因为它支持许多深度学习框架,包括像TensorFlow、PyTorch、Onnx和Caffe这样流行的框架。您可以使用您喜欢的框架训练模型,然后使用OpenVINO将其转换和优化以在Intel的硬件加速器(如CPU、GPU、FPGA和VPU)上部署。 在推理方面,OpenVINO Toolkit提供了各种模型量化和压缩工具,可以显著减小深度学习模型的大小而不损失推理准确性。 为什么使用OpenVINO? AI的热潮目前没有减缓的迹象。随着它的流行,显然会开发更多应用程序在本地和设备上运行人工智能应用程序。OpenVINO在以下几个具有挑战性的领域表现出色,这些是选择使用OpenVINO的理想选择的原因: OpenVINO模型库 OpenVINO提供了一个模型库,包含用于稳定扩散、语音、目标检测等任务的预训练深度学习模型。这些模型可以作为您项目的起点,节省时间和资源。 模型兼容性 OpenVINO支持许多深度学习框架,包括TensorFlow、PyTorch、ONNx和Caffe。这意味着您可以使用您喜欢的框架训练模型,然后使用OpenVINO Toolkit将其转换和优化以进行部署。…

Leave a Comment

“遇见FreeU:一种新的人工智能技术,可以提升生成质量,无需额外训练或微调”

概率扩散模型是一种前沿的生成模型类别,在计算机视觉相关任务中成为研究领域的关键点。与其他类别的生成模型(如变分自动编码器、生成对抗网络和向量量化方法)不同,扩散模型引入了一种新的生成范式。这些模型利用固定的马尔可夫链映射潜在空间,实现了捕捉数据集内潜在结构复杂性的复杂映射。最近,它们令人印象深刻的生成能力,从高度细节的生成示例到多样性,推动了在图像合成、图像编辑、图像到图像的翻译和文本到视频生成等各种计算机视觉应用中的突破性进展。 扩散模型由两个主要组成部分组成:扩散过程和去噪过程。在扩散过程中,高斯噪声逐渐加入输入数据,逐渐将其转化为几乎纯高斯噪声。相反,去噪过程旨在使用一系列学习到的逆扩散操作,从噪声状态中恢复原始输入数据。通常,一个U-Net用于在每个去噪步骤中迭代预测噪声去除。现有的研究主要集中在使用预训练的扩散U-Net进行下游应用,对扩散U-Net的内部特性探索有限。 来自S实验室和南洋理工大学的一项联合研究离开了传统的扩散模型应用,研究了扩散U-Net在去噪过程中的有效性。为了对去噪过程有更深入的理解,研究人员引入了一个重点关注傅立叶域的新思路,观察扩散模型的生成过程——这是一个相对未被探索的研究领域。 上图显示了顶部行中的逐步去噪过程,展示了连续迭代中生成的图像。相反,下面的两行展示了对应每个步骤的逆傅里叶变换后的低频和高频空间域信息。这个图表展示了低频分量的逐渐调制,表明了一个抑制的变化速率,而高频分量在整个去噪过程中表现出更明显的动态。这些发现可以直观地解释:低频分量固有地代表了图像的全局结构和特征,包括全局布局和平滑的颜色。对这些分量的剧烈改变通常在去噪过程中是不合适的,因为它们可以从根本上改变图像的本质。另一方面,高频分量捕捉图像中的快速变化,如边缘和纹理,并且对噪声非常敏感。去噪过程必须去除噪声同时保留这些复杂的细节。 考虑到关于低频和高频分量在去噪过程中的观察,该研究扩展到确定扩散框架中U-Net架构的具体贡献。在U-Net解码器的每个阶段,通过跳跃连接和主干特征组合跳过特征。研究表明,U-Net的主干在去噪过程中起着重要作用,而跳跃连接在解码器模块中引入了高频特征,有助于恢复细粒度的语义信息。然而,这种高频特征的传播可能会在推断阶段无意中削弱主干的本质去噪能力,可能导致生成异常图像细节,如图1的第一行所示。 基于这一发现,研究人员提出了一种新的方法,称为 “FreeU”,可以在不需要额外的训练或微调的情况下提高生成样本的质量。下面是该框架的概述。 在推理阶段,引入了两个专门的调制因子来平衡来自主要主干和U-Net架构的跳跃连接的特征的贡献。第一个因子被称为“主干特征因子”,旨在放大主要主干的特征图,从而加强去噪过程。然而,观察到,包括主干特征缩放因子时,虽然在改善方面取得了显著的改进,但有时会导致不希望的纹理过度平滑化。为了解决这个问题,引入了第二个因子“跳跃特征缩放因子”,以减轻纹理过度平滑化问题。 FreeU框架在与现有的扩散模型集成时表现出无缝适应性,包括文本到图像生成和文本到视频生成等应用。使用基础模型,如稳定扩散、DreamBooth、ReVersion、ModelScope和Rerender进行了全面的实验评估,以进行基准比较。当在推理阶段应用FreeU时,这些模型在生成的输出质量上显示出显着的提高。下面的插图提供了FreeU在显著改进生成图像的复杂细节和整体视觉保真度方面的有效性的证据。 这是FreeU的概述,这是一种新颖的人工智能技术,可以在没有额外训练或微调的情况下提高生成模型的输出质量。如果您感兴趣并且想了解更多信息,请随时参考下面列出的链接。

Leave a Comment

介绍OWLv2:谷歌在零样本目标检测方面的突破

介绍 2023年即将结束,对计算机视觉界而言,令人兴奋的消息是,谷歌最近在零样本目标检测领域取得了重大进展,并发布了OWLv2。这款尖端模型现在已经在🤗 Transformers中可用,并代表着迄今为止最强大的零样本目标检测系统之一。它基于去年推出的OWL-ViT v1模型打下了坚实的基础。 在本文中,我们将介绍该模型的行为和架构,并展示如何进行推理的实践方法。让我们开始吧。 学习目标 了解计算机视觉中零样本目标检测的概念。 了解谷歌OWLv2模型背后的技术和自我训练方法。 使用OWLv2的实际方法。 本文作为Data Science Blogathon的一部分发表。 OWLv2背后的技术 OWLv2的强大能力归功于其新颖的自我训练方法。该模型在一个包含超过10亿个示例的Web规模数据集上进行了训练。为了实现这一点,作者利用了OWL-ViT v1的强大功能,使用它生成伪标签,然后用这些伪标签来训练OWLv2。 此外,该模型还在检测数据上进行了微调,从而提高了其前身OWL-ViT v1的性能。自我训练为开放世界定位提供了Web规模的训练,与目标分类和语言建模领域的趋势相呼应。 OWLv2架构 尽管OWLv2的架构与OWL-ViT相似,但其目标检测头部有一个显著的补充。现在它包括一个目标性分类器,用于预测预测框中包含物体的可能性。目标性得分提供了洞察力,并可用于独立于文本查询对预测进行排序或筛选。 零样本目标检测 零样本学习是一个新的术语,自从GenAI的趋势以来变得流行起来。它通常在大型语言模型(LLM)的微调中见到。它涉及使用一些数据对基础模型进行微调,使其扩展到新的类别。零样本目标检测是计算机视觉领域的一个改变者。它的核心是使模型能够在图像中检测物体,而无需手工注释边界框。这不仅加快了处理速度,还减少了手工注释的需求,使其对人类更具吸引力和乐趣。 如何使用OWLv2? OWLv2遵循与OWL-ViT类似的方法,但使用了更新的图像处理器Owlv2ImageProcessor。此外,该模型依赖于CLIPTokenizer对文本进行编码。Owlv2Processor是一个方便的工具,结合了Owlv2ImageProcessor和CLIPTokenizer,简化了文本编码过程。以下是使用Owlv2Processor和Owlv2ForObjectDetection进行对象检测的示例。 在此处找到完整的代码:https://github.com/inuwamobarak/OWLv2 步骤1:设置环境…

Leave a Comment

Google AI 提出了 PaLI-3:一个更小、更快、更强大的视觉语言模型(VLM),与大小为其10倍的类似模型相比,具有更好的性能

视觉语言模型(VLM)是一种先进的人工智能系统,将自然语言理解与图像识别能力相结合。与OpenAI的CLIP和Google的BigGAN一样,VLM能够理解文本描述并解释图像,实现在计算机视觉、内容生成和人机交互等领域的各种应用。它们在理解和生成与视觉内容相关的文本方面展示出了令人印象深刻的能力,使其成为人工智能领域的关键技术。 来自Google Research、Google DeepMind和Google Cloud的研究人员对使用分类和对比目标预训练的视觉变换器(ViT)模型进行了对比,对比预训练模型,特别是基于SigLIP的PaLI,在多模态任务中表现出色,尤其是在定位和文本理解方面。研究人员将SigLIP图像编码器扩展到20亿个参数,实现了新的多语言跨模态检索技术的最新水平。他们的研究主张将视觉编码器的预训练应用于网络规模的图像-文本数据,而不是分类样式的数据。他们的方法揭示了通过PaLI-X在大型视觉语言模型中扩展分类预训练图像编码器的好处。 他们的研究深入探讨了缩放VLM的同时强调了小规模模型在实际应用和高效研究中的重要性。他们介绍了PaLI-3,一个具有50亿个参数并具有竞争力的VLM。PaLI-3的训练过程包括对图像编码器在网络规模数据上进行对比预训练、改进的数据集混合和更高分辨率的训练。他们还介绍了一个包含20亿参数的多语言对比视觉模型。消融研究证实了对比式预训练模型的优越性,尤其是与定位和视觉环境的文本理解相关的任务。 他们的方法采用预训练的ViT模型作为图像编码器,具体是ViT-G14,使用SigLIP的训练方法。ViT-G14具有大约20亿个参数,作为PaLI-3的视觉骨干。对比式预训练包括分别嵌入图像和文本,并对它们的对应关系进行分类。来自ViT输出的视觉记号被投影并与文本记号相结合。然后,这些输入由一个30亿个参数的UL2编码器-解码器语言模型进行处理,用于文本生成,通常由特定任务提示(如VQA问题)驱动。 与较大的模型相比,PaLI-3在定位和视觉环境的文本理解方面表现出色。基于SigLIP的PaLI模型,在对比图像编码器预训练的基础上,建立了一个新的多语言跨模态检索技术的最新水平。完整的PaLI-3模型在指代表达分割方面胜过现有技术,并在检测任务的子组中保持了低错误率。对比式预训练在定位任务中表现更加有效。PaLI-3的ViT-G图像编码器在多个分类和跨模态检索任务中表现出色。 总之,他们的研究强调了对比式预训练的好处,以SigLIP方法为例,以增强和提高VLM的效率。较小的50亿参数的基于SigLIP的PaLI-3模型在定位和文本理解方面表现出色,胜过了多样化多模态基准测试中的较大模型。在PaLI-3中,对图像编码器进行对比式预训练还实现了新的多语言跨模态检索技术的最新水平。他们的研究强调了对VLM训练的各个方面进行全面调查的必要性,超出图像编码器预训练,以进一步提高模型性能。

Leave a Comment

揭秘生成人工智能:深入探究扩散模型和视觉计算演进

通过结合计算机生成的视觉图像或从图片中推断场景的物理特征,计算机图形学和3D计算机视觉团体已经致力于创建几十年来的物理真实模型。这个方法包括渲染、模拟、几何处理和摄影测量等,涉及到包括视觉效果、游戏、图像和视频处理、计算机辅助设计、虚拟和增强现实、数据可视化、机器人、自动驾驶车辆和遥感等几个行业。伴随着生成式人工智能(AI)的兴起,视觉计算的全新思维方式已经出现。仅凭书面提示或高水平人类指令作为输入,生成式AI系统可以创建和操纵逼真而有风格的照片、电影或3D物体。 这些技术自动化了以前只有专业领域知识专家才能完成的许多耗时任务。稳定扩散、ImaGen、Midjourney或DALL-E 2和DALL-E 3等视觉计算的基础模型为生成式AI带来了无与伦比的力量。这些模型在数亿到数十亿个文本-图像对中进行训练,它们非常庞大,只有几十亿个可学习的参数。这些模型是上述生成式AI工具的基础,并在强大的图形处理单元(GPU)云中进行了训练。 基于卷积神经网络(CNN)的扩散模型经常用于生成图像、视频和3D对象,它们以多模态的方式集成了使用transformer架构(如CLIP)计算的文本。尽管有资金支持的行业参与者在为二维图像生成开发和训练基础模型时使用了大量资源,但学术界仍有机会为图形和视觉工具的发展做出重要贡献。例如,如何调整目前的图像基础模型以在其他更高维度领域中使用,如视频和3D场景创建,仍需明确。 这主要是由于需要更具体类型的训练数据。例如,网络上有许多低质量和通用的二维照片示例,而高质量和多样化的三维对象或场景却相对较少。此外,将二维图像生成系统扩展到更高维度,以适应视频、三维场景或四维多视角一致场景合成的需求,不是立即明显的。目前的限制之一是计算问题:尽管庞大的(未标记的)视频数据在网络上可用,但当前网络架构往往过于低效,无法在合理的时间或计算资源上进行训练。这导致扩散模型在推理时间上相对较慢。这是由于它们网络的庞大尺寸和迭代性质造成的。 图1:该前沿论文介绍了视觉计算的扩散模型的理论和应用。最近,这些模型已成为在3D和4D中创建和修改图像、视频和对象的公认标准。 尽管存在一些未解决的问题,但过去一年中视觉计算的扩散模型数量大幅增加(详见图1中的示例)。该报告由多所大学的研究人员开发,其目标是对最近关注于扩散模型在视觉计算中应用的众多最新出版物进行整理评述,介绍扩散模型的原理,并识别出突出的问题。

Leave a Comment

“欧里卡!NVIDIA研究的突破性发现为机器人学习带来了新的转变”

由NVIDIA研究开发的新型人工智能代理能够教会机器人复杂的技能,现已训练出机器手以与人类一样轻松地完成快速旋笔技巧。 在上面的视频中展示的惊人表现是机器人通过Eureka学会的近30项任务之一,Eureka自主编写奖励算法以训练机器人。 Eureka还教会了机器人如何打开抽屉和橱柜、抛接球和操作剪刀等任务。 今天发布的Eureka研究包括一篇论文和项目的人工智能算法,开发者可以使用NVIDIA Isaac Gym进行实验,这是一个用于强化学习研究的物理模拟参考应用程序。Isaac Gym建立在NVIDIA Omniverse上,这是一个基于OpenUSD框架构建3D工具和应用程序的开发平台。Eureka本身由GPT-4大型语言模型驱动。 NVIDIA高级AI研究主管Anima Anandkumar表示:“在过去的十年中,强化学习取得了令人瞩目的成就,但仍存在许多挑战,例如奖励设计仍然是一个试错过程。Eureka是开发整合生成和强化学习方法解决难题的新算法的第一步。” AI训练机器人 根据论文,Eureka生成的奖励程序——用于机器人的试错学习——在超过80%的任务上都优于由专家编写的奖励程序,这使得机器人的平均性能提高了50%以上。 https://blogs.nvidia.com/wp-content/uploads/2023/10/franka_cabinet.mp4 由Eureka教会的机器臂打开抽屉。 这个AI代理使用GPT-4 LLM和生成AI来编写奖励机器人进行强化学习的软件代码。它不需要具体的任务提示或预定义的奖励模板,并且可以根据人类的反馈快速调整奖励以更准确地实现开发者的愿景。 在Isaac Gym的GPU加速模拟中,Eureka可以快速评估大量奖励候选项的质量,从而实现更高效的训练。 Eureka随后构建了关于训练结果的关键统计数据的摘要,并指导LLM改进奖励函数的生成。通过这种方式,人工智能实现了自我提升。它教会了各种各样的机器人,包括四足、两足、四旋翼、灵巧手臂、协作机械臂等完成各种任务。 研究论文对20项Eureka训练任务进行了详细评估,基于需要机器手展示各种复杂操纵技能的开源灵巧性基准。 来自九个Isaac Gym环境的结果通过使用NVIDIA Omniverse生成的可视化展示。 https://blogs.nvidia.com/wp-content/uploads/2023/10/humanoid.mp4 人形机器人通过Eureka学会奔跑步态。…

Leave a Comment

汇集SwimXYZ:一个包含340万帧以及具备地面真实2D和3D关节标注的游泳动作和视频的合成数据集

人类动作捕捉已经成为各个行业的关键工具,包括体育、医疗和娱乐领域的角色动画。动作捕捉在运动中使用多种目的,包括预防受伤、分析伤病、视频游戏行业动画,甚至为电视广播提供信息可视化。传统的动作捕捉系统在大多数情况下可以提供可靠的结果。但是,它们昂贵且耗时,设置、校准和后处理困难,难以广泛应用。对于游泳等水上活动而言,这些问题更加严重,例如标记器反射或水下摄像机的安装。 最近的进展使得能够使用简单、可负担得起的设备从RGB照片和电影中捕捉动作。这些实时单摄像头系统可以利用现有的实时视频数据,在体育赛事中广泛应用动作捕捉。它可以用于小型结构,以增强业余运动员的培训计划。然而,由于需要更多数据,使用基于计算机视觉的游泳动作捕捉面临着一些障碍。无论是2D关节点、身体分割还是3D关节点、虚拟标记,每个人体姿态和形状(HPS)估计方法都必须从图像中提取信息。然而,基于传统数据集训练的计算机视觉算法在处理水上数据时需要帮助,因为它与训练图片差异很大。 HPS估计的最新进展表明,合成数据可以替代或补充真实图片。他们推出了SwimXYZ,以扩展基于图像的动作捕捉技术在游泳中的应用。SwimXYZ是一个人工数据集,其中包含用真实游泳池拍摄的特定于游泳的电影,并标注了2D和3D关节点。SwimXYZ的11520部电影共340万个帧,拍摄角度、主题和水质、灯光以及动作都有所不同。除了240个合成游泳动作序列以SMPL格式呈现,SwimXYZ还提供了各种身体形态和游泳动作。 这项研究由CentraleSupélec、IETR UMR、Centrale Nantes和Université Technologique de Compiègne的研究人员创建了SwimXYZ,这是一个庞大的人工游泳动作和电影集合,将在论文被接受后在线发布。SwimXYZ的实验证明了在游泳中进行动作捕捉的潜力,他们的目标是帮助其更广泛地应用。未来的研究可能会运用SMPL格式的动作来训练姿势和运动先验或游泳划水分类器,以及使用SwimXYZ提供的电影来训练2D和3D姿势估计模型。SwimXYZ在主题(性别、体型和泳装外观)和场景(室外环境、池底)方面的缺乏多样性可以在后续工作中得到纠正。其他改进可能包括其他注释(如分割和深度图)或添加其他游泳动作,如跳水和转身。

Leave a Comment

利用两阶段的亚马逊Rekognition自定义标签模型进行高分辨率图像缺陷检测

高分辨率图像在当今世界非常普遍,从卫星图像到无人机和数码单反相机通过这些图像,我们可以捕捉自然灾害造成的损害,制造设备中的异常情况,或者非常小的缺陷,比如印刷电路板(PCB)或半导体上的缺陷使用高分辨率图像构建异常检测模型可能具有挑战性[…]

Leave a Comment

优化 Purina 的 Petfinder 应用程序的宠物配置文件,使用 Amazon Rekognition 自定义标签和 AWS Step Functions

宠爱纽仕兰(Purina US)是雀巢的子公司,通过全美、加拿大和墨西哥共有超过11,000家动物收容所和救援组织的数字市场Petfinder,帮助人们更轻松地领养宠物的历史悠久作为领先的宠物领养平台,Petfinder已帮助数百万宠物找到了它们永远的家宠爱纽仕兰一直以来都坚持……

Leave a Comment

这个 AI 研究展示了 RoboHive 一个用于机器人学习和具身人工智能研究的全面软件平台和生态系统

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/10/ezgif-5-1256e08830.gif”/><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/10/ezgif-5-1256e08830-150×150.gif”/><p>近年来,人工智能(AI)在语言建模、蛋白质折叠和游戏方面取得了显著进展。但是,机器人学习的发展进展较为缓慢。莫拉维克悖论认为,与高级认知活动相比,感知运动行为对于AI代理来说更难,这可能部分解释了这种进展缓慢。此外,他们还必须关注一个同样重要的关键问题:机器人学习的软件框架的复杂性以及缺乏共同基准。结果,进入门槛增高,快速原型开发受限,创意流动受到限制。与计算机视觉或自然语言处理等更加标准化的领域相比,机器人学科仍然更加碎片化。</p><p>华盛顿大学的研究人员与加州大学伯克利分校、卡内基梅隆大学、德克萨斯大学奥斯汀分校、Open AI、Google AI和Meta-AI的研究人员共同推出了RoboHive,这是一个专为机器人学习设计的集成环境,旨在弥合这一差距。RoboHive是一种既可用作基准测试又可用作研究工具的平台。它提供了各种上下文、具体任务描述和严格的评估标准,以实现多种学习范式,包括强化、模仿和迁移学习。这使得研究人员可以进行高效的调查和原型开发。此外,RoboHive还提供硬件集成和远程操作功能,实现了从现实世界到虚拟机器人之间的平稳过渡。他们希望通过RoboHive来缩小机器人学习当前状态与其发展潜力之间的差距。创建和开源RoboHive作为机器人学习的统一框架是他们的主要贡献。</p><p><strong>RoboHive的显著特点包括:</strong></p><p>1. 环境动物园:RoboHive提供各种跨学科的设置。这些设置可用于操作任务,包括手持灵巧操作、两足和四足机器人的移动,甚至使用肌肉骨骼手臂模型的操作。他们使用MuJoCo来构建虚拟世界,该世界提供快速的物理模拟,并且专注于物理真实性。</p><p>2. RoboHive提供了一个统一的RobotClass抽象,通过simhooks和硬件hooks与虚拟和实际机器人平稳交互。通过改变一个标志,这种特殊能力使研究人员可以轻松地与机器人硬件进行交互,并将他们的发现从仿真转化为现实。</p><p>3. 远程操作支持和专家数据集:RoboHive具有各种模态的即插即用远程操作能力,包括键盘、3D空间鼠标和虚拟现实控制器。他们共享了一个由人类远程操作积累的最大的真实世界操作数据集之一 – RoboSet,该数据集涵盖了十二种烹饪任务。在模仿学习、离线学习和相关学科领域工作的研究人员将会发现这些远程操作能力和数据集特别有用。</p><p>4. 视觉多样性和物理保真度:RoboHive强调具有很高物理真实性和广泛视觉多样性的项目,超越以往的基准,揭示现实世界机器人领域的下一个研究前沿。他们通过包含复杂的物体、丰富的纹理和增强的场景布置,将视觉控制研究与日常生活的视觉困难相结合。此外,RoboHive原生支持各种情景中的场景布局和视觉域随机化,提高了视觉感知的适应性,并提供了逼真而丰富的物理材料。</p><p>5. 指标和基准:RoboHive使用简短明了的指标来评估不同情况下的算法性能。该框架提供了一个用户友好的类似gym的API,可以与学习算法无缝集成,方便多位学者和实践者的使用。此外,RoboHive与TorchRL和mjRL合作,提供了广泛研究的基准结果,为性能比较和研究提供了一个基准。</p>

Leave a Comment

美国前十个在线数据科学课程

介绍 数据科学是技术世界中的未来趋势。作为一个充满活力的领域,数据科学将信息转化为可操作的数据,并在算法帮助推动成功的领域中越来越受欢迎。最重要的是学习技能和知识,使个人能够获得未来的职业。动手实践和面对现实问题有助于学习者发展职业技能,提升自己的职业生涯,并提升自己的技术知识基础。在美国在线数据科学课程是在舒适的家里学习数据科学技能的最佳选择。 美国的数据科学职业发展 美国的数据科学职业经历了一次成功的突破。每家组织都必须处理各种类型的数据,这就需要各个领域的数据科学专家。 专业的数据科学家的需求在增加,公司愿意提供高薪酬,正如以下图像所示。 随着组织从数据中提取有价值的信息,这些信息用于根据派生的结果做出明智的决策。整个过程需要一个专业的专家来处理现场。在美国的在线数据科学课程是一种重要的工具,可以帮助个人有效地学习数据科学,以满足对在美国的数据科学家的不断增长的需求。 为什么要在线学习数据科学? 学习在线数据科学课程的好处多多,使得这门课程成为期待在其中投资时间的人们的热门选择。 一些关键的好处包括: 获取权限:在线课程提供了大量的知识和有价值的信息,学习者只需在互联网上点击即可提升自己的技能。这为时间紧迫的人们提供了灵活性,他们想在这一领域提高效率。 自学:自学课程不会限制一个人的学习速度。这种灵活性允许学习者个性化他们的学习体验。 价钱合理:在线学习课程比课堂学习费用更低,并且还有许多其他费用要添加到费用中。 行业相关内容:在线数据科学课程提供行业相关的见解和内容,展示最新的趋势和技术。 学习风格:在线课程可以基于测验、论坛和多媒体内容提供多样化的学习风格。这使得学习者能够有效地参与其中。 在一门好的数据科学课程中,你应该期望学到哪些概念? 在线数据科学课程的课程设置因平台和课程提供商而异。然而,在美国最好的在线数据科学课程中提供的主要课程包括: 数据科学简介 数学和统计技巧 机器学习 编码 机器学习中使用的算法 数据科学的统计基础 数据结构与算法 科学计算 优化技术…

Leave a Comment

从专家到通用助手:深入探讨视觉与语言中多模态基础模型的演变

计算机视觉社区面临着各种各样的挑战。在预训练时代,许多研讨会论文讨论了建立多功能视觉工具的全面框架,用以引入多样化的视觉工具。在这个时期占主导地位的方法是在大量相关问题的数据上进行预训练,然后将其转移到与同一问题类型相关的各种实际场景中,通常使用零或少样本技术。 最近微软的一项研究深入探究了具有视觉和视觉语言功能的多模态基础模型的历史和发展,特别强调了从专门化助手到通用助手的转变。 根据他们的论文,主要讨论了三种初始策略的主要类别: 标签监督:标签监督使用先前标记的示例来训练模型。使用ImageNet和类似的数据集已经证明了这种方法的有效性。我们可以从互联网、图像和人工创建的标签中获得大量的嘈杂数据集。 也被称为“语言监督”,这种策略使用无监督的文本信号,最常见的是图像-文字对。CLIP和ALIGN是使用对比损失比较图像-文字对的预训练模型的例子。 仅使用图像作为监督信号的图像自监督学习:这种技术完全依赖视觉图像作为监督信号的来源。遮挡图像建模、非对比和对比学习都是可行的选择。 研究人员研究了几种用于视觉理解的方法,例如用于图像标注、视觉问答、基于区域的预训练用于引接和基于像素的预训练用于分割等,可以整合以获得最佳结果。 多模态基础模型 理解和解释以多种模态呈现的数据,如文本和图像,是多模态基础模型的特点。它们使得可能进行各种任务,否则需要大量的数据收集和综合。重要的多模态概念框架包括以下几个: CLIP(对比语言-图像预训练)是一种开创性的技术,用于发现共同的图像和文本嵌入空间。它可以进行图像-文本检索和零射击分类等任务。 BEiT(视觉中的BERT)将BERT的遮挡图像建模技术应用于视觉领域。可以预测遮挡图像中的令牌,使图像转化器能够进行其他任务。 CoCa(对比和字幕预训练)将对比学习与字幕损失相结合,用于对图像编码器进行预训练。多模态任务的完成现在成为可能,得益于释义图像字幕系统。 UniCL(统一对比学习)通过将CLIP的对比学习扩展到图像标签数据,实现了图像-文字和图像-标签对的统一对比预训练。 MVP(遮挡图像建模视觉预训练)是一种使用遮挡图像和高层特征目标进行预训练的视觉转换器方法。 为了提高MIM的精度,EVA(利用视觉-文本对齐)使用来自CLIP等模型的图像特征作为目标特征。 BEiTv2在BEiT的基础上改进,通过引入像DINO一样的自蒸馏损失来促进全局视觉表示的学习。 这些多模态基础模型极大地提高了计算机视觉和自然语言处理应用中的模型解释和处理能力。 他们的研究进一步探讨了“视觉生成”,发现文本到图像生成模型一直是图片合成的基础。这些模型已成功扩展,以允许更精细的用户控制和定制。与问题相关的大量数据的可用性和生成是实施这些多模态基础模型的关键因素。 T2I生成简介T2I生成试图提供与文本描述相对应的视觉效果。这些模型通常在图像和文本对上进行训练,其中文本提供输入条件,照片则作为所需的输出。 本书从稳定的扩散(SD)示例中解释了T2I模型。由于其基于交叉关注的图像-文本融合和基于扩散的生成方法,SD是一种备受喜爱的开源T2I模型。 稳定扩散的主要组成部分有三个:去噪统一神经网络(U-Net)、文本编码器和图像变分自动编码器(VAE)。VAE对图像进行编码,TEN对文本条件进行编码,Denoising U-Net在潜在空间中预测噪声以生成新的图像。 探讨提高T2I生成中的空间可控性,其中一种方法是允许在文本之外输入更多的空间条件,例如区域相关的文本描述、分割蒙版和关键点等密集空间要求。它探讨了ControlNet等T2I模型如何使用分割蒙版和边缘图等详尽限制来管理成像生成过程。 介绍了基于文本的编辑模型的最新发展;这些模型可以根据文本指令来修改照片,消除了用户生成蒙版的需要。通过对齐调整,T2I模型可以更好地遵循文本提示,类似于如何训练语言模型以改进文本生成。讨论了可能的解决方案,包括基于强化学习的解决方案。 随着文中提到的集成对齐解决方案的T2I模型日益受到欢迎,未来不再需要独立的图像和文本模型。在这项研究中,团队提出了一种统一的T2I模型输入界面,可以同时输入图像和文本,以辅助空间控制、编辑和概念定制等任务。…

Leave a Comment

Can't find what you're looking for? Try refining your search: