Press "Enter" to skip to content

352 search results for "计算机视觉"

Google AI发布Imagen Editor和EditBench,以改进和评估文本引导图像修复技术

最近,人们对文本到图像转换器产生了浓厚的兴趣。这些生成模型非常有用,尽管它们有时在第一次尝试时会产生错误的结果,特别是对于具有更特定创意或设计要求的客户。文本引导的图像编辑可以通过允许交互式修正来改进图像创建过程。生成符合文本提示并与输入图像兼容的修改是一个重大难题。Good的研究人员开发了Imgen Editor,这是一个使用文本指令进行修复的级联扩散模型。 Imgen Editor可以通过在训练期间使用对象检测器来提出修复掩模,从而准确地表示文本提示的修改。Imgen Editor可以通过将级联管道与原始高分辨率图像相结合,捕捉输入图像中最细微的特征。为了提高定量和定性评估,谷歌研究人员提供了EditBench,这是一个标准化的文本引导图像修复基准。EditBench通过检查真实和合成图像中的对象、属性和场景来分析修复修正。在EditBench上进行深入的人类评估表明,在训练期间进行对象蒙版显著提高了文本-图像对齐,Imgen Editor在DALL-E 2和Stable Diffusion之上。总的来说,这些模型比文本渲染更擅长对象渲染,比计数/形状属性更擅长处理材料/颜色/大小属性。 图像编辑器 要修改图像,请使用Imagen Editor,这是一种专门针对Imagen进行优化的基于扩散的模型。它致力于更准确地表示语言输入、粒度指令和高质量输出。Imagen Editor使用图像修改、二进制掩模以识别修改区域和文本提示这三个输入来确定输出样本。 图像编辑器允许用户根据掩模和一组指令对图像的某些区域进行有针对性的更改。该模型考虑用户的目标并对图像进行逼真的调整。Imagen Editor是一种文本引导的图像编辑器,它将广泛的语言表示与粒度控制混合在一起,以生成高质量的结果。Imagen Editor是Imagen的增强版,它使用级联扩散模型来微调文本引导的图像修复。使用三个卷积下采样图像编码器,Imagen Editor为每个扩散阶段提供更多的图像和掩模上下文。 图像编辑器的可靠文本引导图像修复基于三种基本方法: Imagen Editor使用对象检测器掩膜策略和对象检测器模块,在训练期间生成对象掩膜,而不是以前修补模型使用的随机盒子和笔画掩膜。 Imagen Editor通过在训练和推理期间要求输入图像和掩模的全分辨率、通道级串联来改进高分辨率编辑。 为了将数据引向特定的条件,即文本提示,研究人员在推理中使用无分类器引导(CFG)。CFG在受条件和未受条件的模型预测之间插值,以实现文本引导的图像修复的高精度。 使生成的输出符合文本提示是文本引导的图像修复中的主要难点。 EditBench EditBench使用240张照片创建了新的文本引导图像修复标准。每个图像都与一个掩膜相关联,该掩膜表示修补过程中将要更改的区域。为了帮助用户指定修改,研究人员为每个图像-掩膜对提供了三个文本提示。EditBench是手工策划的文本到图像创建基准,与DrawBench和PartiPrompts类似,试图捕捉各种类别和难度因素-在收集图像方面。包括预先存在的计算机视觉数据集中的自然照片和EditBench中包含的文本到图像模型生成的合成图像。…

Leave a Comment

Meta发布了“人类化”的设计师AI,用于图像

Facebook和Instagram的母公司Meta Platforms宣布了最新的人工智能模型I-JEPA,该模型承诺改变图像分析和完成。新开发的模型具有类似人类的推理能力,可以准确地填补图像中的缺失元素。凭借这种尖端技术,Meta旨在革新计算机视觉并在各种应用程序中解锁各种可能性。 了解更多:在我们即将举行的研讨会上,使用扩散模型解锁无限的生成式AI世界。加入我们,体验如未曾有过的非凡学习体验! 介绍I-JEPA:类人的AI模型 Meta Platforms激动人心地推出了其最先进的图像联合嵌入预测架构(I-JEPA)。与依赖附近像素来完成未完成图像的传统生成式AI模型不同,I-JEPA利用了对世界的全面背景知识。它创建了一个外部世界的内部模型,并比较图像的抽象表示。这使得它在计算机视觉任务中表现非常出色。 还阅读:使用生成式AI和Image Alpha解锁您的想象力 无与伦比的性能和效率 I-JEPA的一个显着特点是其惊人的性能和计算效率的结合。该模型的表示可以在不需要大量微调的情况下用于各种应用程序。例如,Meta使用仅16个A100 GPU,在不到72小时的时间内训练了一个632M参数的视觉变换器模型。令人惊讶的是,即使每类仅有12个标记的示例,该模型也在ImageNet上实现了低样本分类的最新性能。这样的效率使I-JEPA与现有的计算机视觉模型区别开来,后者消耗了更多的GPU时间,并产生了类似数据的劣质结果。 类人的推理提高准确性 Meta的AI模型采用了著名的AI科学家Yann LeCun提倡的类人推理方式,有助于提高AI生成的图像的准确性。通过融合背景知识和利用抽象表示,I-JEPA帮助消除AI生成图像中常见的错误。这一重大进展降低了与不准确性相关的风险,并确保了AI生成视觉内容的更高保真度。 还阅读:DragGAN:谷歌研究人员揭示了用于神奇图像编辑的AI技术 Meta对开源研究的承诺 Meta通过积极发布其内部研究实验室的开源项目,始终展示了其推进AI研究的承诺。该公司的CEO Mark Zuckerberg相信分享研究模型的力量,强调标准化推动创新,增强安全措施并降低成本。通过促进行业内的合作,Meta旨在引领AI发展,并利用其他组织取得的进展。 还阅读:使用Meta的MusicGen AI生成自己的音乐 解决安全问题和未来影响 虽然一些行业领袖对AI技术的潜在风险提出了担忧,但Meta的高管们选择了不同的方式。Meta致力于在AI系统中构建安全检查,而不是签署一份将AI风险与流行病和战争等同的声明。AI社区中的杰出人物、Meta的首席AI科学家Yann LeCun强调了消除“AI厌世主义”的重要性,并倡导在AI技术中集成安全措施。 还阅读:欧盟呼吁采取措施识别深度伪造和AI内容…

Leave a Comment

Rendered.ai集成了NVIDIA Omniverse进行合成数据生成

Rendered.ai通过其平台即服务为开发人员、数据科学家和其他人提供合成数据生成或SDG的服务,从而简化了AI培训。 训练计算机视觉AI模型需要大规模、高质量、多样化和无偏见的数据集。这些数据集可能难以获取,成本也很高,尤其是随着AI的需求不断增加。 Rendered.ai平台即服务通过生成物理准确的合成数据来解决这个问题,即从3D模拟创建的数据,以训练计算机视觉模型。 “现实世界的数据通常无法捕捉到泛化AI模型所需的所有可能的场景和边缘情况,这就是为什么SDG对于AI和机器学习工程师至关重要的原因,”总部位于西雅图郊区贝尔维尤的Rendered.ai的创始人兼首席执行官Nathan Kundtz说。 作为NVIDIA Inception计划的一员,Rendered.ai现已将NVIDIA Omniverse Replicator集成到其平台中,这是开发和运行工业元宇宙应用程序的Omniverse平台的核心扩展。 Omniverse Replicator使开发人员能够为许多这类应用程序生成标记的合成数据,包括视觉检查、机器人和自主驾驶。它基于用于3D工作流程的开放标准,包括通用场景描述(“OpenUSD”)、材料定义语言(MDL)和PhysX。 使用Rendered.ai生成的合成图像已用于为虚拟世界建模景观和植被,检测卫星图像中的物体,甚至测试人类卵细胞的可行性。 使用Omniverse Replicator生成的合成图像。图像由Rendered.ai提供。 通过利用Omniverse Replicator的RTX加速功能,例如光线追踪、域随机化和多传感器模拟,计算机视觉工程师、数据科学家和其他用户可以通过云中的简单Web界面快速轻松地生成合成数据。 “我们用来训练AI的数据实际上是影响AI性能的主导因素,”Kundtz说。“将Omniverse Replicator集成到Rendered.ai中将为用户提供使用合成数据训练更大、更好的应用于各行各业的AI模型的新水平的便捷性和效率。” Rendered.ai将在计算机视觉和模式识别会议(CVPR)上展示其与Omniverse Replicator的平台集成,该会议将于6月18日至22日在加拿大温哥华举行。 云中的合成数据生成 Rendered.ai现在可以通过AWS Marketplace使用,为开发人员和团队带来了一种协作的Web界面,可由计算机视觉工程师和数据科学家轻松配置,用于设计可以轻松配置的SDG应用程序。 这是一个一站式商店,人们可以通过Web浏览器共享包含SDG数据集、任务、图表等的工作区。 Rendered.ai平台即服务的视图,可在Web浏览器上使用。图像由Rendered.ai提供。…

Leave a Comment

网络安全与数据科学:哪个是更好的职业选择?

介绍 网络安全和数据科学已经成为当今快速变化的数字环境中的强大力量,带来了令人兴奋的职业前景和产生巨大影响的能力。这些领域的专业人员备受追捧,因为企业需要帮助保护其敏感数据并利用大数据的潜力。但是重要的问题仍然存在:应该选择哪条路线?网络安全和数据科学哪个更好?让我们一起来探讨网络安全与数据科学领域,剖析它们的细微差别,对比它们的技能集,研究它们的职业道路,并最终确定更好的职业道路。 所以,系好安全带,准备穿越充满创新的网络安全与数据科学交叉路口,这里是技术、创造力和机会的聚合地。 什么是网络安全? 网络安全的目标是保护计算机系统、网络和数据免受未经授权的访问、盗窃或损坏。网络安全专家负责发现漏洞,采取预防措施,发现和处理安全事件,并制定风险缓解计划。他们的工作范围包括网络安全、数据安全、应用程序安全和事件响应。 什么是数据科学? 相比之下,数据科学旨在从大量结构化和非结构化数据中获取洞见、模式和重要信息。数据科学家使用统计分析、机器学习和各种算法来解决复杂问题、做出数据驱动的决策和创建预测模型。他们使用编程语言、统计工具和可视化技术来提取有用信息并产生实用洞见。 技能集比较 为了评估数据科学与网络安全作为职业道路的适宜性,了解每个领域所需的必要技能集是至关重要的。 网络安全所需的技术技能 网络安全专业人员需要扎实的操作系统、网络协议和安全概念基础。他们应该了解入侵检测、渗透测试、加密、漏洞评估和事件响应等方面。 此外,了解安全工具和监管合规框架也是必要的。 数据科学所需的技术技能 数据科学家必须精通 Python、R 或 SQL 等编程语言。他们需要扎实掌握大数据技术、数据可视化、机器学习技术和统计学。实际的数据科学工作还需要熟练掌握特征工程、探索性数据分析和数据处理等方面的技能。 重叠的技能和可转移的知识 虽然网络安全与数据科学具有明显的技术技能要求,但也存在重叠和可转移的知识领域。两个领域都需要扎实的数学基础、问题解决、批判性思维和分析能力。 此外,编程和处理大型数据集的熟练程度在两个领域中都非常有价值。 教育背景和培训 网络安全专业人员的学术资格和认证 在计算机科学、信息技术或相关学科方面有学历背景的人适合从事网络安全工作。但是,诸如认证信息系统安全专业人员(CISSP)、认证道德黑客(CEH)和认证信息安全经理(CISM)等专业证书可以提高就业机会并证明专业素养。 数据科学专业人员的学术资格和认证…

Leave a Comment

认识 PANOGEN:一种生成方法,可以基于文本条件潜在地创造出无限数量的多样化全景环境

每当有人谈论人工智能时,脑海中首先浮现的是机器人、人形机器人或者可以像人类一样做事情的机器人,甚至比人类做得更好。我们都见过这些特定的微型机器人在各个领域中的应用,例如在机场指导人们到达某些出口,在军队中导航和处理困难情况,甚至作为跟踪器。 所有这些都是AI在更真实意义上的一些惊人的例子。与每个其他AI模型一样,这需要满足一些基本要求,例如选择算法的选择,用于训练的大量数据,微调,然后部署。 现在,这种类型的问题通常被称为视觉和语言导航问题。人工智能(AI)中的视觉和语言导航是指AI系统利用视觉和语言信息理解和导航世界的能力。它结合了计算机视觉、自然语言处理和机器学习技术,构建能够感知图形场景、理解文本指令和导航物理环境的智能系统。 许多模型,如CLIP、RecBERT和PREVALENT,都在解决这些问题,但所有这些模型都存在两个主要问题。 有限的数据和数据偏差:训练视觉和学习系统需要大量标记数据。但是,在某些领域中,获取这种数据可能是昂贵、耗时甚至不切实际的。此外,具有多样性和代表性数据的可用性对于避免系统的理解和决策的偏差至关重要。如果训练数据有偏差,可能会导致不公平或不准确的预测和行为。 泛化:AI系统需要很好地泛化到看不见或新的数据。它们应该记住训练数据并学习可以应用于新示例的基本概念和模式。当模型在训练数据上表现良好但无法推广到新数据时,就会出现过拟合。在涉及光照条件、视角和物体外观变化的复杂视觉任务中,实现强健的泛化是一个重要的挑战。 尽管已经有很多努力来帮助代理学习多样化的指令输入,但所有这些数据集都是基于Matterport3D中相同的3D房间环境构建的,该数据集仅包含60种不同的房间环境用于代理训练。 PanoGen是AI领域的突破性解决方案。现在,有了PanoGen,数据稀缺问题已得到解决,语料库的创建和数据多样化也得到了简化。 PanoGen是一种生成方法,可以根据文本创建无限多样化的全景图像(环境)。他们通过为Matterport3D数据集中的房间图像加上标题来收集房间描述,然后使用SoTA文本到图像模型生成全景视觉(环境)。然后,他们使用递归外部绘制技术在生成的图像上创建一致的360度全景视图。所开发的全景图片共享类似的语义信息,以文本描述为条件,这确保了全景中对象的共现遵循人类直觉,并通过图像外部绘制创造了足够的房间外观和布局多样性。 他们提到已经有一些尝试增加训练数据的多样性并改进语料库。所有这些尝试都是基于从HM3D(Habitat Matterport 3D)中混合场景,这再次带回了同样的问题,即所有设置或多或少是用Matterport3D制作的。 PanoGen解决了这个问题,因为它可以创建无限数量的训练数据,并具有所需的许多变化。 该论文还提到,使用PanoGen方法,他们击败了当前的SoTA,并在Room-to-Room、Room-for-Room和CVDN数据集上实现了新的SoTA。 来源:https://arxiv.org/abs/2305.19195 来源:https://arxiv.org/abs/2305.19195 综上所述,PanoGen是解决视觉和语言导航问题的关键挑战的突破性开发。通过能够生成许多变化的无限训练样本,PanoGen为AI系统理解和像人类一样导航真实世界开辟了新的可能性。该方法卓越的超越了SoTA,突显出其改革AI驱动的VLN任务的潜力。

Leave a Comment

一个新的人工智能研究介绍了“识别任何东西模型(RAM)”:一种强大的图像标记基础模型

在自然语言处理(NLP)任务中,大型语言模型(LLM)在大规模在线数据集上训练表现出色。通过扩大数据规模,分割任何模型(SAM)在计算机视觉(CV)中显示出了出色的零样本定位能力。 不幸的是,SAM 无法生成语义标签,这是与定位相当的基本任务。多标签图像识别是识别单个图像的多个标签的目标,也称为图像标记。由于图像包含各种标签,包括对象、场景、属性和活动,图像标记是一个重要且有用的计算机视觉问题。 以下是阻碍图像标记的两个主要因素: 高质量数据的广泛收集。目前仍缺乏一个能够半自动或自动注释各类大量照片的高效数据注释引擎,以及一个标准化和全面的标记系统。 建立起足够的开放词汇表和强大的模型,采用高效灵活的模型设计,利用大规模的弱监督数据。 识别任何模型(RAM)是一个强大的图像标记基础模型,由OPPO研究院、国际数字经济学院(IDEA)和AI2机器人的研究人员刚刚推出。在数据方面,RAM可以克服标签系统不足、数据集不足、数据引擎低效和架构限制等问题。 研究人员首先创建了标准的全球命名约定。他们使用学术数据集(分类、检测和分割)和商业标记工具(Google、Microsoft和Apple)来丰富他们的标记系统。通过将所有可用的公共标记与常见的基于文本的标记相结合,标记方法产生6,449个标签,共同解决了绝大部分用例。研究人员表示,可以使用开放集识别来识别其余的开放词汇标签。 自动注释大规模照片使用标签系统是一项具有挑战性的任务。图像标记的提出方法受到了该领域以前的工作的启发,该领域使用大规模的公共图像文本对来训练强大的视觉模型。为了将这些大量的图片文本数据用于标记,团队采用了自动文本语义解析来提取图像标签。通过这种方法,他们可以在不依赖手动注释的情况下,基于图像文本对获得大量的图片标签。 因为互联网来源的图像文本组合往往存在随机噪声,所以团队创建了数据标记引擎来提高注释准确性。为了解决缺少标签的问题,他们采用现有模型来产生补充分类。在处理错误标记区域时,他们确定图像中与不同标签相关的某些部分,然后使用区域聚类方法查找和消除同一类别内的异常值。此外,还删除做出不一致预测的标签,以获得更精确的注释。 RAM通过为标签搜索添加语义上下文,允许对新颖类别进行泛化。RAM的识别能力可以通过这种模型架构为任何视觉数据集提高。通过展示一个在嘈杂的、无注释的数据上训练的通用模型可以击败高度监督的模型,RAM引入了一种新的图像标记范式。RAM需要一个免费且公开可用的没有注释的数据集。RAM的最强大版本只需在8个A100 GPU上训练三天。 据团队表示,RAM仍有改进的空间。这包括运行多个数据引擎迭代、增加骨干参数以提高模型容量,以及扩展训练数据集超过1400万张照片,以更好地覆盖不同领域。

Leave a Comment

直播自台北: NVIDIA CEO 发布面向各行业的 Gen AI 平台

在疫情以来的首次现场主题演讲中,NVIDIA的创始人兼CEO黄仁勋今天在台北举行的COMPUTEX大会上宣布了一些平台,这些平台可以帮助公司乘风破浪,参与到一波历史性的生成式人工智能浪潮中,这个浪潮正在改变从广告到制造业再到电信等行业。 “我们回来了,”黄仁勋在他的家中厨房进行了几年的虚拟主题演讲之后在舞台上大声喊道。“我已经有将近四年没有公开演讲了–祝我好运!” 他向约3500名观众演讲了近两个小时,介绍了加速计算服务、软件和系统,这些都使新的商业模式成为可能,也让现有的商业模式更加高效。 “加速计算和人工智能标志着计算机的重新发明,”黄仁勋说道,他在过去一周在家乡的旅行每天都被当地媒体追踪报道。 为了展示它的强大,他使用了他所在的巨大的8K墙,展示了一个文本提示,生成了一首主题歌,可以随意地唱,就像任何卡拉OK歌曲一样。黄仁勋偶尔用他的家乡语言和观众开玩笑,并短暂地带领观众唱了这首新歌。 “现在我们处于一个新的计算时代的临界点,加速计算和人工智能已经被全球几乎所有的计算和云计算公司所接受,”他说道,指出现在有40,000家大型公司和15,000家初创公司使用NVIDIA技术,去年CUDA软件下载量达到2500万次。 主题演讲的重要新闻公告 Grace Hopper提供大内存超级计算机,用于生成式人工智能。 模块化参考架构可以创建100多个加速服务器变体。 WPP和NVIDIA在Omniverse中创建数字广告内容引擎。 SoftBank和NVIDIA在日本建立5G和生成式人工智能数据中心。 网络技术加速基于以太网的人工智能云。 NVIDIA ACE for Games利用生成式人工智能为角色赋予生命。 全球的电子制造商都在使用NVIDIA人工智能。 企业人工智能的新引擎 对于需要最佳人工智能性能的企业,他推出了DGX GH200,一个大内存人工智能超级计算机。它使用NVIDIA NVLink将多达256个NVIDIA GH200 Grace Hopper超级芯片组合成一个单一的数据中心大小的GPU。…

Leave a Comment

Can't find what you're looking for? Try refining your search: