全球4.6万亿美元的电子制造业横跨全球超过1000万家工厂,生产无缺陷产品对其至关重要。为了驱动产品的卓越性,领先的电子制造商正在采用NVIDIA工厂Metropolis。 其中包括富士康工业互联网、和硕、广达、西门子和纬创等50多家制造业巨头和工业自动化提供商。NVIDIA的创始人兼首席执行官黄仁勋在台北举行的COMPUTEX技术大会上宣布了这一消息。 NVIDIA工厂Metropolis是一组工厂自动化工作流程,可使工业技术公司和制造商开发、部署和管理定制的质量控制系统,提供竞争优势。 全球制造商每年在追求质量控制方面的支出超过6万亿美元,几乎每个产品系列都应用缺陷检测。但是,手动检查无法跟上需求。 许多制造商拥有自动光学检测(AOI)系统,可以帮助解决问题,但通常这些系统具有高假检测率,需要在劳动力市场已经具有挑战性的情况下进行人力密集型和昂贵的二次手动检查,降低了它们的价值。 NVIDIA工厂Metropolis现在提供了一种先进的人工智能平台和工作流程,用于开发诸如AOI之类的极其准确的检测应用程序。 和硕采用Metropolis工厂推动AOI 总部位于台北北投区的领先制造商和硕正在其生产线上使用NVIDIA工厂Metropolis。 和硕制造从主板到智能手机、笔记本电脑和游戏机等各种产品。每天处理超过300种产品和超过5,000个零部件的十几个制造设施,和硕有很多质量控制需要管理其产品组合。此外,频繁的产品更新要求对其AOI系统进行持续修订。 和硕正在使用整个Metropolis工厂工作流程来支持其印刷电路板(PCB)工厂进行模拟、机器人和自动生产检查。工厂Metropolis使这家电子制造业巨头能够快速更新其缺陷检测模型,并在其AOI系统上实现99.8%的准确率,从小数据集开始。 和硕使用NVIDIA Isaac Sim进行机器人模拟器编程,模拟其移动机器人队列的表现。 利用NVIDIA Omniverse Replicator提供的合成数据生成来模拟缺陷,帮助使用域随机化等技术构建大规模训练数据集。 在Metropolis中,NVIDIA TAO Toolkit允许和硕访问预训练模型和转移学习,从其增强的数据集构建高度准确的缺陷检测模型。 NVIDIA DeepStream软件开发工具包可用于开发优化的智能视频应用程序,处理多个视频、图像和音频流。使用DeepStream,和硕能够实现10倍的吞吐量提高。 此外,Omniverse使和硕能够运行其检测设备的数字孪生,因此可以模拟未来的检测过程,为其生产工作流程带来效率提高的可能性。 它也被广达子公司Techman Robot使用,后者利用Isaac…
Leave a Comment四海吧 Posts
如何帮助机器人建造更好的机器人?通过模拟更多的机器人。 NVIDIA创始人兼CEO黄仁勋今天展示了领先的电子制造商Quanta如何使用AI启用的机器人来检查其产品的质量。 在本周的台北国际电脑展上的主题演讲中,黄仁勋介绍了电子制造商如何数字化其最先进的工厂。 例如,Quanta子公司Techman Robot的机器人使用NVIDIA Isaac Sim —— 一款基于NVIDIA Omniverse构建的机器人模拟应用程序,开发了一个定制的数字孪生应用程序,以改进这家总部位于台湾的电子产品提供商的生产线上的检查。 以下演示展示了Techman如何使用Isaac Sim来优化制造线上机器人的机器人检查。事实上,这是机器人建造机器人。 自动光学检查,或AOI,帮助制造商更快地识别缺陷,并向全球客户交付高质量的产品。现在启用AOI的NVIDIA Metropolis视觉AI框架还用于优化从汽车到电路板等产品的检查工作流程。 Techman通过使用Isaac Sim模拟、测试和优化其最先进的协作机器人或合作机器人,与使用云端的NVIDIA AI和GPU进行训练和机器人本身的推理,开发了AOI。 Isaac Sim是基于NVIDIA Omniverse构建的——一个用于构建和操作工业元宇宙应用的开放式开发平台。 Techman机器人AOI解决方案的独特特点包括将检查摄像头直接放置在关节式机器人手臂上,以及GPU集成在机器人控制器中。 这使得机器人能够检查固定摄像头无法访问的产品区域,并利用边缘上的AI即时检测缺陷。 Techman的首席运营官Scott Huang表示:“与其他机器人品牌相比,Techman机器人的独特特点在于其内置的视觉系统和AI推理引擎。NVIDIA RTX…
Leave a Comment在疫情以来的首次现场主题演讲中,NVIDIA的创始人兼CEO黄仁勋今天在台北举行的COMPUTEX大会上宣布了一些平台,这些平台可以帮助公司乘风破浪,参与到一波历史性的生成式人工智能浪潮中,这个浪潮正在改变从广告到制造业再到电信等行业。 “我们回来了,”黄仁勋在他的家中厨房进行了几年的虚拟主题演讲之后在舞台上大声喊道。“我已经有将近四年没有公开演讲了–祝我好运!” 他向约3500名观众演讲了近两个小时,介绍了加速计算服务、软件和系统,这些都使新的商业模式成为可能,也让现有的商业模式更加高效。 “加速计算和人工智能标志着计算机的重新发明,”黄仁勋说道,他在过去一周在家乡的旅行每天都被当地媒体追踪报道。 为了展示它的强大,他使用了他所在的巨大的8K墙,展示了一个文本提示,生成了一首主题歌,可以随意地唱,就像任何卡拉OK歌曲一样。黄仁勋偶尔用他的家乡语言和观众开玩笑,并短暂地带领观众唱了这首新歌。 “现在我们处于一个新的计算时代的临界点,加速计算和人工智能已经被全球几乎所有的计算和云计算公司所接受,”他说道,指出现在有40,000家大型公司和15,000家初创公司使用NVIDIA技术,去年CUDA软件下载量达到2500万次。 主题演讲的重要新闻公告 Grace Hopper提供大内存超级计算机,用于生成式人工智能。 模块化参考架构可以创建100多个加速服务器变体。 WPP和NVIDIA在Omniverse中创建数字广告内容引擎。 SoftBank和NVIDIA在日本建立5G和生成式人工智能数据中心。 网络技术加速基于以太网的人工智能云。 NVIDIA ACE for Games利用生成式人工智能为角色赋予生命。 全球的电子制造商都在使用NVIDIA人工智能。 企业人工智能的新引擎 对于需要最佳人工智能性能的企业,他推出了DGX GH200,一个大内存人工智能超级计算机。它使用NVIDIA NVLink将多达256个NVIDIA GH200 Grace Hopper超级芯片组合成一个单一的数据中心大小的GPU。…
Leave a Comment炎热的夏天和长日子的季节已经到来,所以今年六月加入 GeForce NOW 的 20 款游戏让你可以在室内度过这个夏天。或者在游泳池边、奶奶家或车里跨设备流式传输,无论哪种方式,GeForce NOW 都能满足你的需求。 《帝国时代》系列的游戏是下一个进入 GeForce NOW 的 Xbox 游戏,特别是作为 GeForce NOW 游戏库中超过 1,600 款游戏的一部分,为会员们提供了丰富的游戏选择。 扩展你的帝国 从石器时代到云端。 NVIDIA 上个月作为其与微软持续合作的一部分,将首批 Xbox 游戏发布到云上。现在,它成为第一个将…
Leave a Comment在NVIDIA AI播客的最新一期中,edX创始人、2U首席平台官Anant Agarwal分享了他对在线教育未来的愿景以及AI如何革新学习体验。 作为大规模开放在线课程(MOOCs)的坚定支持者,Agarwal讨论了教育的可及性和质量的重要性。这位麻省理工学院教授和著名的教育科技先锋还强调了在edX平台中实现AI动力功能的重要性,包括ChatGPT插件和edX Xpert,一款AI动力的学习助手。 你可能还喜欢 Jules Anh Tuan Nguyen解释了AI如何让截肢者控制义肢手和视频游戏 明尼苏达大学的博士后研究员讨论了他的努力,让截肢者可以用大脑控制他们的义肢,甚至是手指的动作。 Overjet的Ai Wardah Inam谈论将AI引入牙科 作为NVIDIA Inception的成员,Overjet正在迅速将AI引入牙科诊所。该公司的首席执行官Wardah Inam博士讨论了使用AI来改善患者护理。 Immunai的CTO和联合创始人Luis Voloch谈论使用深度学习开发新药 Immunai的联合创始人兼首席技术官Luis Voloch谈论了如何以机器学习和数据科学的思维方式应对免疫系统的挑战。 订阅AI播客:现在可在Amazon Music上获取 AI播客现在可通过Amazon Music获取。…
Leave a Comment将 GeForce NOW 与 Steam、Epic Games Store 和 Ubisoft 账户链接,更快地进入你喜爱的游戏。 并通过观看于 6 月 12 日星期一举行的 Ubisoft Forward 活动,一窥 GeForce NOW 这一年后即将推出的更多游戏内容,届时这家游戏发行商将揭示最新的消息和公告。 此外,本周还有两款新游戏可以从云端进行流媒体游玩,以及来自 Ubisoft 的《汤姆·克兰西:全境封锁2》的最新赛季。 链接账户…
Leave a Comment通过使用户连接工具和服务,能够遵循图形用户界面(GUI)指令的系统可以自动化繁琐的工作,增加可访问性,并增加数字助手的实用性。 许多基于GUI的数字代理实现都依赖于HTML衍生的文本表示,这些表示并不总是容易获取。人们通过感知视觉输入并使用标准的鼠标和键盘快捷键来使用GUI;他们不需要查看应用程序的源代码来弄清楚程序的工作原理。无论底层技术如何,他们都可以通过直观的图形用户界面快速掌握新的程序。 雅达利游戏系统只是一个例子,说明了一个从仅像素输入中学习的系统可以表现得多么出色。然而,在尝试基于GUI的指令跟随任务时,从仅像素输入中学习时会面临许多障碍,这与通用的低级动作相结合。要对GUI进行视觉解释,必须熟悉界面的结构,能够识别和解释视觉定位的自然语言,识别和识别视觉元素,并预测这些元素的功能和交互方法。 谷歌DeepMind和谷歌介绍了PIX2ACT,这是一个模型,它以基于像素的截屏作为输入,并选择与基本鼠标和键盘控件匹配的操作。研究小组首次证明,一个只有像素输入和通用操作空间的代理可以超过人类众包工作者,并达到使用DOM信息和相当数量的人类演示的最先进代理的性能。 为此,研究人员扩展了PIX2STRUCT。这个基于Transformer的图像到文本模型已经通过大规模在线数据进行了训练,将截图转换为基于HTML的结构化表示。PIX2ACT应用树搜索来反复构建新的专家轨迹进行训练,采用人类演示和与环境的交互的组合。 团队在这里的努力包括创建一个通用的基于浏览器的环境框架,并使用标准的跨域观察和操作格式调整了两个基准数据集MiniWob++和WebShop,以在其环境中使用。使用他们提出的选项(不带DOM的CC-Net),PIX2ACT在MiniWob++上的表现比人类众包工作者高出约四倍。削减实验表明,PIX2STRUCT的基于像素的预训练对PIX2ACT的性能至关重要。 对于基于GUI的指令跟随像素输入,研究结果表明PIX2STRUCT通过屏幕截图解析的预训练的有效性。在行为克隆环境中进行预训练将MiniWob++和WebShop任务得分分别提高了17.1和46.7。尽管与使用基于HTML的输入和任务特定操作的较大语言模型相比仍存在性能劣势,但这项工作为这个环境设置了第一个基准。
Leave a Comment准确地分割多个对象对于各种场景理解应用非常重要,例如图像/视频处理、机器人感知和AR/VR。最近发布了Segment Anything Model (SAM),这是一个广泛的图像分割基本视觉模型。它使用十亿级别的掩码标签进行训练。SAM可以使用一系列点、边界框或粗略掩码作为输入,在多个上下文中分割各种对象、组件和可视结构。它的零-shot分割能力引发了快速的范式变化,因为它们可以在许多应用程序中仅使用一些基本提示。 尽管其表现出色,但SAM的分割结果仍然需要改进。SAM存在两个重要问题:1)粗糙的掩码边缘,经常遗漏细小物体结构的分割,如图1所示。2)在困难情况下,错误的预测、损坏的掩码或显著的不准确性。这通常与SAM的误读细小结构有关,例如图中右上角的风筝线。基本分割方法(如SAM)的应用和效果受到这些错误的严重限制,特别是对于自动注释和图像/视频编辑作业,其中极其精确的图像掩码至关重要。 图1:比较了SAM和我们的HQ-SAM的预测掩码,使用了单个红色框或对象上的多个点的输入提示。具有极其精确边界的HQ-SAM生成明显更详细的结果。在最右边的一列中,SAM误读了风筝线的细小结构,并为输入框提示生成了大量的错误和破损孔。 来自苏黎世联邦理工学院和香港科技大学的研究人员建议HQ-SAM,它保持了原始SAM的强大零-shot能力和灵活性,同时能够预测非常准确的分割掩码,即使在极其困难的情况下(参见图1)。他们建议对SAM进行小的调整,添加少于0.5%的参数,以增加其高质量分割的能力,同时保持效率和零-shot性能。直接调整SAM解码器或添加新的解码器模块会对零-shot分割的一般布局造成严重的影响。因此,他们建议HQ-SAM设计完全保留零-shot效率,与并重用当前学习的SAM结构相集成。 除了原始提示和输出令牌外,他们还创建了一个可学习的HQ-Output Token,馈送到SAM的掩码解码器中。与原始输出令牌相比,他们的HQ-Output Token及其相关的MLP层被教授预测高质量的分割掩码。其次,他们的HQ-Output Token在改进的特征集上运行,以生成精确的掩码信息,而不仅仅是使用SAM的掩码解码器功能。他们将SAM的掩码解码器特征与其ViT编码器的早期和晚期特征图结合使用,以使用全局语义上下文和细粒度的本地特征。 在训练期间,完整的预训练SAM参数被冻结,只更新HQ-Output Token、相关的三层MLP和一个小型特征融合块。学习准确分割所需的是一个具有复杂几何形状的各种对象的精确掩码注释的数据集。使用11M张照片和类似于SAM的模型自动创建的1.1亿个掩码的SA-1B数据集来训练SAM。然而,图1中SAM的性能表明,使用这个大型数据集具有重大的经济后果。它无法产生研究所需的高质量掩码生成。 因此,他们创建了HQSeg-44K,一个新的数据集,包括44K个高精度细粒度图像掩码注释。他们将六个现有的图像数据集与非常精确的掩码注释结合起来,以创建HQSeg-44K,涵盖了1000多个不同的语义类别。由于数据集较小,以及他们简单的集成设计,HQ-SAM可以在8个RTX 3090 GPU上进行训练,时间不到4小时。他们进行了严格的定量和定性实验研究,以验证HQ-SAM的有效性。 他们在来自各种下游任务的九个不同分割数据集上将HQ-SAM与SAM进行了比较,其中有七个在零-shot转移协议下,包括COCO、UVO、LVIS、HQ-YTVIS、BIG、COIFT和HR-SOD。这一彻底的分析表明,与SAM相比,所提出的HQ-SAM可以制造出更高质量的掩模,同时仍具有零-shot能力。他们的GitHub页面上有一个虚拟演示。 通过引入对原始SAM的可忽略开销,他们提出了第一个高质量的零-shot分割模型。 查看论文和GitHub。不要忘记加入我们的23k+ ML SubReddit、Discord频道和电子邮件通讯,在这里我们分享最新的AI研究新闻、酷炫的AI项目等等。如果您对上述文章有任何问题或我们漏掉了任何东西,请随时发送电子邮件至Asif@marktechpost.com 查看AI工具俱乐部中的100个AI工具 这篇文章最初发表在MarkTechPost上。
Leave a Comment谷歌的一组研究人员最近与 Muse 的快速文本到图像模型合作开发了创新的神经网络 StyleDrop。这项开创性的技术允许用户生成忠实地体现特定视觉风格的图像,捕捉细微的差别和复杂性。通过选择具有所需风格的原始图像,用户可以将其无缝地转移到新图像,同时保留所选择的风格的所有独特特征。StyleDrop 的多功能性还可用于与完全不同的图像一起使用,使用户能够将儿童绘画转换成风格化的标志或角色。 StyleDrop 由 Muse 先进的生成视觉转换器驱动,使用用户反馈、生成图像和 Clip 分数的组合进行训练。神经网络是通过最小的可训练参数进行微调的,仅占总模型参数的不到 1%。通过迭代训练,StyleDrop 不断提高生成图像的质量,确保在短短几分钟内获得令人印象深刻的结果。 这个创新工具对于寻求开发其独特视觉风格的品牌来说是非常宝贵的。有了 StyleDrop,创意团队和设计师可以高效地以其所偏爱的方式原型设计想法,使其成为不可或缺的资产。对 StyleDrop 的性能进行了广泛的研究,将其与其他方法(如 DreamBooth、Imagen 上的文本反转和 Stable Diffusion)进行了比较。结果一致展示了 StyleDrop 的卓越性,提供了高质量的图像,紧密地符合用户指定的风格。 StyleDrop 的图像生成过程依赖于用户提供的基于文本的提示。StyleDrop…
Leave a Comment尽管被广泛赞誉为能够生成自然语言文本的能力,但大型语言模型(LLMs)存在数据记忆、偏见和不适当语言等潜在负面影响,这引起了人们对其潜在负面影响的担忧。由于LLMs的复杂性和不断发展的能力,验证和纠正这些担忧是具有挑战性的。在这项研究中,作者提出了ReLM,这是一个通过传统的正则表达式检查和查询LLMs的系统。通过ReLM,许多语言模型评估可以通过将复杂的评估方法简化为正则表达式查询来形式化和实现。 通过对记忆、性别偏见、毒性和语言理解的查询结果,ReLM可以将统计和快速调整覆盖范围扩展到比最先进的即席搜索多达15倍。对于日益增长的LLM验证挑战,ReLM提供了一个有竞争力和广义的起点。 ReLM是第一个允许从整体上描述测试模式集合以直接测量LLM行为的解决方案。ReLM的成功源于使用解空间的紧凑图形表示,该解空间是从正则表达式导出的,然后在执行之前被编译成LLM特定的表示。因此,用户不需要熟悉LLM的内部工作方式;测试产生的结果与如果所有可能的字符串存在于现实世界中一样。除了建立ReLM之外,作者还展示了如何在各种LLM评估任务中使用字符串模式。 Python用户程序可以使用ReLM框架;ReLM公开了这些程序可以使用的特定API。要使用ReLM,软件需要发送一个查询对象和在第三方库(如Hugging Face Transformers(Wolf等,2020))中定义的LLM。正则表达式、LLM决策规则和遍历算法都存储在查询对象中。 在编写代码的同时,ReLM的用户可以将验证任务分为两个部分: 使用正则表达式正式描述一组字符串的子集。 引导引擎通过字符串枚举和评估的过程。 研究人员表明,ReLM可以快速、表达地执行常见查询,从而显著减少LLMs所需的验证工作量。最重要的是: 形式上概述了将正则表达式应用于LLM预测。与可数的多项选择问题不同,正则表达式可以描述具有不确定大小的集合。与有时会产生模糊响应的开放式问题相比,ReLM的结果始终是清晰的。 识别和构建了LLM推理查询的条件和无条件类别。许多令牌序列可以表示一个固定的查询字符串,这激发了一种压缩表示的方法,因为学者在研究无条件生成时已经证明了这一点。他们是第一组使用自动机来容纳这些变体编码的人。 设计和实现了一个有效将正则表达式转换为有限自动机的正则表达式推理引擎。研究人员使用了最短路径和随机图遍历,实现了具有竞争力的GPU利用率和运行时间(几秒钟)。 作者使用GPT-2模型说明了在LLM验证的上下文中,ReLM在评估记忆、性别偏见、毒性和语言理解任务方面的价值。 更多细节可在https://github.com/mkuchnik/relm中找到。 最后 由于自然语言的复杂性和LLMs的不断增长,验证大型语言模型(LLMs)的抽象性变得越来越必要。为了使用LLMs执行验证任务,研究人员提出了ReLM,这是第一个可编程框架。使用ReLM,您可以在正则表达式中编写逻辑查询,然后将其转换为LLM语言中的可执行形式。ReLM可以以比以前的方法节省2.5倍的数据,或以比以前的方法快15倍,或以提供额外见解的方式运行记忆、性别偏见、毒性和语言理解任务。虽然ReLM的结果强烈反对依赖即席LLM验证,但系统地解决这些问题引入了其他困难(例如,从左到右的自回归解码有利于后缀完成)。我们的长期目标包括提高ReLM的查询优化能力并将其带到更多模型系列中。
Leave a CommentGPT模型是OpenAI开发的ChatGPT聊天机器人背后的变压器架构,它基于通过仅几个例子学习任务的概念。这种称为上下文学习的方法,使模型避免了使用数千个输入文本进行微调,只使用特定于任务的示例作为输入就能学习在不同任务上表现良好。针对特定任务微调模型可能非常昂贵,因为GPT是一个具有数十亿参数的“大”语言模型,由于在微调期间需要更新所有模型参数,因此相对而言成本较高。 上下文学习在代码生成、问答、机器翻译等方面得到了有效应用,但在图机器学习任务中仍然存在局限性和挑战。一些图机器学习任务包括识别在社交网络上传播半真半假或虚假新闻的传播者和跨电子商务网站的产品推荐。上下文学习在制定和建模这些任务的过程中面临局限性,无法形成和建模统一的任务表示,使模型能够处理各种任务而无需重新训练或参数调整。 最近,一组研究人员在其研究论文中介绍了PRODIGY,这是一个预训练框架,可实现在图形上下文中学习。PRODIGY(Pretraining Over Diverse In-Context Graph Systems)使用提示图表示形式来制定上下文学习。提示图作为上下文图任务表示,集成了节点、边缘和图级机器学习任务的建模。提示网络将输入节点或边缘与其他标签节点连接,并对提示示例和查询进行上下文化。这种互连表示允许指定各种图形机器学习任务到同一模型中,而不受图形大小的限制。 由斯坦福大学和卢布尔雅那大学的研究人员提出,团队设计了一种图形神经网络架构,专门用于处理提示图,并有效地对图结构化数据进行建模和学习。所提出的设计利用GNN教授提示图的节点和边缘的表示。此外,还引入了一系列上下文预训练目标,以指导学习过程,提供监督信号,使模型能够捕获相关的图形模式并在不同的任务中进行推广。 为了评估PRODIGY的性能和有效性,作者在涉及引文网络和知识图的任务上进行了实验。引文网络代表科学论文之间的关系,而知识图则捕获有关不同领域的结构化信息。使用上下文学习对预训练模型进行了测试,并将结果与硬编码适应性的对比预训练基线和使用有限数据的标准微调进行了比较。PRODIGY在准确性方面平均优于对比预训练基线的硬编码适应性18%。当应用上下文学习时,与标准微调相比,平均提高了33%。 总之,PRODIGY在基于图形的场景中似乎很有前途,如图机器学习应用中的上下文学习。它甚至可以在以前未见过的图形上执行下游分类任务,使其更加有效和有益。
Leave a Comment本文讨论了有助于成功扩展数据科学项目的关键组件它涵盖了如何使用API收集数据,如何将数据存储在云中,如何清理和处理数据,如何可视化数据以及如何利用数据可视化的威力…
Leave a Comment机器学习系统设计:端到端实例指南是一个实用指南,用于规划和设计成功的机器学习应用程序它提供了一个清晰、可重复的框架,用于构建、维护和改进任何规模的系统
Leave a Comment我很高兴地分享最近计算机视觉领域的进展,例如突破性的零样本目标检测器(如Grounding DINO)的出现,已经彻底改变了图像标注的过程
Leave a Comment基础模型是人工智能领域的一个重大进展,可以创建多功能和高性能的模型,可应用于各种领域,如自然语言处理、计算机视觉和多模态任务
Leave a Comment该博客专注于GPT模型,提供深入的理解和分析它解释了GPT模型的三个主要组成部分:生成、预训练和变压器
Leave a Comment在这篇博客中,我分享了我在困难情况下寻找数据科学工作时学到的4个宝贵的经验教训,包括60天的移民政策、裁员和健康问题我希望能为那些面临类似障碍的人提供洞见和指导,无论是因为最近的裁员还是移民挑战
Leave a Comment想要将ChatGPT集成到你的数据科学工作流中吗?以下是一个示例,以及有关如何在数据科学中充分利用ChatGPT的技巧和最佳实践
Leave a Comment