Press "Enter" to skip to content

Category: 计算科学

这个AI工具解释了AI如何“看”图像以及为什么可能会把宇航员误认为铁锹

广泛认可的是,人工智能(AI)近年来取得了重大进展,取得了显著的成就和突破性结果。然而,AI并不能在所有任务上都取得同样令人印象深刻的结果。例如,虽然AI在某些视觉任务(如人脸识别)中可以超越人类表现,但在图像处理和分类中也可能出现令人困惑的错误,从而凸显出任务的挑战性。因此,研究人员和开发人员对了解这种系统在相关任务中的内部工作方式以及它们如何做出某些决策的兴趣日益浓厚。 众所周知,类似于人脑,AI系统采用了分析和分类图像的策略。然而,这些过程背后的精确机制仍然是个谜,导致形成了一个黑匣子模型。 因此,现代机器学习模型,特别是神经网络,对解释决策的方法的需求越来越大。在这种背景下,归因方法已经流行起来,它们生成热图,指示影响模型决策的单个像素的重要性。然而,最近的研究揭示了这些方法的局限性,因为它们往往只关注图像中最显著的区域,揭示了模型的注视点,但没有阐明模型在这些区域内感知到什么。因此,为了揭示深度神经网络的奥秘,揭示AI系统处理图像的策略,布朗大学Carney大脑科学研究所的研究人员和法国人工和自然智能图卢兹研究所的一些计算机科学家合作开发了CRAFT(概念递归激活因子化解释)。这个创新工具旨在识别AI模型在决策过程中关注的“什么”和“哪里”,从而强调人脑和计算机视觉系统在理解视觉信息方面的差异。该研究还在加拿大举办的著名计算机视觉和模式识别会议2023年上进行了展示。 正如前面提到的,使用归因方法了解AI系统如何使用图像的特定区域做出决策一直是具有挑战性的。然而,仅仅识别有影响力的区域而不澄清为什么这些区域至关重要,无法为人类提供全面的解释。CRAFT通过利用现代机器学习技术来揭示神经网络学习到的复杂多维视觉表示,克服了这一限制。为了提高理解力,研究人员开发了一个用户友好的网站,个人可以轻松地探索和可视化神经网络用于分类对象的基本概念。此外,研究人员还强调,引入CRAFT后,用户不仅可以深入了解AI系统用于构建图像和理解模型在特定区域内感知的概念,还可以了解这些概念的层次排序。这一突破性的进展为揭示AI系统的决策过程和提高其分类结果的透明度提供了宝贵的资源。 从本质上讲,研究人员的工作的关键贡献可以总结为三个主要点。首先,团队设计了一种递归方法来有效识别和分解多层次的概念。这种创新策略使我们能够全面了解神经网络内部组件。其次,引入了一种开创性的方法,通过利用Sobol指数准确估计概念的重要性。最后,实施隐式微分改变了概念归因地图的创建方式,为可视化和理解概念与像素级特征之间的关联提供了一种强大的工具。此外,团队进行了一系列实验评估,以证实他们方法的效率和重要性。结果显示,CRAFT优于所有其他归因方法,巩固了它的显著实用性,并成为进一步研究基于概念的解释方法的基石。 研究人员还强调了理解计算机如何感知图像的重要性。通过深入了解AI系统采用的视觉策略,研究人员在提高基于视觉的工具的准确性和性能方面具有竞争优势。此外,这种理解有助于研究人员了解攻击者如何通过对像素强度进行微妙的变化来欺骗AI系统,而这些变化对人类来说几乎察觉不到,从而对抗敌对和网络攻击具有益处。至于未来的工作,研究人员对计算机视觉系统能够超越人类能力的那一天感到兴奋。在解决癌症诊断、化石识别等未解决的挑战方面,这些系统有潜力改变许多领域。

Leave a Comment

什么是可编程门阵列(FPGA):FPGA与图形处理器(GPU)在人工智能(AI)中的比较

可编程门阵列(Field Programmable Gate Array,FPGA)是一种可以在制造后进行配置和定制的集成电路。由于这种能力,这些芯片被称为”可编程字段”。它们由可编程逻辑块组成,可以设置为执行各种功能或充当逻辑门,为用户在电路操作方面提供了很大的灵活性。 可编程门阵列(FPGAs)是由可配置逻辑块(CLBs)和可编程互连组成的半导体器件。这些块可以执行简单到复杂的操作,并且可以包含翻转器或存储块等存储组件。 FPGAs类似于可编程只读存储器芯片,但可以容纳更多的门,并且是可重新编程的,而ASIC是为特定任务设计的。它们可以用于定制微处理器以用于特定用途,并且在无线通信、数据中心、汽车、医疗和航空航天等各个行业中广泛应用。FPGAs的可重新编程性质允许根据需要进行灵活的设计更新。                          来源:https://allaboutfpga.com/fpga-architecture/ 来源:https://blog.samtec.com/post/new-intel-fpga-platform-features-samtec-interconnect/ FPGAs的应用 FPGAs在各个行业中得到广泛应用,并具有多样化的实施领域。它们的主要应用领域包括: 能源行业 FPGAs在智能电网技术中发挥着重要作用,可以提高性能和可扩展性,同时保持低功耗。这在传输和配电(T&D)变电站中尤为有用,需要高效的电力网络以实现最佳运行。 改进的汽车体验 Microsemi FPGAs允许原始设备制造商(OEM)和供应商为车辆创建新的安全应用程序,如定速巡航、盲点警告和碰撞避免。这些FPGAs还提供了信息保障、防篡改、硬件安全和可靠性功能,如纠错存储器和低静态功耗。 航空航天与国防 工业制造公司提供了抗辐射和抗辐射的FPGAs,这些FPGAs通常是太空级别的,以满足严苛环境下的性能、可靠性和寿命要求。这些FPGAs比传统的ASIC实现具有更高的灵活性,特别适用于处理密集型的空间系统。 计算机视觉系统 在当今世界,计算机视觉系统在视频监控摄像头、机器人和其他设备中广泛应用。通常需要使用基于FPGA的系统,使这些设备能够根据其位置、环境和面部识别能力与人们适当地进行交互。 数据中心 物联网和大数据导致获取和处理数据的数量大幅增加。使用深度学习技术进行并行计算推动了对低延迟、灵活和安全计算能力的需求。由于空间成本上升,增加更多的服务器无法满足这一需求。由于其加速处理能力、设计灵活性和硬件安全性等特点,FPGA在数据中心中得到了接受。 实时系统 FPGA被用于实时系统,响应时间至关重要,传统的CPU响应时间不可预测,很难准确预测何时触发器将会触发。 设计ASIC 首先创建电路架构,然后使用FPGA构建和测试原型,以便纠正错误。一旦原型表现符合预期,就会开发ASIC项目。这种方法节省时间,因为创建集成电路可能是费时和复杂的。…

Leave a Comment

Contextual AI推出LENS:一种用于视觉增强语言模型的AI框架,其在VQAv2上的表现比Flamingo高出9%(从56%提升至65%)

大型语言模型(LLMs)近年来在自然语言理解方面取得了重大突破,尤其在零样本和少样本环境下,展示出卓越的语义理解、查询解决和文本生成能力。如图1(a)所示,已经提出了多种方法来使用LLMs处理涉及视觉的任务。光学编码器可以被训练成将每张图片表示为一系列连续的嵌入,让LLM能够理解它。另一种方法是使用对比训练的冻结视觉编码器,同时在冻结的LLM上添加额外的层,然后从头开始学习。 另一种方法建议训练一个轻量级的Transformer来对齐一个冻结的视觉编码器(经过对比训练的预训练)和一个冻结的LLM。尽管在上述研究中取得了进展,但仍然难以证明额外的预训练阶段的计算成本是合理的。此外,为了将视觉和语言模态与现有的LLM同步,需要大量的数据库,包括文本、照片和视频。Flamingo在预训练的LLM中增加了新的跨注意力层,以增加视觉特征。 图1:比较协调视觉和语言模态的方法。多模态预训练有两个选择:(a)使用配对或网络数据集;(b)LENS,一种无需额外多模态数据集就可以与任何现成的LLM一起使用的无预训练技术。与LENS不同,以前的方法需要在大规模多模态数据集上进行联合对齐预训练,以完成视觉任务。 多模态预训练阶段需要惊人的20亿个图片-文本对和4300万个网站,即使使用预训练的图像编码器和预训练的冻结LLM,也可能需要15天的时间。相反,他们可以使用各种“视觉模块”从视觉输入中提取信息,并生成详细的文本表示(如标签、属性、动作和关系等),然后直接将其馈送给LLM,避免了额外的多模态预训练的需要,如图1(b)所示。Contextual AI和斯坦福大学的研究人员引入了LENS(Large Language Models Enhanced to See),这是一种模块化策略,将LLM作为“推理模块”使用,并在不同的“视觉模块”之间运行。 他们首先使用预训练的视觉模块(如对比模型和图像字幕模型)在LENS技术中提取丰富的文本信息。然后将文本发送到LLM,使其能够进行对象识别、视觉和语言(V&L)等任务。LENS通过消除对额外多模态预训练阶段或数据的需求,免费地弥合了模态之间的差距。此外,这种整合使我们能够立即利用计算机视觉和自然语言处理领域的最新进展,最大限度地发挥两个学科的优势。 他们提供了以下贡献: • 他们提出了LENS,一种通过使用语言模型的少样本、上下文学习能力来处理计算机视觉挑战的模块化方法。 • LENS使任何现成的LLM都能够在不经过进一步的训练或数据的情况下进行视觉处理。 • 他们使用冻结的LLM来处理对象识别和视觉推理任务,无需额外的视觉和语言对齐或多模态数据。实验结果表明,他们的方法在零样本性能上与Kosmos和Flamingo等端到端联合预训练模型相媲美或更优。他们的论文的部分实现已经在GitHub上可用。

Leave a Comment

Web规模训练释放:Deepmind推出OWLv2和OWL-ST,这是一种开创性的工具,用于开放词汇的目标检测,采用前所未有的自我训练技术驱动

开放词汇物体检测是各种实际计算机视觉任务的关键方面。然而,检测训练数据的有限可用性和预训练模型的脆弱性经常导致表现不佳和可扩展性问题。 为了解决这个挑战,DeepMind研究团队在他们的最新论文“Scaling Open-Vocabulary Object Detection”中介绍了OWLv2模型。这种优化的架构提高了训练效率,并采用了OWL-ST自训练方法,大大增强了检测性能,并在开放词汇检测任务中取得了最先进的结果。 这项工作的主要目标是优化标签空间、注释过滤和开放词汇检测自训练方法的训练效率,最终在有限的标记数据下实现稳健且可扩展的开放词汇性能。 所提出的自训练方法包括三个关键步骤: 团队使用现有的开放词汇检测器对WebLI数据集进行开放框检测。 他们利用OWL-ViT CLIP-L/14对所有WebLI图像进行边界框伪注释。 他们使用人工注释的检测数据对经过训练的模型进行微调,进一步改进其性能。 值得注意的是,研究人员采用了OWL-ViT架构的变体来训练更有效的检测器。该架构利用对比训练的图像-文本模型来初始化图像和文本编码器,而检测头部则是随机初始化的。 在训练阶段,团队使用相同的损失函数,并从OWL-ViT架构中添加“伪负样本”来增强查询,以优化训练效率,最大限度地利用可用的标记图像。 他们还结合了先前提出的大规模Transformer训练方法,进一步提高了训练效率。结果,OWLv2模型将训练FLOPS降低了约50%,训练吞吐量提高了2倍,相比原始的OWL-ViT模型。 团队在实证研究中将他们提出的方法与先前最先进的开放词汇检测器进行了比较。OWL-ST技术将LVIS罕见类别的平均准确率(AP)从31.2%提高到44.6%。此外,将OWL-ST自训练方法与OWLv2架构结合起来,实现了新的最先进性能。 总体而言,本文提出的OWL-ST自训练方法通过利用大规模网络数据的弱监督,显著提高了检测性能,实现了面向开放世界的规模化训练。这种方法解决了标记检测数据稀缺性带来的局限,并展示了以可扩展的方式实现稳健的开放词汇物体检测的潜力。

Leave a Comment

使用Amazon SageMaker Canvas,通过无代码机器学习来实现制造质量的计算机视觉缺陷检测的民主化

制造商最关注的是质量不良成本质量缺陷会增加废品和返工成本,降低生产效率,并可能影响客户和公司声誉在生产线上进行质量检查对于维持质量标准至关重要在许多情况下,使用人工视觉检查来评估质量和检测缺陷,这可能会 […]

Leave a Comment

什么是企业人工智能?

企业人工智能简介 时间紧迫,自动化是答案。在繁琐乏味的任务、人为错误、混乱的竞争和模糊的决策之间,企业人工智能使企业能够与机器合作,更高效地工作。否则,你如何在Netflix上浏览你喜欢的节目,或者在Amazon上找到并购买所需的配饰?从Waymo在汽车行业的应用到市场营销中的快速分析,人工智能已经为我们提供了足够的理由,说明它将会留下来。但是,它是如何帮助组织的?或者说,组织如何使用它?答案之一就是:企业人工智能。 你好!作为Analytics Vidhya博客的忠实读者,我们想向你介绍一个扩展你视野、提升你技能的绝佳机会。我们诚挚邀请所有数据科学和人工智能爱好者参加备受期待的DataHack Summit 2023。这场盛会将于8月2日至5日在印度班加罗尔的著名NIMHANS会议中心举行。这个活动将是一次充满乐趣的盛宴,提供实践学习、宝贵的行业见解和无与伦比的交流机会。如果你对这些主题感兴趣,想要了解更多关于这些概念如何变为现实的信息,请点击这里查看DataHack Summit 2023的详细信息。 企业人工智能定义 企业人工智能被定义为在大型组织中应用人工智能技术和方法来改进各种功能。这些功能包括数据收集和分析、自动化、客户服务、风险管理等等。它涵盖了使用人工智能算法、机器学习(ML)、自然语言处理(NLP)、计算机视觉等工具来解决复杂的商业问题、自动化流程并从大量数据中获取见解。 企业人工智能可以在不同领域实施。这包括供应链管理、财务、市场营销、客户服务、人力资源和网络安全等方面。它使组织能够做出数据驱动的决策,提高效率,优化工作流程,改善客户体验,并在市场中保持竞争优势。 来源:Publicis Sapient 企业人工智能的关键特点 企业人工智能涉及组织的许多方面,从数据分析到自动化。它是不同技术、方法和技巧的产物,对于每个行业或企业可能都不同。下面是它的工作原理: 结合人工智能技术的企业应用 有许多人工智能技术可以用于企业应用。企业人工智能公司使用机器学习、自然语言处理、边缘计算、深度学习、计算机视觉等多种技术的结合。这些技术可以提供强大的能力,帮助企业进行预测分析、图像识别等任务。Netflix的个性化推荐就是使用深度学习等技术的显著例子之一。 根据组织需求量身定制和设计 企业人工智能是各种技术的混合体。现在,由企业需求来决定在系统中采取何种方式和技术,这是组织的责任。毕竟,适用于供应链管理的技术可能在电子商务领域并不需要。 例如,医疗保健领域的企业人工智能公司采用像图像分析、患者监测等技术,以提高医疗实践的效率。能源行业使用预测性维护、可再生能源整合等技术来优化能源的产生和消费。不同行业的利用差异导致了组织在人工智能的不同领域中运作。 企业人工智能的益处和应用 以下是企业人工智能的主要益处: 提高运营效率和生产力 企业人工智能的终极优势之一是自动化重复和繁琐的任务,减轻员工的负担,使他们能够专注于更具战略性和高价值的活动。它简化流程,减少手动错误,并提高各个部门和功能(包括人力资源和供应链管理)的运营效率。最终,它是提高生产力的救星。 来源:AI空间…

Leave a Comment

赋予机器人复杂任务执行能力:Meta AI利用人类行为的互联网视频开发视觉适应模型

Meta AI,一家领先的人工智能(AI)研究机构,最近发布了一种具有突破性的算法,承诺将彻底改变机器人领域。在他们的研究论文《从人类视频中获取作为机器人多功能表示的可供性》中,作者探讨了将YouTube视频应用于机器人学习和复制人类动作的强大训练工具。通过利用在线教学视频的丰富资源,这种尖端算法旨在弥合静态数据集和真实世界机器人应用之间的差距,使机器人能够以更大的多样性和适应性执行复杂任务。 这种创新方法的核心是“可供性”概念。可供性代表对象或环境提供的潜在行为或互动。通过通过分析人类视频来训练机器人理解和利用这些可供性,Meta AI的算法为机器人提供了一个多功能表示,用于执行各种复杂任务。这一突破提高了机器人模仿人类动作的能力,并赋予它们在新的和不熟悉的环境中应用所获得的知识的能力。 为了确保将这种基于可供性的模型无缝集成到机器人的学习过程中,Meta AI的研究人员将其纳入了四种不同的机器人学习范式中。这些范式包括离线模仿学习,探索,目标条件学习和强化学习的动作参数化。通过将可供性识别的能力与这些学习方法相结合,机器人可以获得新的技能,并以更高的精度和效率执行任务。 为了有效地训练可供性模型,Meta AI利用大规模的人类视频数据集,如Ego4D和Epic Kitchens。通过分析这些视频,研究人员使用现成的手-物体交互检测器来识别接触区域并跟踪接触后手腕的轨迹。然而,当场景中的人物存在时,会出现一个重要挑战,即分布转移。为了克服这个障碍,研究人员利用可用的相机信息将接触点和接触后轨迹投影到一个与人无关的框架中,然后将其作为输入提供给他们的模型。 在这一突破之前,机器人在模仿动作方面的能力有限,主要局限于复制特定环境。然而,通过Meta AI的最新算法,在泛化机器人动作方面取得了重大进展。这意味着机器人现在可以在新的和不熟悉的环境中应用所获得的知识,展示出更高的适应性。 Meta AI致力于推进计算机视觉领域的发展,并促进研究人员和开发人员之间的合作。根据这一承诺,该组织计划共享其项目的代码和数据集。通过使这些资源对其他人可访问,Meta AI旨在鼓励对这项技术进行进一步的探索和开发。这种开放的方法将促进自学习机器人的发展,它们可以从YouTube视频中获得新的技能和知识,推动机器人领域进入新的创新领域。

Leave a Comment

遇见ProFusion:一种无需正则化的AI框架,用于在文本到图像合成中保留细节

多年来,文本到图像生成领域得到了广泛的探索,并取得了重要进展。研究人员通过在大规模数据集上训练大规模模型,实现了零样本文本到图像生成,能够处理任意文本输入。DALL-E和CogView等开创性作品为研究人员提出了许多方法,使得生成与文本描述对齐的高分辨率图像成为可能,展现了卓越的保真度。这些大规模模型不仅革新了文本到图像生成,还对包括图像处理和视频生成在内的其他各种应用产生了深远影响。 尽管上述大规模文本到图像生成模型在生成与文本对齐的创造性输出方面表现出色,但在生成用户指定的新颖和独特概念时往往面临挑战。因此,研究人员探索了各种方法来定制预训练的文本到图像生成模型。 例如,一些方法涉及使用有限数量的样本对预训练生成模型进行微调。为了防止过拟合,采用不同的正则化技术。其他方法旨在将用户提供的新概念编码为单词嵌入。这种嵌入可以通过优化过程或来自编码器网络获得。这些方法使得能够根据用户输入文本定制生成新概念,同时满足额外的要求。 尽管文本到图像生成取得了重大进展,但最近的研究引发了对正则化方法在定制化方面潜在局限性的担忧。有人怀疑这些正则化技术可能会无意中限制定制化生成的能力,导致细节的丢失。 为了克服这一挑战,提出了一种新颖的框架ProFusion。其架构如下所示。 ProFusion包括一个称为PromptNet的预训练编码器,它从输入图像和随机噪声中推断出条件词嵌入,以及一种称为Fusion Sampling的新型采样方法。与先前的方法相比,ProFusion在训练过程中消除了对正则化的要求。相反,该问题在推理过程中通过Fusion Sampling方法有效地解决。 实际上,作者认为,尽管正则化可以实现受文本条件限制的内容创作,但它也会导致细节信息的丢失,从而导致性能下降。 Fusion Sampling在每个时间步骤包括两个阶段。第一步是融合阶段,它将输入图像嵌入和条件文本的信息编码为带有噪声的部分输出。之后,进行改进阶段,根据选择的超参数更新预测。更新预测有助于Fusion Sampling保留输入图像的细节信息,并将输出条件化为输入提示。 这种方法不仅节省了培训时间,还消除了与正则化方法相关的超参数调整的需要。 下面报告的结果不言自明。 我们可以看到ProFusion与最先进的方法进行了比较。提出的方法在保留与面部特征相关的细节方面表现优异。 这就是ProFusion的摘要,一种具有最先进质量的无正则化框架,用于文本到图像生成。如果您感兴趣,可以在下面的链接中了解更多关于这种技术的信息。

Leave a Comment

观察此空间:新的空间金融领域利用人工智能估算风险,监控资产,分析索赔

在进行金融决策时,从无人机、卫星或AI动力传感器获取的大局观至关重要。 空间金融这一新兴领域利用远程传感器和航空影像的AI洞察力,帮助银行、保险公司、投资公司和企业分析风险和机遇,开展新的服务和产品,衡量其投资的环境影响,并在危机之后评估损失。 空间金融应用包括监测资产、建模能源效率、跟踪排放和污染、检测非法采矿和森林砍伐以及分析自然灾害风险。NVIDIA的AI软件和硬件可以帮助行业将其业务数据与地理空间数据结合起来加速这些应用。 通过更好地了解与投资相关的环境和社会风险,金融行业可以选择优先支持可持续发展的投资,这被称为环境、社会和治理(ESG)框架。 可持续投资的重点正在增加:彭博智库的分析估计,到2025年,ESG资产将占全球管理资产总额的三分之一以上。欧洲联盟空间计划机构的一份报告预测,保险和金融行业将成为未来十年地球观测数据和服务的最大消费者,到2031年总收入将超过10亿美元。 NVIDIA Inception的几个成员是全球支持尖端初创企业的计划,他们正在推进这些工作,利用GPU加速的AI应用程序,可以追踪工业厂区附近的水污染情况,评估野火的金融风险,评估风暴后的损失等。 大规模数据的强大计算能力 GPU加速的AI和数据科学可以从复杂的非结构化数据中快速提取洞察力,使银行和企业能够实时流式处理和分析从卫星、无人机、天线和边缘传感器中捕获的数据。 通过监测航空影像,分析人员可以清晰地看到水库中随时间使用的水量、为建筑项目砍伐的树木数量或龙卷风损坏的房屋数量。这种能力可以通过验证书面记录(如政府强制性披露、环境影响报告甚至保险索赔)的准确性,帮助审计投资。 例如,投资者可以跟踪一家报告其生产线达到零排放的公司的供应链,发现实际上它依赖于一个在卫星图像中可见发出煤烟的海外工厂。或者,分析建筑物的热量排放的传感器可以帮助识别低排放企业以获得税收抵免。 NVIDIA的边缘计算解决方案,包括用于自治机器和其他嵌入式应用的NVIDIA Jetson平台,正在为空间金融中的众多AI计划提供动力。 除了使用NVIDIA硬件加速他们的应用程序外,开发人员还采用包括用于流式分析的NVIDIA DeepStream软件开发工具包、视觉AI平台NVIDIA Metropolis的一部分。他们还使用NVIDIA Omniverse平台构建和操作元宇宙应用程序,以详细、三维可视化地展示地理空间数据。 保险业——从风险评估到加速理赔 NVIDIA Inception成员正在开发GPU加速的应用程序,将地理空间数据转化为保险公司的洞察力,减少了对保险财产进行昂贵现场访问的需求。 位于卢森堡的RSS-Hydro使用GPU计算在本地和云端训练FloodSENS,这是一个从卫星影像中绘制洪水影响的机器学习应用程序。该公司还使用NVIDIA Omniverse在3D中创建FloodSENS的动画,帮助团队在紧急情况下更有效地沟通洪水风险和资源分配规划。 总部位于多伦多的Ecopia AI使用基于深度学习的地理空间数据挖掘系统,帮助生成高度准确的建筑、道路、森林等细分的下一代数字地图。这些地图在公共和私营部门中有各种应用,包括政府气候适应性倡议和保险风险评估。Ecopia使用NVIDIA GPU开发其AI模型。…

Leave a Comment

NVIDIA H100 GPU在首次发布的MLPerf基准测试中为生成式AI设定了标准

主流用户和行业标准基准测试都认为:NVIDIA H100 Tensor Core GPU 提供了最佳的 AI 性能,特别是在驱动生成式 AI 的大型语言模型(LLM)方面表现出色。 H100 GPU 在最新的 MLPerf 训练基准测试中的所有八个测试中都创下了新记录,尤其是在生成式 AI 的新 MLPerf 测试中表现出色。这种卓越的性能在单个加速器和大规模服务器上都能得到体现。 例如,由创业公司 Inflection AI 和专门从事 GPU 加速工作负载的云服务提供商…

Leave a Comment

SiMa.ai将把世界上最强大的人工智能芯片带到印度

美国人工智能芯片初创公司 SiMa.ai 宣布其第一代 AI 芯片进入量产,取得了重大突破。SiMa.ai 利用 TSMC 16 纳米技术,旨在将 AI 革命带到工业世界。SiMa.ai 的 MLSoC(芯片上的机器学习系统)与传统方法不同,它专门为边缘计算而设计,而非采用一刀切的芯片。这一重大进展为工业领域的变革未来奠定了基础。 也可阅读:一家台湾公司如何成为现代 AI 的支柱? 通过 AI 和机器学习推进工业世界进入 21 世纪 SiMa.ai 的创始人兼 CEO Krishna…

Leave a Comment

一项来自斯坦福、康奈尔和牛津的新人工智能研究,引入了一种生成模型,它可以从单张图像中仅有的几个实例中发现物体内在属性

玫瑰的本质由其独特的几何形状、纹理和材料组成。这可以用来创建不同大小和形状的玫瑰,并在各种位置和具有广泛的照明效果。即使每朵玫瑰都有独特的像素值,我们仍然可以将它们识别为同一类的成员。 研究人员来自斯坦福大学、牛津大学和康奈尔技术学院,他们希望利用来自单张照片的数据,创建一个可以用于从不同角度和照明下生成新形状和图像的模型。 解决这个问题陈述有三个障碍: 由于训练数据集中只有一张图像,而且只有几百个实例,因此推断问题非常松散。 在这些情况下可能会有广泛的可能像素值,因为不知道姿态或照明条件。 没有两朵玫瑰是相同的,需要捕捉它们的形状、纹理和材料的分布,以利用底层的多视角信息。因此,旨在推断的对象固有属性是概率的,而不是确定的。与当前用于静态对象或场景的多视角重建或神经渲染方法相比,这是一个重要的变化。 所提出的方法以物体固有属性为起点,用于诱导模型创建中的偏差。这些规则有两个部分: 要呈现的实例应该都具有相同的物体固有属性或几何、纹理和材料的分布。 固有属性不是相互独立的,而是以一种特定的方式交织在一起,由渲染引擎定义,最终由物理世界定义。 更具体地说,他们的模型采用单个输入图像,并使用一组实例掩模和实例的特定姿态分布,学习物体三维形状、表面反射率和光泽度的分布的神经表示,从而消除了姿态和照明波动的影响。这种基于物理的、明确的解缠可以帮助他们简要解释实例。它使模型能够获取物体固有属性,而不会过度拟合由单个图像提供的稀疏观察数据。 正如研究人员所提到的,由此产生的模型可以实现多种用途。例如,可以通过从学习的物体固有属性中随机采样来生成具有不同身份的新实例。可以通过调整这些外部元素来重新渲染具有新的相机角度和照明设置的合成实例。 团队进行了彻底的测试,以展示模型的改进形状重建和生成性能、创新的视图合成和重照。

Leave a Comment

解决人工智能的泛化差距:来自伦敦大学学院的研究人员提出Spawrious——一个包含类别和背景之间虚假相关性的图像分类基准套件

随着人工智能的日益普及,几乎每天都会发布带有全新功能和解决能力的新模型。最近,研究人员一直在努力提出方法来加强人工智能模型对未知测试分布的抵抗力,并减少对虚假特征的依赖。考虑到自动驾驶汽车和自主厨房机器人的例子,它们尚未被广泛部署,因为它们在分布外(OOD)环境中的行为所带来的挑战,这些环境与模型接触到的训练数据有很大的差异。 许多研究已经探讨了虚假相关性(SCs)的问题,并提出了减少其对模型性能的负面影响的方法。已经证明,在像ImageNet这样的知名数据集上训练的分类器依赖于背景数据,这些数据与类标签存在虚假关联,但不一定具有预测性。尽管在开发解决SC问题的方法方面已经取得了进展,但仍需要解决现有基准的局限性。目前的基准测试,如Waterbirds和CelebA发色基准测试,存在局限性,其中之一是它们专注于简单的一对一(O2O)虚假相关性,而实际上,许多对多(M2M)虚假相关性更常见,涉及类和背景的群组。 最近,来自伦敦大学学院的研究人员介绍了一个名为Spawrious数据集的图像分类基准套件,其中包含类和背景之间的虚假相关性。它包括一对一(O2O)和一对多(M2M)虚假相关性,这些已经被分类为三个难度级别:简单,中等和困难。该数据集包含约152,000张高质量的照片逼真图像,使用文本到图像模型生成,采用图像字幕模型过滤不适合的图像,确保数据集的质量和相关性。 评估Spawrious数据集后,表现出了不可思议的性能,因为该数据集对当前的最先进(SOTA)组鲁棒性方法提出了挑战,例如Hard-splits,其中没有一种测试方法使用在ImageNet上预训练的ResNet50模型实现了70%以上的准确性。该团队提到,模型的性能问题是由于它们依赖虚假背景而导致的,通过查看其错误分类的分类,说明了Spawrious数据集如何成功地测试分类器并揭示它们在错误相关性方面的弱点。 为了说明O2O和M2M基准测试之间的差异,该团队使用了一个夏季收集训练数据的例子,其中包括来自两个不同位置的两组动物物种,每个动物组都与特定的背景组相关联。然而,随着季节的变化和动物的迁移,群组交换位置,导致动物组和背景之间的虚假相关性以无法一对一匹配的方式发生变化。这凸显了捕捉M2M虚假相关性中复杂关系和相互依赖性的必要性。 Spawrious似乎是一套有前途的基准套件,用于OOD,领域通用算法,以及评估和提高模型在存在虚假特征的情况下的鲁棒性。

Leave a Comment

颠覆性的文本到图像合成:加州大学伯克利分校研究人员利用大型语言模型,在两阶段生成过程中增强了空间和常识推理能力

最近,文本到图像生成方面取得了一些进展,出现了可以合成高度逼真和多样化图像的扩散模型。然而,尽管这些模型具有令人印象深刻的能力,像Stable Diffusion这样的扩散模型在需要空间或常识推理的提示方面仍然需要帮助,导致生成的图片不准确。 为了解决这个挑战,加州大学伯克利分校和加州大学旧金山分校的研究团队提出了一种新的基于LLM的扩散(LMD)方法,可以增强文本到图像生成中的提示理解。他们已经确定了场景,包括否定、数字、属性分配和空间关系,在这些场景中,Stable Diffusion与LMD相比存在不足。 研究人员采用了一种成本效益的解决方案,避免了训练大型语言模型(LLMs)和扩散模型的昂贵和耗时过程。他们将现成的冻结LLMs集成到扩散模型中,形成了一个两阶段的生成过程,提供了增强的空间和常识推理能力。 在第一阶段,LLM被调整为文本引导的布局生成器,通过上下文学习。当给出一个图像提示时,LLM会产生一个由边界框和相应描述组成的场景布局。在第二阶段,扩散模型通过使用一个新颖的控制器来生成图像,由生成的布局进行引导。两个阶段都使用冻结的预训练模型,没有对LLM或扩散模型进行任何参数优化。 LMD除了改进提示理解外,还提供了几个优点。它可以实现基于对话的多轮场景规定,允许用户为每个提示提供额外的澄清和修改。此外,LMD可以处理不受基础扩散模型支持的语言提示。通过将支持多轮对话的LLM纳入其中,用户可以在初始布局生成后查询LLM,并为随后的图像生成接收更新的布局,便于请求添加对象或更改它们的位置或描述等。 此外,通过在上下文学习过程中提供非英语提示的示例和英语布局和背景描述,LMD接受非英语提示,即使基础扩散模型不支持给定的语言也能生成带有英语描述的布局。 研究人员通过与LMD利用的基础扩散模型Stable Diffusion 2.1进行比较,验证了LMD的优越性。他们邀请读者探索他们的工作,进行全面评估和进一步比较。 总之,LMD提出了一种新的方法,以解决扩散模型在准确遵循需要空间或常识推理的提示方面的局限性。通过集成冻结LLMs并采用两阶段生成过程,LMD显著增强了文本到图像生成任务中的提示理解能力。它提供了其他功能,如基于对话的场景规定和处理不支持的语言提示。研究团队的工作为通过集成现成的冻结模型来改善合成图像的准确性和多样性开辟了新的可能性。

Leave a Comment

来自领英和加州大学伯克利分校的研究人员提出了一种检测人工智能生成的个人资料照片的新方法

随着人工智能(AI)生成的合成和文本到图像生成媒体的大量增加,虚假个人资料的复杂性也随之增加。领英与加州大学伯克利分校合作研究了尖端的检测方法。他们最近的检测方法能够准确地识别人工生成的个人资料图片,正确率达到99.6%,同时将真实图片误判为虚假图片的概率仅为1%。 有两种类型的取证方法可以用于调查这个问题。  基于假设的方法可以发现人工合成的面孔中的异常。这些方法通过学习显著的语义离群值来受益。然而,学习能力合成引擎似乎已经拥有了这些特征,这是一个问题。 基于数据驱动的方法,如机器学习,可以将自然面孔与 CGI 面孔区分开来。当出现在其专业领域之外的图像时,训练过的系统经常会在分类方面遇到困难。  所提出的方法采用混合方法,首先识别计算机生成的面孔中的独特几何属性,然后采用数据驱动的方法来测量和检测它。该方法使用轻量级、易于训练的分类器,并需要对一小组合成面孔进行培训。使用了五种不同的合成引擎来构建41,500个合成面孔,并使用了100,000个真实的领英个人资料图片作为额外的数据。 为了查看实际(公开可用的)LinkedIn个人资料图片与合成生成的(StyleGAN2)面孔的差异,他们将每个平均400张图片并排放置。由于人们的实际照片彼此非常不同,大多数个人资料图片只是普通的头像照片。相比之下,典型的 StyleGAN 面孔具有非常清晰的特征和锐利的眼睛。这是因为 StyleGAN 面孔的眼部位置和瞳距被标准化了。真实的个人资料图片通常关注上半身和肩膀,而 StyleGAN 面孔一般是从脖子以下合成的。他们希望利用社交群体内部和之间存在的相似性和差异。 为了识别 FaceForensics++ 数据集中的深度伪造面孔交换,研究人员将一个单类变分自动编码器(VAE)与一个基线单类自动编码器结合起来。与以前的面孔交换深伪造工作不同,这项工作强调了合成面孔(例如 StyleGAN)。研究人员还使用了一个相当简单且易于训练的分类器,并在相对较少的合成图像上实现了可比的总体分类性能。 他们使用 Generated.photos 和 Stable Diffusion 生成的图像评估了模型的泛化能力。使用生成对抗网络(GAN)生成的 Generated.photos…

Leave a Comment

彻底改变癌症检测:萨里大学在机器学习中推出具有革命性意义的基于草图的物体检测工具

自史前时代以来,人们一直使用素描进行交流和记录。在过去的十年中,研究人员在理解如何使用分类和合成的素描方面取得了巨大的进展,以及更新颖的应用,如建模视觉抽象、样式转移和连续笔画拟合。然而,只有基于素描的图像检索(SBIR)及其细粒度对应物(FGSBIR)研究了素描的表现潜力。最近的系统已经成熟,可用于商业应用,这是素描表现力可能产生重大影响的极好证明。 素描非常引人入胜,因为它们自动捕捉微妙和个人的视觉线索。然而,对人类素描的这些内在特质的研究一直局限于图像检索领域。科学家们首次训练系统使用素描的表现力来完成视觉中最基本的任务:检测场景中的物体。最终产品是一个基于素描检测物体的框架,因此可以将注意力集中在一群斑马中的特定“斑马”(例如吃草的斑马)。此外,研究人员要求模型在以下情况下成功: 在没有预期结果的情况下进入测试(零射击)。 不需要额外的边界框或类标签(如完全监督)。 研究人员进一步规定,基于素描的检测器也以零射击的方式运作,增加了系统的新颖性。在接下来的部分中,他们详细介绍了如何将物体检测从封闭集转换为开放词汇配置。例如,物体检测器使用原型学习而不是分类头,编码查询素描特征作为支持集。然后,在弱监督物体检测(WSOD)环境中,通过所有可想象的类别或实例的原型之间的多类交叉熵损失进行模型训练。物体检测在图像级别上操作,而SBIR是通过对单个对象的素描和照片进行配对训练的。因此,SBIR对象检测器训练需要在对象级别和图像级别特征之间建立桥梁。 研究人员的贡献是: 培养人类素描表现力对物体检测的影响。 基于素描构建的物体检测器可以理解试图传达的信息。 用于传统类别级别和实例级别检测的物体检测器。 一种新的提示学习配置,将CLIP和SBIR结合起来生成一个素描感知的检测器,可以在没有边界框注释或类标签的情况下以零射击方式运行。 结果优于零射击设置中的SOD和WSOD。 研究人员没有从头开始,而是展示了基础模型(如CLIP)和为基于素描的图像检索(SBIR)构建的现有素描模型之间的直观协同作用,它们已经可以优雅地解决该任务。特别是,他们首先在SBIR模型的素描和照片分支上分别进行单独的提示,然后使用CLIP的泛化能力构建高度可泛化的素描和照片编码器。为了确保检测到的框的区域嵌入与SBIR素描和照片的嵌入匹配,他们设计了一种训练范式来调整学习的编码器以进行项目检测。在工业标准物体检测数据集(包括PASCAL-VOC和MS-COCO)上进行测试时,该框架在零射击设置中的表现优于监督(SOD)和弱监督(WSOD)物体检测器。 总之 为了改进物体检测,研究人员积极倡导人类素描表现力。建议的素描启用物体识别框架是一个实例感知和部件感知的物体检测器,可以理解素描中试图表达的信息。因此,他们设计了一种创新的提示学习设置,将CLIP和SBIR结合起来,教育一个不需要边界框注释或类标签的素描奖励检测器。该检测器还被指定为可以在各种用途中以零射击方式运行。另一方面,SBIR是通过对单个物品的素描和照片进行配对训练的。他们使用数据增强方法来增加对破坏的抵抗力和对词汇外的泛化能力,以帮助弥合物体和图像级别之间的差距。在零射击设置中,所得框架的表现优于监督和弱监督物体检测器。

Leave a Comment

你口袋里的艺术家伙伴:SnapFusion 是一种人工智能方法,将扩散模型的能力带到移动设备上

扩散模型。如果您一直关注人工智能领域的进展,您一定经常听到这个术语。它们是使生成式人工智能方法革命成为可能的关键。我们现在有了可以在几秒钟内使用文本提示生成逼真图像的模型。它们已经革新了内容生成、图像编辑、超分辨率、视频合成和3D资产生成。 尽管这种印象深刻的性能并不便宜。扩散模型在计算要求方面非常苛刻。这意味着您需要真正高端的GPU才能充分利用它们。是的,也有尝试让它们在本地计算机上运行,但即使如此,您也需要高端计算机。另一方面,使用云提供商可能是一种替代方案,但在这种情况下,您可能会冒着隐私风险。 然后,我们还需要考虑到的是即时性。对于大多数人来说,他们花在手机上的时间比花在计算机上的时间更长。如果您想在移动设备上使用扩散模型,那么祝您好运,因为它对设备本身的有限硬件功率要求过高。 扩散模型是下一个大事,但在将它们应用于实际应用程序之前,我们需要解决它们的复杂性。已经有多次尝试专注于加速移动设备上的推理,但它们没有实现无缝的用户体验或定量评估生成质量。好吧,这是一个故事,直到现在,因为我们有一个新的玩家进入领域,它的名字叫做SnapFusion。 SnapFusion是首个在移动设备上生成图像的文本到图像扩散模型,时间不到2秒。它优化了UNet架构并减少了去噪步骤的数量,以提高推理速度。此外,它使用了不断发展的训练框架,引入了数据蒸馏管道,并在步骤蒸馏过程中增强了学习目标。 SnapFusion概览。来源: https://arxiv.org/pdf/2306.00980.pdf 在对结构进行任何更改之前,SnapFusion的作者首先研究了SD-v1.5的架构冗余性,以获得高效的神经网络。然而,由于高昂的培训成本,将传统剪枝或架构搜索技术应用于SD是具有挑战性的。架构的任何更改都可能导致性能下降,需要进行大量的微调和大量的计算资源。因此,这条路被堵住了,他们不得不开发替代解决方案,可以在逐渐提高其效率的同时保持预训练UNet模型的性能。 为了增加推理速度,SnapFusion专注于优化UNet架构,这是有条件扩散模型中的瓶颈。现有的作品主要关注后训练优化,但是SnapFusion确定了架构冗余并提出了一个不断发展的训练框架,其表现优于原始的稳定扩散模型,同时显著提高了速度。它还引入了一个数据蒸馏管道,以压缩和加速图像解码器。 SnapFusion包括一个强大的训练阶段,在该阶段应用随机前向传播以执行每个交叉关注和ResNet块,并具有一定的概率。这种强大的训练增强确保网络对架构排列具有容忍性,从而允许准确评估每个块和稳定的架构演变。 通过使用通过通道缩减获得的解码器的合成数据来训练解码器,可以实现高效的图像解码器。该压缩解码器具有显著较少的参数,并且比SD-v1.5的解码器更快。蒸馏过程涉及使用文本提示生成两个图像,一个来自高效解码器,另一个来自SD-v1.5,以获得从SD-v1.5的UNet中获得的潜在表示。 提出的阶段蒸馏方法包括一个香草蒸馏损失目标,旨在最小化学生UNet的预测和教师UNet的嘈杂潜在表示之间的差异。此外,引入了CFG感知蒸馏损失目标,以提高CLIP分数。CFG引导预测在教师和学生模型中使用,其中CFG比例是随机抽样的,以在训练期间在FID和CLIP分数之间提供权衡。 SnapFusion生成的样本图像。来源:https://arxiv.org/pdf/2306.00980.pdf 由于改进的阶段蒸馏和网络架构开发,SnapFusion可以在移动设备上不到2秒的时间内从文本提示生成512×512像素的图像。生成的图像展示了与最先进的稳定扩散模型相似的质量。

Leave a Comment

认识BITE:一种新的方法,可以从一张图像中重建3D狗的形状和姿势,即使是像坐着和躺着这样具有挑战性的姿势

许多领域,包括生物学和保护,以及娱乐和虚拟内容的开发,都可以从捕捉和建模三维动物形态和态度中受益。因为它们不需要动物保持静止,保持特定的姿势,与观察者进行身体接触或执行任何其他协作任务,相机是观察动物的自然传感器。利用照片研究动物已经有很长的历史,例如著名的“马在奔跑”动态摄影。然而,与早期的人体三维形状和姿态研究不同,最近开发了能够根据动物的独特形状和姿势进行改变的表现性三维模型。在这里,他们专注于从单张照片中重建三维狗的挑战。 他们将狗作为模型物种的原因是因为它们具有强烈的四足样的关节变形和品种之间广泛的形状变化。狗经常被相机捕捉到。因此,各种姿势,形状和设置都很容易获取。建模人和狗可能在外观上具有相似的困难,但它们呈现出非常不同的技术难题。人们已经可以获得大量的三维扫描和动作捕捉数据。由于数据涵盖了正确的姿势和形态变量,因此学习像SMPL或GHUM这样的鲁棒,关节模型已经成为可能。 相反,收集动物的三维观察数据是具有挑战性的,目前需要更多此类数据来训练同样具有表现力的三维统计模型,以考虑所有可能的形态和位置。现在,由于SMAL(从玩具模型中学习的参数化四足动物模型),已经可以从照片中重建动物的三维模型,包括狗。然而,SMAL是许多物种的通用模型,从猫到河马。虽然它可以描绘不同动物的许多体型,但它却不能描绘狗品种的独特和微小细节,例如巨大的耳朵范围。为了解决这个问题,ETH苏黎世联邦理工学院,德国智能系统Max Planck研究所和IMATI-CNR研究所的研究人员提供了第一个D-SMAL参数化模型,可以正确地表示狗。 另一个问题是,与人类相比,狗的动作捕捉数据相对较少,并且存在的数据中,坐姿和躺姿很少被捕捉到。因此,当前的算法很难推断狗的某些姿势。例如,从历史数据中学习三维姿势的先验知识将会偏向于站立和行走姿势。通过利用通用约束,可以减弱这个先验知识,但是姿势估计会变得严重不确定。为了解决这个问题,他们使用了物理接触的信息,这是建模动物(土地)时被忽视的信息,例如它们受重力影响,因此会站立,坐下或躺在地上。 在存在广泛自遮挡的情况下,他们展示了如何使用地面接触信息来估计复杂的狗的姿势。虽然地面平面限制已经用于人体姿势估计,但对于四足动物来说,潜在的优势更大。四条腿意味着更多的接触点,坐或躺下时更多的身体部位被遮挡,以及更大的非刚性变形。早期研究的另一个缺点是重建管道通常是在2D图片上进行训练的,因为收集配对的3D数据(带有匹配的2D图像)具有挑战性。因此,他们经常预测位置和形状,当重新投影时,与视觉证据非常相似,但沿着观察方向被扭曲。 由于缺乏配对数据,所以在从不同角度观察时,三维重建可能是错误的,因为没有足够的信息来确定在深度方向上放置更远或甚至被遮挡的身体部位的位置。再次,他们发现模拟地面接触是有益的。他们不再手动重建(或合成)配对的2D和3D数据,而是转向更宽松的三维监督方法,并获取地面接触标签。他们要求注释者指示狗下面的地表是否平坦,并在三维动物上注释地面接触点。他们通过向注释者呈现真实的照片来实现这一点。 图1 显示了BITE如何能够从单个输入图像中估计狗的三维形态和态度。该模型能够处理各种品种和类型,以及超出训练姿势范围的困难姿势,包括坐在地上或躺在地上。 他们发现,网络可以从单个图像中准确地学习分类表面和检测接触点,以便它们也可以在测试时使用。这些标签不仅用于训练。基于最新的前沿模型BARC,他们的重建系统称为BITE。他们使用新颖的D-SMAL狗模型作为初始粗配步骤重新训练BARC。随后,他们将结果预测发送到他们最近创建的精细化网络,使用接地损失进行训练,以改善相机的设置和狗的姿态。他们还可以在测试时使用接地损失,以完全自主地优化对测试图片的适配。 这大大提高了重建的质量。即使BARC姿势先验的训练集不包含这样的姿势,他们也可以使用BITE得到正确站在(局部平面)地面上或以坐姿和躺姿逼真重建的狗(见图1)。以往的3D狗重建工作要么是通过主观视觉评估,要么是通过反投影到图片并评估2D残差来评估,因此投影掉了与深度相关的不准确性。他们通过从不同的视角生成实际犬只的3D扫描,制作了一个独特的半合成数据集,以弥补客观3D评估的缺失。他们使用这个新数据集评估BITE及其主要竞争对手,证明BITE为该领域建立了新的标准。 他们的贡献总结如下: 1.他们提供了D-SMAL,这是一个从SMAL发展出来的全新的、针对犬只的3D姿势和形状模型。 2.他们创建了BITE,这是一个神经模型,旨在提高3D狗姿势的同时评估局部地面平面。BITE鼓励具有说服力的接地。 3.他们证明了在使用该模型之前,可以恢复与之编码非常不同的狗的位置(必须很小的先验)。 4.使用复杂的StanfordExtra数据集,他们改进了单目3D姿势估计的最新技术水平。 5.为了促进向真正的3D评估的过渡,他们提供了一个基于实际犬只扫描的新的半合成3D测试集合。

Leave a Comment