Press "Enter" to skip to content

352 search results for "计算机视觉"

这个AI工具解释了AI如何“看”图像以及为什么可能会把宇航员误认为铁锹

广泛认可的是,人工智能(AI)近年来取得了重大进展,取得了显著的成就和突破性结果。然而,AI并不能在所有任务上都取得同样令人印象深刻的结果。例如,虽然AI在某些视觉任务(如人脸识别)中可以超越人类表现,但在图像处理和分类中也可能出现令人困惑的错误,从而凸显出任务的挑战性。因此,研究人员和开发人员对了解这种系统在相关任务中的内部工作方式以及它们如何做出某些决策的兴趣日益浓厚。 众所周知,类似于人脑,AI系统采用了分析和分类图像的策略。然而,这些过程背后的精确机制仍然是个谜,导致形成了一个黑匣子模型。 因此,现代机器学习模型,特别是神经网络,对解释决策的方法的需求越来越大。在这种背景下,归因方法已经流行起来,它们生成热图,指示影响模型决策的单个像素的重要性。然而,最近的研究揭示了这些方法的局限性,因为它们往往只关注图像中最显著的区域,揭示了模型的注视点,但没有阐明模型在这些区域内感知到什么。因此,为了揭示深度神经网络的奥秘,揭示AI系统处理图像的策略,布朗大学Carney大脑科学研究所的研究人员和法国人工和自然智能图卢兹研究所的一些计算机科学家合作开发了CRAFT(概念递归激活因子化解释)。这个创新工具旨在识别AI模型在决策过程中关注的“什么”和“哪里”,从而强调人脑和计算机视觉系统在理解视觉信息方面的差异。该研究还在加拿大举办的著名计算机视觉和模式识别会议2023年上进行了展示。 正如前面提到的,使用归因方法了解AI系统如何使用图像的特定区域做出决策一直是具有挑战性的。然而,仅仅识别有影响力的区域而不澄清为什么这些区域至关重要,无法为人类提供全面的解释。CRAFT通过利用现代机器学习技术来揭示神经网络学习到的复杂多维视觉表示,克服了这一限制。为了提高理解力,研究人员开发了一个用户友好的网站,个人可以轻松地探索和可视化神经网络用于分类对象的基本概念。此外,研究人员还强调,引入CRAFT后,用户不仅可以深入了解AI系统用于构建图像和理解模型在特定区域内感知的概念,还可以了解这些概念的层次排序。这一突破性的进展为揭示AI系统的决策过程和提高其分类结果的透明度提供了宝贵的资源。 从本质上讲,研究人员的工作的关键贡献可以总结为三个主要点。首先,团队设计了一种递归方法来有效识别和分解多层次的概念。这种创新策略使我们能够全面了解神经网络内部组件。其次,引入了一种开创性的方法,通过利用Sobol指数准确估计概念的重要性。最后,实施隐式微分改变了概念归因地图的创建方式,为可视化和理解概念与像素级特征之间的关联提供了一种强大的工具。此外,团队进行了一系列实验评估,以证实他们方法的效率和重要性。结果显示,CRAFT优于所有其他归因方法,巩固了它的显著实用性,并成为进一步研究基于概念的解释方法的基石。 研究人员还强调了理解计算机如何感知图像的重要性。通过深入了解AI系统采用的视觉策略,研究人员在提高基于视觉的工具的准确性和性能方面具有竞争优势。此外,这种理解有助于研究人员了解攻击者如何通过对像素强度进行微妙的变化来欺骗AI系统,而这些变化对人类来说几乎察觉不到,从而对抗敌对和网络攻击具有益处。至于未来的工作,研究人员对计算机视觉系统能够超越人类能力的那一天感到兴奋。在解决癌症诊断、化石识别等未解决的挑战方面,这些系统有潜力改变许多领域。

Leave a Comment

什么是可编程门阵列(FPGA):FPGA与图形处理器(GPU)在人工智能(AI)中的比较

可编程门阵列(Field Programmable Gate Array,FPGA)是一种可以在制造后进行配置和定制的集成电路。由于这种能力,这些芯片被称为”可编程字段”。它们由可编程逻辑块组成,可以设置为执行各种功能或充当逻辑门,为用户在电路操作方面提供了很大的灵活性。 可编程门阵列(FPGAs)是由可配置逻辑块(CLBs)和可编程互连组成的半导体器件。这些块可以执行简单到复杂的操作,并且可以包含翻转器或存储块等存储组件。 FPGAs类似于可编程只读存储器芯片,但可以容纳更多的门,并且是可重新编程的,而ASIC是为特定任务设计的。它们可以用于定制微处理器以用于特定用途,并且在无线通信、数据中心、汽车、医疗和航空航天等各个行业中广泛应用。FPGAs的可重新编程性质允许根据需要进行灵活的设计更新。                          来源:https://allaboutfpga.com/fpga-architecture/ 来源:https://blog.samtec.com/post/new-intel-fpga-platform-features-samtec-interconnect/ FPGAs的应用 FPGAs在各个行业中得到广泛应用,并具有多样化的实施领域。它们的主要应用领域包括: 能源行业 FPGAs在智能电网技术中发挥着重要作用,可以提高性能和可扩展性,同时保持低功耗。这在传输和配电(T&D)变电站中尤为有用,需要高效的电力网络以实现最佳运行。 改进的汽车体验 Microsemi FPGAs允许原始设备制造商(OEM)和供应商为车辆创建新的安全应用程序,如定速巡航、盲点警告和碰撞避免。这些FPGAs还提供了信息保障、防篡改、硬件安全和可靠性功能,如纠错存储器和低静态功耗。 航空航天与国防 工业制造公司提供了抗辐射和抗辐射的FPGAs,这些FPGAs通常是太空级别的,以满足严苛环境下的性能、可靠性和寿命要求。这些FPGAs比传统的ASIC实现具有更高的灵活性,特别适用于处理密集型的空间系统。 计算机视觉系统 在当今世界,计算机视觉系统在视频监控摄像头、机器人和其他设备中广泛应用。通常需要使用基于FPGA的系统,使这些设备能够根据其位置、环境和面部识别能力与人们适当地进行交互。 数据中心 物联网和大数据导致获取和处理数据的数量大幅增加。使用深度学习技术进行并行计算推动了对低延迟、灵活和安全计算能力的需求。由于空间成本上升,增加更多的服务器无法满足这一需求。由于其加速处理能力、设计灵活性和硬件安全性等特点,FPGA在数据中心中得到了接受。 实时系统 FPGA被用于实时系统,响应时间至关重要,传统的CPU响应时间不可预测,很难准确预测何时触发器将会触发。 设计ASIC 首先创建电路架构,然后使用FPGA构建和测试原型,以便纠正错误。一旦原型表现符合预期,就会开发ASIC项目。这种方法节省时间,因为创建集成电路可能是费时和复杂的。…

Leave a Comment

Contextual AI推出LENS:一种用于视觉增强语言模型的AI框架,其在VQAv2上的表现比Flamingo高出9%(从56%提升至65%)

大型语言模型(LLMs)近年来在自然语言理解方面取得了重大突破,尤其在零样本和少样本环境下,展示出卓越的语义理解、查询解决和文本生成能力。如图1(a)所示,已经提出了多种方法来使用LLMs处理涉及视觉的任务。光学编码器可以被训练成将每张图片表示为一系列连续的嵌入,让LLM能够理解它。另一种方法是使用对比训练的冻结视觉编码器,同时在冻结的LLM上添加额外的层,然后从头开始学习。 另一种方法建议训练一个轻量级的Transformer来对齐一个冻结的视觉编码器(经过对比训练的预训练)和一个冻结的LLM。尽管在上述研究中取得了进展,但仍然难以证明额外的预训练阶段的计算成本是合理的。此外,为了将视觉和语言模态与现有的LLM同步,需要大量的数据库,包括文本、照片和视频。Flamingo在预训练的LLM中增加了新的跨注意力层,以增加视觉特征。 图1:比较协调视觉和语言模态的方法。多模态预训练有两个选择:(a)使用配对或网络数据集;(b)LENS,一种无需额外多模态数据集就可以与任何现成的LLM一起使用的无预训练技术。与LENS不同,以前的方法需要在大规模多模态数据集上进行联合对齐预训练,以完成视觉任务。 多模态预训练阶段需要惊人的20亿个图片-文本对和4300万个网站,即使使用预训练的图像编码器和预训练的冻结LLM,也可能需要15天的时间。相反,他们可以使用各种“视觉模块”从视觉输入中提取信息,并生成详细的文本表示(如标签、属性、动作和关系等),然后直接将其馈送给LLM,避免了额外的多模态预训练的需要,如图1(b)所示。Contextual AI和斯坦福大学的研究人员引入了LENS(Large Language Models Enhanced to See),这是一种模块化策略,将LLM作为“推理模块”使用,并在不同的“视觉模块”之间运行。 他们首先使用预训练的视觉模块(如对比模型和图像字幕模型)在LENS技术中提取丰富的文本信息。然后将文本发送到LLM,使其能够进行对象识别、视觉和语言(V&L)等任务。LENS通过消除对额外多模态预训练阶段或数据的需求,免费地弥合了模态之间的差距。此外,这种整合使我们能够立即利用计算机视觉和自然语言处理领域的最新进展,最大限度地发挥两个学科的优势。 他们提供了以下贡献: • 他们提出了LENS,一种通过使用语言模型的少样本、上下文学习能力来处理计算机视觉挑战的模块化方法。 • LENS使任何现成的LLM都能够在不经过进一步的训练或数据的情况下进行视觉处理。 • 他们使用冻结的LLM来处理对象识别和视觉推理任务,无需额外的视觉和语言对齐或多模态数据。实验结果表明,他们的方法在零样本性能上与Kosmos和Flamingo等端到端联合预训练模型相媲美或更优。他们的论文的部分实现已经在GitHub上可用。

Leave a Comment

如何从数据分析师转变为数据科学家?

人们经常处理数据,数据分析师在掌握领域专业知识后寻求更具挑战性的角色。数据科学家常常被认为是最具吸引力的职业选择之一。虽然需要扩展技能,但许多教育平台提供了有益的知识,有利于变革。许多数据分析师已成功转行,你可以是下一个! 以下步骤将帮助您为公司的发展做出贡献,并在您成为数据科学家的职业道路上增加专业知识: 评估技能差距 数据科学家角色所需的基本技能和知识 数据科学家需要对数据进行实验,因此开发新想法和研究的思维方式至关重要。同样重要的是,能够分析过去实验的错误。除此之外,执行这些职责所需的技术技能和知识如下: 技术技能: 编程或数据语言,如Python或R 机器学习算法,例如线性回归、逻辑回归、随机森林、决策树、支持向量机、KNN 关系型数据库,如SAP HANA、MySQL、Microsoft SQL Server、Oracle Database 特殊技能,如自然语言处理(NLP)、光学字符识别(OCR)、神经网络、计算机视觉、深度学习 RShiny、ggplot、Plotly、Matplotlit中的数据可视化能力 Hadoop、MapReduce、Spark等分布式计算 分析技能: IBM Watson、OAuth、Microsoft Azure等API工具 实验和A/B测试 预测建模和统计概念,如回归、分类和时间序列分析 领域知识: 计算机科学、软件工程或统计学的硕士或博士学位 专业知识…

Leave a Comment

了解SDFStudio:一个统一和模块化的神经隐式表面重建框架,构建在Nerfstudio项目之上

在过去几年中,计算机视觉和计算机图形相关领域,特别是表面重建方面发展迅速。这个不断变化的三维扫描领域的主要目标是以给定的点云高效地重新创建表面,并满足特定的质量标准。这些算法旨在基于给定的点云数据估计被扫描对象表面的底层几何形状。然后可以利用这个表面进行各种用途,如可视化、虚拟现实、计算机辅助设计和医学成像。一些最著名的表面重建方法包括自组织映射、贝叶斯重建和泊松重建。随着表面重建成为三维扫描的关键方面,正在进行大量的研究,以利用无监督机器学习从三维扫描中进行表面重建的各种适用技术。 为了朝着这个方向迈进,来自图宾根大学、苏黎世联邦理工学院和捷克技术大学的一群研究人员合作开发了SDFStudio,这是一个统一而多功能的神经隐式表面重建工具(NISR)。该框架建立在nerfstudio项目之上,该项目主要提供API以简化创建、训练和可视化神经辐射场(NeRF)的过程。作为其实现的一部分,开发人员使用了三种主要的表面重建方法:UniSurf、VolSDF和NeuS。UniSurf,或称通用表面重建,是一种表面重建方法,旨在通过结合隐式函数和多边形网格从无组织的点云生成平滑的表面表示。另一方面,体积有符号距离场(VolSDF)是一种利用输入点云的体积表示的表面重建方法。NeuS,或神经表面,是一种利用深度神经网络从点云生成表面表示的表面重建方法,实质上结合了隐式表面表示和基于学习的方法的优势。 为了支持一系列场景表示和表面重建技术,SDFStudio使用有符号距离函数(SDF)作为其关键表示,该函数将表面定义为隐式函数的等值面。为了估计SDF,SDFStudio使用了多层感知器(MLPs)、三面和多分辨率特征网格等各种技术。这些技术利用神经网络和特征网格在场景中的不同位置估计有符号距离或占用值。为了进一步提高准确性和效率,该工具还包括多种点采样策略之一,其中之一是受UniSurf方法启发的面导向采样。此外,SDFStudio还采用了从NeuralReconW方法导出的体素表面导向采样。这种方法利用体素网格的信息来引导采样过程,确保生成的点更有可能位于对象的表面上。通过采用这种采样技术,SDFStudio确保生成的点样本代表底层表面,并确保重建表面的质量和准确性得到改善。 SDFStudio的一个显著特点是它提供了一个统一和模块化的实现,为在工具内不同方法之间转移思想和技术提供了便利的框架。例如,从Mono-NeuS到NeuS中观察到了思想转移。另一个思想转移的例子是Geo-VolSDF,它将Geo-NeuS的思想融入到VolSDF中。SDFStudio具备在不同方法之间转移思想的能力,促进了表面重建的进步,使研究人员有机会尝试不同的组合,从一个过程中获得灵感并将其整合到另一个过程中。为了快速开始使用SDFStudio,您可以按照其GitHub存储库上提供的设置说明进行操作。

Leave a Comment

Web规模训练释放:Deepmind推出OWLv2和OWL-ST,这是一种开创性的工具,用于开放词汇的目标检测,采用前所未有的自我训练技术驱动

开放词汇物体检测是各种实际计算机视觉任务的关键方面。然而,检测训练数据的有限可用性和预训练模型的脆弱性经常导致表现不佳和可扩展性问题。 为了解决这个挑战,DeepMind研究团队在他们的最新论文“Scaling Open-Vocabulary Object Detection”中介绍了OWLv2模型。这种优化的架构提高了训练效率,并采用了OWL-ST自训练方法,大大增强了检测性能,并在开放词汇检测任务中取得了最先进的结果。 这项工作的主要目标是优化标签空间、注释过滤和开放词汇检测自训练方法的训练效率,最终在有限的标记数据下实现稳健且可扩展的开放词汇性能。 所提出的自训练方法包括三个关键步骤: 团队使用现有的开放词汇检测器对WebLI数据集进行开放框检测。 他们利用OWL-ViT CLIP-L/14对所有WebLI图像进行边界框伪注释。 他们使用人工注释的检测数据对经过训练的模型进行微调,进一步改进其性能。 值得注意的是,研究人员采用了OWL-ViT架构的变体来训练更有效的检测器。该架构利用对比训练的图像-文本模型来初始化图像和文本编码器,而检测头部则是随机初始化的。 在训练阶段,团队使用相同的损失函数,并从OWL-ViT架构中添加“伪负样本”来增强查询,以优化训练效率,最大限度地利用可用的标记图像。 他们还结合了先前提出的大规模Transformer训练方法,进一步提高了训练效率。结果,OWLv2模型将训练FLOPS降低了约50%,训练吞吐量提高了2倍,相比原始的OWL-ViT模型。 团队在实证研究中将他们提出的方法与先前最先进的开放词汇检测器进行了比较。OWL-ST技术将LVIS罕见类别的平均准确率(AP)从31.2%提高到44.6%。此外,将OWL-ST自训练方法与OWLv2架构结合起来,实现了新的最先进性能。 总体而言,本文提出的OWL-ST自训练方法通过利用大规模网络数据的弱监督,显著提高了检测性能,实现了面向开放世界的规模化训练。这种方法解决了标记检测数据稀缺性带来的局限,并展示了以可扩展的方式实现稳健的开放词汇物体检测的潜力。

Leave a Comment

什么是企业人工智能?

企业人工智能简介 时间紧迫,自动化是答案。在繁琐乏味的任务、人为错误、混乱的竞争和模糊的决策之间,企业人工智能使企业能够与机器合作,更高效地工作。否则,你如何在Netflix上浏览你喜欢的节目,或者在Amazon上找到并购买所需的配饰?从Waymo在汽车行业的应用到市场营销中的快速分析,人工智能已经为我们提供了足够的理由,说明它将会留下来。但是,它是如何帮助组织的?或者说,组织如何使用它?答案之一就是:企业人工智能。 你好!作为Analytics Vidhya博客的忠实读者,我们想向你介绍一个扩展你视野、提升你技能的绝佳机会。我们诚挚邀请所有数据科学和人工智能爱好者参加备受期待的DataHack Summit 2023。这场盛会将于8月2日至5日在印度班加罗尔的著名NIMHANS会议中心举行。这个活动将是一次充满乐趣的盛宴,提供实践学习、宝贵的行业见解和无与伦比的交流机会。如果你对这些主题感兴趣,想要了解更多关于这些概念如何变为现实的信息,请点击这里查看DataHack Summit 2023的详细信息。 企业人工智能定义 企业人工智能被定义为在大型组织中应用人工智能技术和方法来改进各种功能。这些功能包括数据收集和分析、自动化、客户服务、风险管理等等。它涵盖了使用人工智能算法、机器学习(ML)、自然语言处理(NLP)、计算机视觉等工具来解决复杂的商业问题、自动化流程并从大量数据中获取见解。 企业人工智能可以在不同领域实施。这包括供应链管理、财务、市场营销、客户服务、人力资源和网络安全等方面。它使组织能够做出数据驱动的决策,提高效率,优化工作流程,改善客户体验,并在市场中保持竞争优势。 来源:Publicis Sapient 企业人工智能的关键特点 企业人工智能涉及组织的许多方面,从数据分析到自动化。它是不同技术、方法和技巧的产物,对于每个行业或企业可能都不同。下面是它的工作原理: 结合人工智能技术的企业应用 有许多人工智能技术可以用于企业应用。企业人工智能公司使用机器学习、自然语言处理、边缘计算、深度学习、计算机视觉等多种技术的结合。这些技术可以提供强大的能力,帮助企业进行预测分析、图像识别等任务。Netflix的个性化推荐就是使用深度学习等技术的显著例子之一。 根据组织需求量身定制和设计 企业人工智能是各种技术的混合体。现在,由企业需求来决定在系统中采取何种方式和技术,这是组织的责任。毕竟,适用于供应链管理的技术可能在电子商务领域并不需要。 例如,医疗保健领域的企业人工智能公司采用像图像分析、患者监测等技术,以提高医疗实践的效率。能源行业使用预测性维护、可再生能源整合等技术来优化能源的产生和消费。不同行业的利用差异导致了组织在人工智能的不同领域中运作。 企业人工智能的益处和应用 以下是企业人工智能的主要益处: 提高运营效率和生产力 企业人工智能的终极优势之一是自动化重复和繁琐的任务,减轻员工的负担,使他们能够专注于更具战略性和高价值的活动。它简化流程,减少手动错误,并提高各个部门和功能(包括人力资源和供应链管理)的运营效率。最终,它是提高生产力的救星。 来源:AI空间…

Leave a Comment

赋予机器人复杂任务执行能力:Meta AI利用人类行为的互联网视频开发视觉适应模型

Meta AI,一家领先的人工智能(AI)研究机构,最近发布了一种具有突破性的算法,承诺将彻底改变机器人领域。在他们的研究论文《从人类视频中获取作为机器人多功能表示的可供性》中,作者探讨了将YouTube视频应用于机器人学习和复制人类动作的强大训练工具。通过利用在线教学视频的丰富资源,这种尖端算法旨在弥合静态数据集和真实世界机器人应用之间的差距,使机器人能够以更大的多样性和适应性执行复杂任务。 这种创新方法的核心是“可供性”概念。可供性代表对象或环境提供的潜在行为或互动。通过通过分析人类视频来训练机器人理解和利用这些可供性,Meta AI的算法为机器人提供了一个多功能表示,用于执行各种复杂任务。这一突破提高了机器人模仿人类动作的能力,并赋予它们在新的和不熟悉的环境中应用所获得的知识的能力。 为了确保将这种基于可供性的模型无缝集成到机器人的学习过程中,Meta AI的研究人员将其纳入了四种不同的机器人学习范式中。这些范式包括离线模仿学习,探索,目标条件学习和强化学习的动作参数化。通过将可供性识别的能力与这些学习方法相结合,机器人可以获得新的技能,并以更高的精度和效率执行任务。 为了有效地训练可供性模型,Meta AI利用大规模的人类视频数据集,如Ego4D和Epic Kitchens。通过分析这些视频,研究人员使用现成的手-物体交互检测器来识别接触区域并跟踪接触后手腕的轨迹。然而,当场景中的人物存在时,会出现一个重要挑战,即分布转移。为了克服这个障碍,研究人员利用可用的相机信息将接触点和接触后轨迹投影到一个与人无关的框架中,然后将其作为输入提供给他们的模型。 在这一突破之前,机器人在模仿动作方面的能力有限,主要局限于复制特定环境。然而,通过Meta AI的最新算法,在泛化机器人动作方面取得了重大进展。这意味着机器人现在可以在新的和不熟悉的环境中应用所获得的知识,展示出更高的适应性。 Meta AI致力于推进计算机视觉领域的发展,并促进研究人员和开发人员之间的合作。根据这一承诺,该组织计划共享其项目的代码和数据集。通过使这些资源对其他人可访问,Meta AI旨在鼓励对这项技术进行进一步的探索和开发。这种开放的方法将促进自学习机器人的发展,它们可以从YouTube视频中获得新的技能和知识,推动机器人领域进入新的创新领域。

Leave a Comment

2023年要关注的十位人工智能影响者

介绍 在一个由尖端技术和令人难以置信的可能性驱动的世界中,跟上不断发展的人工智能领域既令人兴奋又至关重要。当我们踏入充满希望的2023年时,是时候踏上一段令人激动的旅程,探索最具影响力和远见卓识的人工智能先驱者们的思想。系好安全带,准备好见证2023年跟随的十大人工智能影响者,这些前卫的思想家和创造者正在塑造人工智能领域的格局,推动着可能性的界限。 从突破性的研究到引人入胜的见解,这些人工智能影响者是指引你穿越令人兴奋的人工智能世界的明星。所以,拿起你的虚拟笔记本,系好安全带,因为我们即将踏上一场关于当代最聪明的人工智能思想家思维的激动人心的探索之旅。准备好在2023年及以后重新定义人工智能未来的那些有远见的人们的启发、信息和赋能。 但在你深入阅读这个前十名单之前,我们想向你介绍一个令人惊叹的机会,让你开阔视野,提升技能。我们为所有数据科学和人工智能爱好者提供了一个独家邀请,参加备受期待的2023年DataHack峰会。这一盛事将于8月2日至5日在班加罗尔著名的NIMHANS会议中心举行。这个活动将提供丰富的实践学习、宝贵的行业洞察和无与伦比的网络机会。在这里查看有关DataHack Summit 2023的更多信息,并加入我们的数据革命。 人工智能影响者的定义 人工智能影响者是通过他们的专业知识、思想领导力和贡献在人工智能领域获得认可和影响力的个人。他们积极与人工智能社区互动,并利用社交媒体平台。 人工智能影响者并不局限于单一的社交媒体平台。除了Instagram之外,他们在Twitter、YouTube、LinkedIn和博客等各种平台上都拥有强大的存在感,以分享关于人工智能的见解、研究成果、行业趋势和发人深省的内容。这些影响者拥有庞大的粉丝群体,并与他们的听众互动,促进讨论,提供指导,并激发人工智能领域的创新。从组织黑客马拉松到进行直播编码会议,这些影响者展示了他们的专业知识,并获得了显著的人气和关注。他们的互动会议和活动为人才迸发提供了宝贵的学习机会,鼓励有抱负的人工智能专业人士提升他们的技能,并与最新的进展保持同步。 人工智能影响者在人工智能领域的重要性 人工智能影响者在人工智能领域的重要性不容忽视。他们在以下几个方面发挥着关键作用: 知识传播 人工智能影响者帮助向广大受众传播知识、洞见和行业更新。他们简化复杂的人工智能概念,使其更易于被有抱负的人工智能专业人士、爱好者甚至普通大众所理解。 引领潮流和意见领袖 人工智能影响者通常对最新的人工智能趋势、突破和技术了如指掌。他们的观点和建议具有重要影响力,可以影响人工智能研究、应用和行业实践的方向。 网络和合作 人工智能影响者为人工智能社区提供了一个网络和合作的平台。他们连接专业人士、研究人员和组织,促进了一个加速创新、推动人工智能技术发展的合作环境。 值得关注的顶级人工智能影响者 1. Andrew Ng Andrew Ng在Twitter上拥有超过210万的粉丝,他是人工智能社区中的知名人物。他是在线学习平台Coursera和以人工智能为重点的教育平台deeplearning.ai的共同创始人。他曾任百度首席科学家,并创办并领导了“Google Brain”项目,该项目开发了大规模深度学习算法。最近,他继续研究深度学习及其在语音识别和计算机视觉中的应用,包括自动驾驶。 来源:维基百科…

Leave a Comment

数据科学与统计学的区别

介绍 随着Indeed上数据科学家岗位的增长率达到256%,数据科学已成为行业的热门词汇。在各个领域对数据科学角色的需求不断增长,导致大众选择专业学位和培训计划来学习数据科学。企业和政府广泛使用数据来做出重要决策并规划未来的投资和活动。然而,在数据科学中,统计学的步骤对决策起到同等重要的作用。 想知道哪一个更有用-数据科学还是统计学? 让我们来探讨一下! 什么是数据科学? 数据科学是对数据进行分析以获取重要的业务见解。它包括多个学科,如统计学、人工智能、数学和计算机科学。这些学科帮助分析大量的数据。数据科学家利用他们的知识来找到解决问题的方法,弄清楚为什么会发生这个问题,可以预期什么,还能实现什么。 今天许多行业都使用数据科学来预测消费者的模式和趋势,发现新的机会。它帮助企业在产品开发和销售方面做出明智的决策。它也作为一个改进流程和检测欺诈的学科。政府也使用数据科学来提高公共服务的效率。 什么是统计学? 统计学是一门应用科学,涉及收集和分析数据以发现模式和趋势,消除偏见,并帮助决策。它是商业智能的一个特征,包括收集和分析商业数据并呈现趋势。 企业可以通过统计评估在许多方面受益,例如识别表现最佳的产品线,识别表现不佳的销售人员,了解收入增长在不同地区的变化情况。 预测建模可以从使用统计分析方法中受益。统计分析工具使企业能够深入研究,查看更重要的细节,相比于只显示可能受到各种外部事件影响的简单趋势预测。 数据科学 vs 统计学 数据科学和统计学之间的主要区别如下: 数据科学 统计学 它基于科学计算方法。它使用统计学和应用数学从大数据中获得新的信息。 统计学是对数据的研究。它应用统计函数和算法来确定数据的值。 它应用于解决与数据相关的问题。 统计学用于设计和制定基于数据的现实世界问题。 它从原始或结构化数据中提取见解。 它计划数据收集、分析和表示以进行进一步的研究。 数据科学的应用领域包括医疗系统、金融、欺诈检测和市场分析。 统计学的应用领域包括贸易和商业、人口研究和物理科学。…

Leave a Comment

NVIDIA H100 GPU在首次发布的MLPerf基准测试中为生成式AI设定了标准

主流用户和行业标准基准测试都认为:NVIDIA H100 Tensor Core GPU 提供了最佳的 AI 性能,特别是在驱动生成式 AI 的大型语言模型(LLM)方面表现出色。 H100 GPU 在最新的 MLPerf 训练基准测试中的所有八个测试中都创下了新记录,尤其是在生成式 AI 的新 MLPerf 测试中表现出色。这种卓越的性能在单个加速器和大规模服务器上都能得到体现。 例如,由创业公司 Inflection AI 和专门从事 GPU 加速工作负载的云服务提供商…

Leave a Comment

什么是AI幻觉?AI聊天机器人出了什么问题?如何识别出幻觉的人工智能?

AI幻觉并非新问题。人工智能(AI)在过去几年取得了显著进展,变得更加熟练,可以执行以前只能由人类完成的活动。然而,幻觉是一个对AI构成了巨大障碍的问题。开发者已经警告,AI模型产生完全错误的事实并用虚构的答案回答问题,似乎这些答案是真实的,这可能会危及应用程序的准确性、可靠性和信任度,因此幻觉是开发和部署AI系统的严重障碍。因此,从事AI工作的人正在积极寻求解决这个问题的方法。本文将探讨AI幻觉的影响和影响,以及用户可能采取的减少接受或传播不正确信息的危险的措施。 什么是AI幻觉? 所谓人工智能幻觉的现象是指AI模型产生了预期之外的结果。请注意,一些AI模型已经被教导了有意地制造没有与现实世界输入(数据)相关联的输出。 幻觉是用来描述当AI算法和深度学习神经网络创建结果不是真实的、不匹配算法接受过的任何数据或没有遵循任何其他可辨别的模式的情况。 AI幻觉可以采取许多不同的形式,从制造虚假新闻报道到虚假的关于人、历史事件或科学事实的断言或文件。例如,像ChatGPT这样的AI程序可以制造一个有完整传记和从未真实存在的成就的历史人物。在当前社交媒体和即时通信的时代,一个单一的推文或Facebook帖子可以在几秒钟内达到数百万人,这种不正确信息传播的潜力尤其令人担忧。 为什么会发生AI幻觉? 具有欺骗AI程序使其误分类的输入数据——对抗性示例——可能会导致AI幻觉。例如,开发人员使用数据(例如图像、文本或其他类型)来训练AI系统;如果数据被改变或扭曲,应用程序将以不同的方式解释输入并产生不正确的结果。 使用编码器-解码器(输入-输出)序列,AI中的变压器是一种深度学习模型,它利用自我关注(语句中单词之间的语义联系)创建类似于人类写作的文本。对于幻觉而言,如果语言模型的训练数据和资源充足且准确,那么预期输出将是虚构的和错误的。语言模型可能会产生一个故事或叙述,没有不合逻辑的间隙或模糊的联系。 发现AI幻觉的方法 作为人工智能的一个子领域,计算机视觉旨在教会计算机从视觉输入(例如图片、绘画、电影和现实生活)中提取有用的数据,它正在培训计算机像人类一样看待世界。但是,由于计算机不是人类,它们必须依靠算法和模式来“理解”图片,而不是直接接触人类感知。因此,人工智能可能无法区分薯片和落叶。这种情况也经过了常识测试:与人类可能看到的相比,AI生成的图像。当然,随着AI变得更加先进,这变得越来越困难。 如果人工智能没有迅速融入日常生活,这一切都会显得荒谬和有趣。自动驾驶汽车已经采用了人工智能,其中幻觉可能导致死亡。虽然这还没有发生,但在实际世界中开车时误认物品是一场灾难,只等发生。 在使用流行的AI应用程序时,以下是几种识别AI幻觉的技术: 1. 大型语言处理模型 像ChatGPT这样的大型处理模型生成的信息中的语法错误是罕见的,但当它们发生时,你应该对幻觉持怀疑态度。同样,当生成的文本内容不合理、不符合提供的上下文或与输入数据不匹配时,应该对幻觉持怀疑态度。 2. 计算机视觉 人工智能有一个子领域叫做计算机视觉,机器学习和计算机科学,它使机器能够像人眼一样检测和解释图像。它们依赖于卷积神经网络中的大量视觉训练数据。 如果用于训练的视觉数据模式发生变化,就会出现幻觉。例如,如果计算机还没有接受过网球的图像训练,它可能会错误地将网球识别为绿色或橙色。如果计算机错误地将站在人类雕像旁的马识别为真实的马,它也可能会产生AI幻觉。 将产生的输出与人类预期观察到的输出进行比较,将帮助您识别计算机视觉幻觉。 3.   自动驾驶汽车 由于人工智能的推动,自动驾驶汽车在汽车工业中越来越受欢迎。自动驾驶汽车的先驱们,如福特的BlueCruise和特斯拉的Autopilot,推动了这一计划。通过查看特斯拉Autopilot感知的方式和内容,您可以了解一些关于人工智能如何支持自动驾驶汽车的知识。 幻觉对人类和人工智能模型的影响是不同的。人工智能幻觉是错误的结果,与现实极不一致或在提供的提示的情况下毫无意义。例如,AI聊天机器人可能会因噪声或其他结构问题而以语法或逻辑上不正确的方式回答,或错误地识别一个对象。…

Leave a Comment

从零开始学习注意力模型

介绍 注意力模型,也称为注意机制,是神经网络中使用的输入处理技术。它们使网络能够分别关注复杂输入的不同方面,直到整个数据集被分类。其目的是将复杂任务分解为小的关注区域,逐步处理。这种方法类似于人类思维如何通过将问题分解为简单任务并逐步解决它们来解决新问题的方式。注意力模型能够更好地适应特定任务,优化其性能,并提高其关注相关信息的能力。 NLP中的注意机制是深度学习在过去十年中最有价值的发展之一。Transformer架构和自然语言处理(NLP)(例如Google的BERT)已经导致了最近的进展。 学习目标 了解深度学习中注意机制的必要性、工作原理及其如何提高模型性能。 了解注意机制的类型和使用示例。 探索应用程序以及使用注意机制的优缺点。 通过按照注意力实现示例来获得实践经验。 本文是Data Science Blogathon的一部分。 何时使用注意力框架? 注意力框架最初是用于增强编码器-解码器型神经机器翻译系统和计算机视觉性能的。传统机器翻译系统依赖于大型数据集和复杂的功能来处理翻译,而注意力机制简化了这一过程。注意力机制不是逐个单词翻译,而是分配固定长度的向量来捕捉输入的总体含义和情感,从而实现更准确的翻译。注意力框架在处理编码器-解码器翻译模型的限制时特别有用。它能够精确对齐和翻译输入短语和句子。 与将整个输入序列编码为单个固定内容向量不同,注意力机制为每个输出生成一个上下文向量,从而实现更高效的翻译。需要注意的是,虽然注意力机制提高了翻译的准确性,但它们可能并不总能达到语言完美。然而,它们能够有效地捕捉原始输入的意图和一般情感。总之,注意力框架是克服传统机器翻译模型的限制,实现更准确和具有上下文感知的翻译的有价值工具。 注意力模型如何运作? 从广义上讲,注意力模型利用一个函数将查询和一组键值对映射为生成输出。这些元素,包括查询、键、值和最终输出,都表示为向量。通过加权求和值来计算输出,权重由一个兼容性函数确定,该函数评估查询和相应键之间的相似性。 在实际应用中,注意力模型使神经网络能够近似于人类使用的视觉注意机制。类似于人类如何处理新场景,该模型强烈关注图像中的特定点,提供“高分辨率”理解,同时以较少的细节感知周围区域,类似于“低分辨率”。随着网络对场景的理解越来越好,它会相应地调整焦点。 使用NumPy和SciPy实现通用注意力机制 在本节中,我们将研究利用Python库NumPy和SciPy实现通用注意力机制的实现。 首先,我们定义一个四个单词序列的单词嵌入。为了简单起见,我们将手动定义单词嵌入,尽管在实践中,它们将由编码器生成。 import numpy as np #…

Leave a Comment

人工智能会取代人类吗?

介绍 众所周知,人工智能正在蓬勃发展,吸引着科学家和公众的想象力。新闻和社交媒体上充斥着人工智能技术的显著进步。想想看:自动驾驶车辆在我们的街道上行驶,语音助手随叫随到,复杂的算法正在改变我们的生活方式。这是令人难以置信的!这些曾经只是梦想的东西,似乎比我们预期的要早实现。现在,在这个非凡的进步中,一个发人深省的问题浮现。我们是否处于人工智能将取代人类角色的边缘? 人工智能会是人类最后的发明吗? Jermey Howard 不要担心,我们不需要立即得出结论。我们在这里探讨这个迷人的话题,揭示未来可能会发生的事情。 图片来源:Pixabay 你看,历史上我们见证了技术奇迹,改变了我们的工作方式。当然,以前的机器和自动化可能曾经取代了某些任务,但是它们也为新的行业和职业的兴起铺平了道路。这是一种创新和适应的循环,不断创造令人兴奋的工作机会,我们以前无法想象。因此,让我们保持开放的心态,并拥抱未来的新可能性。 但是,在你深入探讨这个有趣的话题之前,我们想为你呈现一个令人惊叹的机会,扩展你的视野,提高你的技能。呼唤所有的数据科学和人工智能爱好者加入我们高度期待的DataHack Summit 2023。这一切将在8月2日至5日在班加罗尔著名的NIMHANS会议中心举行。这个活动将充满实践学习、宝贵的行业见解和无与伦比的社交机会。如果你对这些话题感兴趣,想了解更多关于这些概念正在变成现实的信息,请在这里查看DataHack Summit 2023的信息。 从古至今的演变 早期的时候,人们不得不自己做所有的事情。从寻找食物到建造住所,都要依靠自己的体力和技能。但是,随着工业革命和机械革命的到来,一些不可思议的事情发生了,彻底改变了游戏规则。 随着自动化成为现实,机器开始接管以前由人类完成的重复性和体力要求较高的任务。而且,它们做得非常好!这些机器可以比我们更快、更高效地完成任务。结果是,生产率大幅提高,出现了全新的机会。 随着机器接管了这些任务,人类发现自己处于不同的角色。他们成为这些惊人机器的操作者和维护者。这是一个双赢的局面。自动化不仅使事情更加高效,还为人们创造了新的工作岗位。它就像是经济的一针兴奋剂,推动了前所未有的增长和创新。 艺术与创新 你知道,人工智能非常惊人。它能够处理数据、处理信息,甚至可以像没有人一样自动化任务。但是,当涉及到创造力和创新的领域时,人类一直占据着上风。想想美术的美,文学的情感和科学的开创性思想。它们一直被看作是只有我们人类才能想出的特殊的东西。但是,人工智能真的能在这些领域与我们的机智相匹配吗? 图片来源:Freepik 还要阅读:新闻文章-格莱美奖禁止人工智能:人类创作者成为中心 嗯,人工智能确实展示了一些令人印象深刻的技能。它可以复制艺术风格、创作音乐、写诗甚至创作画作。就像我们身旁有一个AI艺术家或音乐家。但是这里的问题是:尽管这些由人工智能生成的作品令人难以置信,但它们仍然缺乏真正的人类特点。你知道,我们人类将情感深度和真实生活经验融入到我们的工作中。这就是我们的创造物如此深刻和有意义的原因。 当然,人工智能艺术可能会引起我们的注意,让我们说:“哇,太酷了!”但深入内心,我们知道有些东西是缺失的。那些微小的细节和复杂性只有我们人类才能带入。我们的创造物是我们的反映,是我们的思想、我们的挣扎和我们的胜利。这是人工智能目前无法复制的。 你是否在专业或个人工作中遇到了像MidJourney和Stable Diffusion这样令人惊叹的创新技术?这些开创性的技术已经席卷了全球,并成为我们生活中不可或缺的一部分。如果你对它们的工作原理感到好奇,我们的工作坊-在DataHack…

Leave a Comment

毕业后应该做什么?

在完成Btech学位之后该做什么?这个普遍的问题困扰着所有的大四学生和刚毕业的学生。虽然许多人选择传统的职业道路,但有些人决定研究和探索新领域的职业。通过探索更多的选择,关注技能发展,不断学习并跟上不断发展的技术,个人可以在快节奏的Btech毕业后的旅程中蓬勃发展。在本文中,我们涵盖了Btech毕业后最佳的职业选择。 Btech毕业生的传统职业道路 工程师职位 软件工程师/开发人员:计算机科学Btech毕业的软件工程师参与在线和移动应用程序的开发,数据库管理和软件架构。 硬件工程师:硬件工程师创建、开发和测试计算机硬件组件,确保其最佳运行。 机械工程师:他们在各种行业中开发、分析和构建机械系统,如产品设计、机器人、工业机械等。 电气工程师:他们规划、开发和维护发电、电子、通信和可再生能源系统。 土木工程师:他们规划、设计、建造和维护基础设施项目,保持结构完整性、安全性和环境可持续性。 航空航天工程师:他们负责设计、开发和测试飞行器、航天器和相关技术。 化学工程师:他们在广泛的行业中创建和管理过程,包括石油化工、制药、环境工程和材料科学。 环境工程师:他们为环境保护、可持续性和废物管理提供解决方案,同时保证符合法规。 高等研究和研究 MTech或ME: Btech毕业生可以追求MTech或ME等研究生学位,其中包括研究机会、高级课程和工程专业。 MS: Btech毕业生可以获得工程硕士学位,专注于研究、课程、合作和论文完成。 博士: 对研究感兴趣的Btech毕业生可以申请博士项目,他们将专注于工程领域,撰写博士论文,并与导师和研究人员合作。 研究奖学金:研究机构和大学为Btech毕业生提供奖学金和教学机会,提供财务支持和教学机会。 与工业合作:为了获得实践经验和行业曝光,Btech毕业生可以参加面向行业的研究项目,与公司或研发中心合作。 技术政府工作 印度工程服务(IES):印度工程服务考试由印度铁路和UPSC管理,吸引Btech毕业生在政府部门如中央工程服务、水利工程服务和电力工程服务等工程职位。 PSUs: PSUs(公共部门企业)在工程、项目管理、研究和发展等技术职位上聘用Btech毕业生,其中包括BHEL、ONGC、NTPC、IOCL和HAL等组织。 国防领域:…

Leave a Comment

红猫和雅典娜AI开发了具有夜视功能的智能军用无人机

领先的军事技术公司Red Cat Holdings, Inc.在与Athena AI的合作中实现了一个里程碑。合作带来了人工智能(AI)和计算机视觉技术在Teal 2军用无人机上的显著进展。利用最先进的技术,Red Cat和Athena AI赋予指挥官在战场上前所未有的决策支持,特别是在夜间。这一突破性发展承诺彻底改革军用无人机操作,确保增强态势感知并为战士提供不公平的优势。 另请参阅:Palantir推出军事决策人工智能平台 第二阶段成功:夜间目标识别和战斗跟踪 Red Cat最初于三月宣布与Athena AI的合作,专门针对Teal 2军用无人机。在最近完成的第二阶段中,Athena AI的先进技术已成功处理了Teal 2热成像传感器记录的夜间测试飞行视频。结果是一个出色的目标识别和战斗跟踪能力。在人工智能的帮助下,指挥官们现在可以在战斗的白热化阶段迅速做出明智决策,从而在战场上获得显著的优势。 另请参阅:战场革命:英美澳通过AI无人机试验推动界限 Teal 2的夜间计算机视觉能力:划时代的改变 Red Cat子公司Teal Drones的创始人兼首席执行官George Matus对支持夜间计算机视觉能力的新Teal 2附加组件表示热情洋溢。此功能专为需要在夜间任务期间获取关键数据的用户设计。Matus赞扬Athena AI的技术为提供出色的图像和洞察力。…

Leave a Comment

DeepMind研究人员开源TAPIR:一种新的人工智能模型,用于跟踪视频序列中的任何点(TAP),有效跟踪查询点

计算机视觉是人工智能领域中最受欢迎的领域之一。使用计算机视觉开发的模型能够从不同类型的媒体中提取有意义的信息,无论是数字图像、视频还是其他视觉输入。它教会了机器如何感知和理解视觉信息,然后根据细节采取行动。随着一种名为追踪任何点(TAPIR)的新模型的推出,计算机视觉取得了重大进步。TAPIR的目标是有效地跟踪视频序列中的特定兴趣点。 TAPIR模型由Google DeepMind、VGG、工程科学系和牛津大学的研究人员团队开发,其算法包括两个阶段——匹配阶段和精炼阶段。在匹配阶段,TAPIR模型单独分析每个视频序列帧,以寻找适合查询点的候选点匹配。这一步旨在确定查询点在每个帧中的最可能相关点,为了确保TAPIR模型能够跟踪查询点在视频中的运动,这个过程是逐帧进行的。 在确定候选点匹配的匹配阶段之后,TAPIR模型使用精炼阶段。在这个阶段中,TAPIR模型基于局部相关性更新轨迹(查询点所在路径)和查询特征,因此考虑到每个帧中的周围信息,以提高跟踪查询点的准确性和精度。通过集成局部相关性,精炼阶段提高了模型精确跟踪查询点的能力,并调整视频序列中的变化。 为了评估TAPIR模型,该团队使用了TAP-Vid基准测试数据集,它是用于视频跟踪任务的标准化评估数据集。结果显示,TAPIR模型的表现明显优于基线技术。使用称为平均Jaccard(AJ)的度量衡量的性能改进显示,TAPIR模型在DAVIS(密集注释视频分割)基准测试中的AJ相对于其他方法实现了约20%的绝对改进。 该模型旨在便于快速并行推理长视频序列,即它可以同时处理多个帧,提高跟踪任务的效率。该团队提到,该模型可以实时应用,使其能够处理和跟踪添加新视频帧的点。它可以在256×256视频上跟踪256个点,速度约为每秒40帧(fps),还可以扩展以处理更高分辨率的电影,使其具有处理各种大小和质量的视频的灵活性。 该团队为用户提供了两个在线Google Colab演示,以尝试TAPIR而无需安装。第一个Colab演示允许用户在自己的视频上运行模型,提供交互式体验以测试和观察模型的性能。第二个演示重点介绍如何在线运行TAPIR。此外,用户可以通过克隆提供的代码库,在现代GPU上跟踪自己的网络摄像头上的点并实时运行TAPIR。

Leave a Comment

认识Seal:一种AI框架,通过利用2D视觉基础模型对大规模3D点云进行自监督学习,追求“分割任何点云序列”

大型语言模型(LLMs)已经成为了人工智能领域的热门话题。它们近期的影响和惊人的表现已经帮助医疗保健、金融、娱乐等各个行业做出了很大的贡献。像 GPT-3.5、GPT 4、DALLE 2 和 BERT 这样的知名 LLMs,也被称为基础模型,可以执行非凡的任务,通过提供一个简短的自然语言提示,为我们生活带来了独一无二的内容。 最近的视觉基础模型(VFMs)如 SAM、X-Decoder 和 SEEM 在计算机视觉方面取得了许多进展。虽然 VFMs 在 2D 感知任务方面取得了巨大的进步,但 3D VFM 研究仍需要改进。研究人员建议扩展当前的 2D VFMs 用于 3D 感知任务。一个关键的…

Leave a Comment

人工智能如何改变汽车工业?

现在,您可能正在加快步伐迎接飞行汽车成为现实的日子,但您也会想象成为自动驾驶汽车的乘客。人工智能(以及特斯拉和Waymo)将这个快速而迷人的概念转化为现实。然而,AI在汽车行业中的潜力并不仅局限于自动驾驶汽车。它涉及许多功能,解锁所有人的舒适度:汽车制造商、驾驶员和乘客。我们将深入探讨这是如何发挥作用的。 汽车行业中的AI是什么? 汽车工业中的AI意味着在汽车世界的多个领域中实施人工智能技术。各种AI技术,如机器学习(ML)、自然语言处理(NLP)和计算机视觉,有助于将人工智能集成到汽车工业中,旨在实现更好的驾驶体验。在AI汽车世界中,这些技术自动化许多任务,如路线规划、导航、停车等,同时提高效率和安全性。 为什么我们需要汽车行业中的AI? 从设计和制造到生产和售后,将AI集成到汽车工业中已经开始了,而且有许多原因可以成为某些异常舒适、安全和快速的开端。请继续阅读以下人工智能在汽车工业中的一些关键优势: 提高安全性 在汽车中使用AI启用先进的驾驶员辅助系统(ADAS),改善道路安全性前景光明。AI算法可以分析传感器数据以实时识别潜在危险,从而降低事故风险。自动紧急制动和车道保持辅助是AI汽车环境中的功能,可实现即时监测和更安全的驾驶体验。 自动驾驶 自动驾驶汽车是AI的产物,自动驾驶汽车已经引起足够的关注。这些汽车使用AI技术的集成来帮助理解周围环境,实现快速决策,并在没有人类干预的情况下驾驶。称之为现象或革命,AI在自动驾驶汽车中表明了更少的人为错误、更有条理的交通流和无法驾驶的人士的可访问性。特斯拉Model 3、沃尔沃XC40、宝马iX和雷克萨斯LS是最近和高科技的自动驾驶汽车。 提高效率 汽车行业中的AI可以最小化交通拥堵并优化燃油效率。无人驾驶车辆可以帮助燃料经济性下降10%。人工智能算法分析道路条件和交通模式以建议最佳车辆路线,降低燃油消耗和排放。此外,AI驱动的智能交通管理系统可以控制流量以管理拥堵。 另请阅读:zPod,印度的第一辆AI驱动的自动驾驶汽车 自动驾驶汽车中的AI应用 在汽车工业中使用各种人工智能技术为汽车带来了巨大的可能性。以下是AI汽车技术的应用,为汽车行业的未来驾驶带来了轻松: 高级驾驶员辅助系统(ADAS) AI是各种ADAS功能的动力源,包括车道保持辅助、自动紧急制动、自适应巡航控制和泊车辅助。这些系统利用AI算法和传感器来监视车辆周围环境,识别潜在危险,并协助驾驶员轻松实现无碰撞驾驶、泊车等。 自动驾驶和自动驾驶汽车 AI已经因为为世界引入自动驾驶汽车而受到欢迎。该技术引入了机器学习算法、计算机视觉和传感器融合技术,以了解车辆周围环境、实时决策并管理整个驾驶范围内的汽车。自动驾驶车辆正在加速重新定义交通运输、增强道路安全、减少事故并改善交通流。 传感器融合和感知系统 传感器融合收集来自摄像头、雷达、激光雷达和超声波传感器等传感器的数据,以创建对车辆周围环境的集体理解。AI算法处理传感器数据并将其集成以检测对象并预测行为,从而帮助实时做出明智决策。这些系统激活高级驾驶员辅助功能,包括自适应巡航控制和行人检测,从而实现高效的驾驶体验。 路径规划与导航 路径规划和导航是汽车工业中人工智能的重要方面。它包括了感知、定位和避碰等组件,以指导优化路线。 车辆安全与预测性维护的人工智能 风险评估和决策是预测性分析在每个行业中的强大成果,而在增强驾驶员安全方面,汽车行业也不遗余力地利用这种人工智能技术。…

Leave a Comment

来自加州大学伯克利分校和谷歌的研究人员推出了一种人工智能框架,将视觉问答表述为模块化代码生成

人工智能(AI)的领域正在随着每个新模型和解决方案的发布而不断发展和进步。近来因其不可思议的能力而变得非常流行的大型语言模型(LLMs)是AI崛起的主要原因。AI的子领域,无论是自然语言处理(NLP)、自然语言理解(NLU)还是计算机视觉,所有这些都在进步,并且出于种种良好的理由。最近引起AI和深度学习社区极大兴趣的一个研究领域是视觉问答(VQA)。VQA是回答关于图像的开放性、基于文本的问题的任务。 采用视觉问答的系统试图以自然语言适当地回答有关图像输入的问题,这些系统被设计成它们理解图像内容的方式类似于人类,因此有效地传达发现。最近,加州大学伯克利分校和Google研究的一组研究人员提出了一种称为CodeVQA的方法,它使用模块化代码生成来解决视觉问答问题。CodeVQA将VQA制定为程序综合问题,并利用编码语言模型,该模型以问题作为输入并生成代码作为输出。 这个框架的主要目标是创建可以调用经过预先训练的视觉模型并组合其输出以提供答案的Python程序。所生成的程序操作视觉模型输出并使用算术和条件逻辑推导出解决方案。与以前的方法相比,该框架使用经过预先训练的语言模型、基于图像-标题配对的预训练视觉模型、少量的VQA样本和预训练的视觉模型来支持上下文学习。 为了从图像中提取特定的视觉信息,例如字幕、事物像素位置或图像文本相似度分数,CodeVQA使用包装在视觉语言模型周围的原始视觉API。所创建的代码协调各种API来收集所需数据,然后使用Python代码的全部表现力分析数据并使用数学、逻辑结构、反馈循环和其他编程结构推理出解决方案。 为了评估这种新技术的性能,该团队将其性能与不使用代码生成的几次采样基线进行了比较。 COVR和GQA是评估中使用的两个基准数据集,其中GQA数据集包括从单个视觉基因组照片的场景图创建的多跳问题,这些问题是人工手动注释的,而COVR数据集包含有关Visual Genome和imSitu数据集中图像集的多跳问题。结果显示,CodeVQA在两个数据集上都比基线表现更好。特别是,在COVR数据集上的准确性至少提高了3%,在GQA数据集上则提高了约2%。 该团队提到,CodeVQA很容易部署和使用,因为它不需要任何额外的训练。它利用预训练模型和有限数量的VQA样本进行上下文学习,这有助于将创建的程序针对特定的问题-答案模式进行调整。总之,该框架强大,并利用预先训练的LM和视觉模型的优势,提供了一种基于模块化和代码的VQA方法。

Leave a Comment

人工智能如何让森林免受火灾威胁?

当野火肆虐加利福尼亚州,把天空变成橙色,并留下毁灭性的后果时,一家开创性的初创公司挺身而出,与野火抗争。总部位于硅谷的计算机视觉领导者Chooch,结合了人工智能(AI)和计算机视觉的力量,彻底改变了野火检测方式。通过利用其创新技术,Chooch成功地向消防员提供了实时警报,使消防员能够更快地做出反应,防止进一步的损失。在本文中,我们将探讨Chooch的AI驱动解决方案如何改变野火检测并拯救生命。 个人使命:对抗野火 当加利福尼亚遭受灾难性的2020年野火时,Chooch的CEO Emrah Gultekin感到了个人的呼唤去帮助。与消防官员合作,他们发现现有的野火检测系统存在许多错误的阳性,这些阳性是由雾、雨和镜头污迹等因素引起的。Chooch决心要做出改变,便开始了一个试点项目,将其火灾检测软件与摄像头网络集成,利用AI和计算机视觉的力量。 生成式AI的力量:减少假阳性 Chooch的CTO Hakan Gultekin及其团队设计了一种解决方案来对抗假阳性。他们开发了一种生成式AI工具,可以自动为每个图像创建描述,帮助审查员准确识别烟雾的存在。结果,假阳性数量大大减少,从每周惊人的2000个减少到只有8个。这项突破性技术引起了消防队长的兴趣,他们迫不及待地希望将其集成到他们的监测中心中。 实时警报:赋予加利福尼亚州Kern县的消防员权力 Chooch的生成式AI工具为加利福尼亚州Kern县的消防队员提供了一个实时仪表板,可以通过智能手机和PC访问。这个仪表板提供即时警报,使消防员能够迅速检测出野火。考虑到加利福尼亚在2020年发生了9900起野火,烧毁了430万英亩,并造成了190亿美元的损失,即使及时检测出一场火灾,这个野火检测系统的成本也可以为未来的50年所证明。 充满希望的未来:扩展AI应用 Emrah Gultekin展望AI和计算机视觉的更加强大和准确的未来。通过将大型语言模型与计算机视觉相结合,Chooch旨在开发有效且易于部署的产品。例如,公用事业公司可以利用软件与无人机和固定摄像头连接,实现对电容器腐蚀或植被侵占电线的检测。Chooch的技术将通过参加1100万美元的Xprize挑战赛来获得进一步的验证,该挑战赛专注于野火检测和响应,有PG&E和洛克希德·马丁等知名赞助商。 成功之路:合作与尖端技术 Chooch开创野火检测革命的旅程始于他们加入了NVIDIA Inception,这是一个旨在培育尖端初创企业的计划。与NVIDIA合作,Chooch成功将其代码移植到NVIDIA GPU上,使其产品能够在NVIDIA Jetson模块上运行。该技术经过了广泛的测试,包括全运动视频和多光谱数据,展示了其在实际场景中的强大性和有效性。 我们的看法 Chooch将AI和计算机视觉技术融合,成为野火检测领域的变革者。这种创新解决方案显著减少了假阳性,提供了实时警报,并赋予了消防员权力。因此,它有潜力拯救生命,保护宝贵的资源并减轻野火的破坏性影响。随着Chooch不断完善其技术并扩展其应用,未来充满希望。我们尚未看到AI在对抗野火和其他我们作为社会所面临的重要挑战中的全部潜力。

Leave a Comment

用 NeRF 重建室内空间

Marcos Seefelder,软件工程师,以及 Daniel Duckworth,Google Research 的研究软件工程师 在选择场所时,我们经常遇到以下问题:这家餐厅是否适合约会的氛围?是否有好的户外座位?是否有足够的屏幕观看比赛?尽管照片和视频可能部分回答这些问题,但在无法亲自访问的情况下,它们无法取代感觉好像你在那里的体验。 交互式、照片逼真、多维度的沉浸式体验有望弥合这种差距,并重新创造空间的感觉和氛围,使用户能够自然和直观地找到他们需要的信息。为了帮助实现这一目标,Google 地图推出了 Immersive View,它使用机器学习(ML)和计算机视觉的先进技术,将数十亿个街景和航拍图像融合在一起,创建了一个丰富的数字模型。除此之外,它还在上面添加了有用的信息,例如天气、交通和场所的繁忙程度。Immersive View 提供了餐厅、咖啡馆和其他场所的室内视图,让用户可以虚拟地近距离观看,从而帮助他们自信地决定去哪里。 今天我们将描述 Immersive View 中提供这些室内视图的工作。我们基于神经放射场(NeRF),这是一种最先进的方法,用于融合照片以在神经网络中产生逼真的多维重建。我们描述了我们的 NeRF 创作流程,其中包括使用 DSLR 相机对空间进行自定义照片拍摄、图像处理和场景再现。我们利用 Alphabet 在这一领域最近的进展,设计了一种方法,其视觉保真度与之前的最新技术相匹配甚至超越。然后,这些模型被嵌入交互式的 360° 视频中,沿着策划的飞行路径,使它们可以在智能手机上使用。…

Leave a Comment

NVIDIA研究团队在CVPR赢得自动驾驶挑战赛和创新奖

NVIDIA将在下周的计算机视觉和模式识别会议(CVPR)上,作为自主驾驶开发中激烈争夺的3D占用预测挑战的优胜者进行展示,该会议将在加拿大温哥华举行。 该比赛来自来自10个地区的近150个团队的400多个提交。 3D占用预测是预测场景中每个体素的状态的过程,即3D俯视图网格上的每个数据点。体素可以被识别为自由、占用或未知。 3D占用网格预测对于安全和强大的自动驾驶系统的发展至关重要,它利用最先进的卷积神经网络和变压器模型为自主驾驶车辆(AV)规划和控制堆栈提供信息,这些模型是由NVIDIA DRIVE平台启用的。 “NVIDIA的获胜解决方案具有两个重要的AV进展,” NVIDIA的学习和感知的高级研究科学家Zhiding Yu说。“它展示了一种最先进的模型设计,可以提供出色的俯视感知。它还展示了具有10亿个参数和大规模预训练的视觉基础模型在3D占用预测中的有效性。” 自主驾驶的感知在过去几年中已经从处理2D任务(例如检测图像中的对象或自由空间)发展到使用多个输入图像推理世界中的3D。 这现在为复杂交通场景中物体提供了灵活而精确的细粒度表示,这是“实现自主驾驶的安全感知要求至关重要的,” NVIDIA的AV应用研究总监和杰出科学家Jose Alvarez说。 于将在CVPR的端到端自主驾驶研讨会上介绍NVIDIA研究团队的获奖作品,时间为6月18日星期天上午10:20,以及在6月19日星期一下午4:00举行的视觉中心自主驾驶研讨会上介绍。 除了在比赛中获得第一名外,NVIDIA还将在会议上获得创新奖,该奖项表彰了其“对视图转换模块开发的新见解”,与以前的方法相比,“性能大幅提高”,根据CVPR研讨会委员会的说法。 请阅读NVIDIA提交的技术报告。 3D占用预测使车辆更安全 虽然传统的3D对象检测(检测和表示场景中的对象,通常使用3D边界框)是AV感知中的核心任务,但它也有其局限性。例如,它缺乏表现力,这意味着边界框可能不表示足够的现实世界信息。它还需要为所有可能的对象定义分类和基本真实,甚至包括在现实世界中很少见到的对象,例如可能从卡车上掉落的道路障碍。 相比之下,3D占用预测为自驾车的规划堆栈提供了丰富的关于世界的信息,这对于端到端自驾车是必要的。 软件定义的车辆可以持续升级,使用随时间证明和验证的新发展。来自研究倡议的最先进的软件更新,如CVPR所认可的更新,正在为新功能和更安全的驾驶功能提供支持。 NVIDIA DRIVE平台为汽车制造商提供了一条通往生产的道路,为安全可靠的AV开发提供全栈硬件和软件,从汽车到数据中心。 CVPR挑战赛详情 CVPR的3D占用预测挑战要求参与者在推理期间仅使用相机输入开发算法。参与者可以使用开源数据集和模型,促进数据驱动算法和大型模型的探索。组织者为最新的实际场景中最先进的3D占用预测算法提供了基线沙盒。 NVIDIA在CVPR上 NVIDIA将在CVPR上展示近30篇论文和演示。将讨论自动驾驶的专家包括:…

Leave a Comment

Can't find what you're looking for? Try refining your search: