Press "Enter" to skip to content

四海吧 Posts

来自加州大学伯克利分校和谷歌的研究人员推出了一种人工智能框架,将视觉问答表述为模块化代码生成

人工智能(AI)的领域正在随着每个新模型和解决方案的发布而不断发展和进步。近来因其不可思议的能力而变得非常流行的大型语言模型(LLMs)是AI崛起的主要原因。AI的子领域,无论是自然语言处理(NLP)、自然语言理解(NLU)还是计算机视觉,所有这些都在进步,并且出于种种良好的理由。最近引起AI和深度学习社区极大兴趣的一个研究领域是视觉问答(VQA)。VQA是回答关于图像的开放性、基于文本的问题的任务。 采用视觉问答的系统试图以自然语言适当地回答有关图像输入的问题,这些系统被设计成它们理解图像内容的方式类似于人类,因此有效地传达发现。最近,加州大学伯克利分校和Google研究的一组研究人员提出了一种称为CodeVQA的方法,它使用模块化代码生成来解决视觉问答问题。CodeVQA将VQA制定为程序综合问题,并利用编码语言模型,该模型以问题作为输入并生成代码作为输出。 这个框架的主要目标是创建可以调用经过预先训练的视觉模型并组合其输出以提供答案的Python程序。所生成的程序操作视觉模型输出并使用算术和条件逻辑推导出解决方案。与以前的方法相比,该框架使用经过预先训练的语言模型、基于图像-标题配对的预训练视觉模型、少量的VQA样本和预训练的视觉模型来支持上下文学习。 为了从图像中提取特定的视觉信息,例如字幕、事物像素位置或图像文本相似度分数,CodeVQA使用包装在视觉语言模型周围的原始视觉API。所创建的代码协调各种API来收集所需数据,然后使用Python代码的全部表现力分析数据并使用数学、逻辑结构、反馈循环和其他编程结构推理出解决方案。 为了评估这种新技术的性能,该团队将其性能与不使用代码生成的几次采样基线进行了比较。 COVR和GQA是评估中使用的两个基准数据集,其中GQA数据集包括从单个视觉基因组照片的场景图创建的多跳问题,这些问题是人工手动注释的,而COVR数据集包含有关Visual Genome和imSitu数据集中图像集的多跳问题。结果显示,CodeVQA在两个数据集上都比基线表现更好。特别是,在COVR数据集上的准确性至少提高了3%,在GQA数据集上则提高了约2%。 该团队提到,CodeVQA很容易部署和使用,因为它不需要任何额外的训练。它利用预训练模型和有限数量的VQA样本进行上下文学习,这有助于将创建的程序针对特定的问题-答案模式进行调整。总之,该框架强大,并利用预先训练的LM和视觉模型的优势,提供了一种基于模块化和代码的VQA方法。

Leave a Comment

生成式人工智能每年可以为经济贡献4.4万亿美元:麦肯锡

生成式人工智能 (Generative AI) 是一项开创性技术,使机器能够自主地创建内容,将彻底改变全球经济。麦肯锡最近的一份报告显示,生成式人工智能对生产率的影响可能每年为各行业和部门增加数万亿美元的价值。生成式人工智能具有自动化工作活动和增强个体工人能力的能力,对经济增长和转型具有巨大潜力。 生成式人工智能对经济增长的影响 麦肯锡的报告估计,生成式人工智能在63个分析用例中每年可以贡献2.6万亿美元至4.4万亿美元。这一惊人的潜在价值突显了这项技术对全球经济的巨大影响。为了让人们了解这一点,2021年英国的全部GDP总额为3.1万亿美元,这显示了生成式人工智能潜在影响的重大规模。生成式人工智能可以使人工智能的总体影响提高15%至40%。它与现有的人工智能技术的整合进一步放大了其变革能力。考虑到将生成式人工智能嵌入超出分析用例的软件的影响,估计价值可能会翻倍,提供更加实质性的经济利益。 集中价值:四个关键领域 大约75%的生成式人工智能用例产生的价值来自以下四个关键领域: 客户运营:生成式人工智能可以支持客户互动,改善客户服务,提高整体客户体验。 市场营销:通过为营销和销售目的生成创意内容,生成式人工智能帮助企业简化其广告活动。它还可以通过新颖的方式与客户进行互动。 软件工程:生成式人工智能的自动化能力使得该技术可以根据自然语言提示起草计算机代码,从而显著加快软件开发过程。 研究和开发 (R&D):生成式人工智能在加速创新方面发挥了关键作用,通过协助思想生成和原型制作,彻底改变了研发领域。 还阅读:18个必备的市场营销自动化工具,以简化您的营销工作! 广泛的范围:分析生成式人工智能的用例 麦肯锡对生成式人工智能的分析涵盖了16个业务功能,并研究了63个具体用例。这包括AI技术可以有效解决特定业务挑战的机会。这些用例产生可衡量的结果,强调了在各种行业和部门应用生成式人工智能的实际好处。 还阅读:10个必备的AI客户细分工具,以实现有效的营销 生成式人工智能将改变的行业 银行业:银行业有望从生成式人工智能中获得重大影响,如果确定的用例得到充分实施,则潜在价值范围为每年2000亿至3400亿美元。 高科技:在高科技领域,生成式人工智能具有巨大的推动创新和提高生产率的潜力,从而大大影响收入的增长。 生命科学:生命科学,包括制药和生物技术,将从生成式人工智能加速研究和药物发现过程中受益,从而最终改善医疗保健结果。 零售和消费品:零售和消费品行业是另一个将从生成式人工智能中受益的行业。该领域的潜在影响范围为每年4000亿至6600亿美元。 转变工作动态:增强工人 生成式人工智能有能力通过自动化增强个体工人的能力,从而改变工作动态。与其他先进技术相结合,现有的生成式人工智能技术可以自动化目前占员工时间60%到70%的工作活动。这远远超过以前的估计,表明自动化的潜力有了显著增加。 还阅读:了解人工智能和机器学习如何帮助HR自动化…

Leave a Comment

人工智能如何让森林免受火灾威胁?

当野火肆虐加利福尼亚州,把天空变成橙色,并留下毁灭性的后果时,一家开创性的初创公司挺身而出,与野火抗争。总部位于硅谷的计算机视觉领导者Chooch,结合了人工智能(AI)和计算机视觉的力量,彻底改变了野火检测方式。通过利用其创新技术,Chooch成功地向消防员提供了实时警报,使消防员能够更快地做出反应,防止进一步的损失。在本文中,我们将探讨Chooch的AI驱动解决方案如何改变野火检测并拯救生命。 个人使命:对抗野火 当加利福尼亚遭受灾难性的2020年野火时,Chooch的CEO Emrah Gultekin感到了个人的呼唤去帮助。与消防官员合作,他们发现现有的野火检测系统存在许多错误的阳性,这些阳性是由雾、雨和镜头污迹等因素引起的。Chooch决心要做出改变,便开始了一个试点项目,将其火灾检测软件与摄像头网络集成,利用AI和计算机视觉的力量。 生成式AI的力量:减少假阳性 Chooch的CTO Hakan Gultekin及其团队设计了一种解决方案来对抗假阳性。他们开发了一种生成式AI工具,可以自动为每个图像创建描述,帮助审查员准确识别烟雾的存在。结果,假阳性数量大大减少,从每周惊人的2000个减少到只有8个。这项突破性技术引起了消防队长的兴趣,他们迫不及待地希望将其集成到他们的监测中心中。 实时警报:赋予加利福尼亚州Kern县的消防员权力 Chooch的生成式AI工具为加利福尼亚州Kern县的消防队员提供了一个实时仪表板,可以通过智能手机和PC访问。这个仪表板提供即时警报,使消防员能够迅速检测出野火。考虑到加利福尼亚在2020年发生了9900起野火,烧毁了430万英亩,并造成了190亿美元的损失,即使及时检测出一场火灾,这个野火检测系统的成本也可以为未来的50年所证明。 充满希望的未来:扩展AI应用 Emrah Gultekin展望AI和计算机视觉的更加强大和准确的未来。通过将大型语言模型与计算机视觉相结合,Chooch旨在开发有效且易于部署的产品。例如,公用事业公司可以利用软件与无人机和固定摄像头连接,实现对电容器腐蚀或植被侵占电线的检测。Chooch的技术将通过参加1100万美元的Xprize挑战赛来获得进一步的验证,该挑战赛专注于野火检测和响应,有PG&E和洛克希德·马丁等知名赞助商。 成功之路:合作与尖端技术 Chooch开创野火检测革命的旅程始于他们加入了NVIDIA Inception,这是一个旨在培育尖端初创企业的计划。与NVIDIA合作,Chooch成功将其代码移植到NVIDIA GPU上,使其产品能够在NVIDIA Jetson模块上运行。该技术经过了广泛的测试,包括全运动视频和多光谱数据,展示了其在实际场景中的强大性和有效性。 我们的看法 Chooch将AI和计算机视觉技术融合,成为野火检测领域的变革者。这种创新解决方案显著减少了假阳性,提供了实时警报,并赋予了消防员权力。因此,它有潜力拯救生命,保护宝贵的资源并减轻野火的破坏性影响。随着Chooch不断完善其技术并扩展其应用,未来充满希望。我们尚未看到AI在对抗野火和其他我们作为社会所面临的重要挑战中的全部潜力。

Leave a Comment

革命性导航:MIT研究人员揭示了一种新的机器学习方法,用于自主车辆稳定和避障

麻省理工学院的研究人员开发了一项开创性技术,使机器比以前的方法更有效地解决复杂的稳定性-避免问题。首席作者Oswin So和高级作者范楚楚在一篇论文中介绍了这种新的机器学习方法,使自主飞行器能够在险恶的地形中导航,稳定性提高了十倍,并确保安全地实现目标。 稳定性-避免问题是指自主飞行器在试图到达目标时避免与障碍物碰撞或被雷达探测到所面临的冲突。许多现有的人工智能方法无法克服这一挑战,从而妨碍了它们安全地完成任务的能力。 为了解决这个问题,麻省理工学院的研究人员设计了一个两步解决方案。首先,他们将稳定性-避免问题重新构建为一个受约束的优化问题,使代理能够到达并稳定在指定的目标区域内。通过融入约束条件,他们确保代理有效地避免了障碍物。 第二步涉及将受约束的优化问题重构为对偶形式,这是一种可以使用深度强化学习算法解决的数学表示。通过克服现有强化学习方法的局限性,研究人员能够推导出特定于系统的数学表达式,并将其与现有的工程技术相结合。 研究人员进行了各种初始条件的控制实验来测试他们的方法。他们的方法稳定了所有轨迹,同时保持了安全性,优于多种基线方法。在一个受“壮志凌云”电影启发的场景中,研究人员模拟了一架喷气式飞机在地面附近的狭窄走廊中飞行的情况。他们的控制器有效地稳定了喷气式飞机,避免了撞车或失速,并优于其他基线。 这种突破性技术在设计需要安全和稳定性保证的高度动态机器人的控制器(如自主送货无人机)方面具有有前途的应用。它也可以作为更大系统的一部分实施,例如在汽车在雪地路面上打滑时重新确立稳定性,协助司机导航危险条件。 研究人员设想将强化学习提供所需的安全和稳定性保证,以部署在关键任务系统中。这种方法代表了朝着实现这一目标迈出的重要一步。接下来,该团队计划增强该技术,以考虑求解优化时的不确定性,并评估在硬件上部署时的性能,考虑真实世界情况的动态。 未参与研究的专家赞扬麻省理工学院的团队在安全至上的系统中提高了强化学习性能。在复杂场景(包括非线性喷气式飞机模型)中生成安全控制器的能力具有深远的影响。

Leave a Comment

来自谷歌、康奈尔大学和加州大学伯克利分校的研究团队提出了OmniMotion:一种革命性的人工智能方法,用于视频中密集和长距离运动估计

稀疏特征跟踪或密集光流一直是运动估计算法中使用的两种主要方法。这两种方法在各自的应用中都取得了成功。然而,这两种方法都不能完全捕捉视频的运动情况:稀疏跟踪不能描述所有像素的运动。相反,成对光流不能捕捉跨越大时序帧的运动轨迹。为了缩小这种差距,许多方法已被用于预测视频中的密集和长程像素轨迹。这些方法从简单的两帧光流场链接技术到直接预测经过多个帧的每个像素轨迹的更高级算法。  然而,所有这些方法在计算速度时都忽略了当前时间或地理上下文的信息。这种本地化可能会导致运动估计在时空上存在不一致性,并在扩展轨迹上积累错误。即使以前的技术考虑了长程上下文,它们也是在2D域中这样做的,这导致了在遮挡情况下的跟踪丢失。创建密集和长程轨迹仍然存在一些问题,包括跟踪遮挡点,保持空间和时间的一致性以及在长时间内保持准确的跟踪。在这项研究中,康奈尔大学、谷歌研究和加州大学伯克利分校的研究人员提供了一种全面的方法,通过使用所有可用的视频数据,为电影中的每个像素估计全长运动轨迹。  他们的方法称为OmniMotion,使用准3D表示,其中一组本地-规范双射将规范3D体积映射到每个帧的本地体积。这些双射将相机和场景运动的组合描述为动态多视角几何的灵活松弛。它们可以监视所有像素,即使是被遮挡的像素,其表示确保周期一致性(“Everything, Everywhere”)。为了联合解决整个视频的运动,“All at Once”,他们为每个视频优化了他们的表示。优化后,电影中的任何连续坐标都可以查询其表示以获得跨越整个物体的运动轨迹。 总之,他们提供了一种可以处理任何相机和场景运动组合的野外电影的方法: 为整个视频中的所有点生成全局一致的全长运动轨迹。 可以跟踪穿过遮挡的点。 可以跟踪穿过遮挡的点。 他们在TAP视频跟踪基准测试中统计说明了这些优势,其中他们获得了最先进的性能,并大大超过了所有以前的技术。他们在其网站上发布了几个演示视频,并计划很快发布代码。 https://omnimotion.github.io/ 从上面的运动路线可以看出,他们提供了一种新颖的技术,用于计算电影中每个帧中每个像素的全长运动轨迹。尽管我们的技术计算了所有像素的运动,但他们仅显示前景对象的稀疏轨迹以保持清晰度。他们的方法即使对于快速移动的物体也能产生精确、连贯的长程运动,并可靠地跨越遮挡,例如狗和秋千的示例。移动物品在第二行中的不同时间点显示,以提供上下文。

Leave a Comment

用 NeRF 重建室内空间

Marcos Seefelder,软件工程师,以及 Daniel Duckworth,Google Research 的研究软件工程师 在选择场所时,我们经常遇到以下问题:这家餐厅是否适合约会的氛围?是否有好的户外座位?是否有足够的屏幕观看比赛?尽管照片和视频可能部分回答这些问题,但在无法亲自访问的情况下,它们无法取代感觉好像你在那里的体验。 交互式、照片逼真、多维度的沉浸式体验有望弥合这种差距,并重新创造空间的感觉和氛围,使用户能够自然和直观地找到他们需要的信息。为了帮助实现这一目标,Google 地图推出了 Immersive View,它使用机器学习(ML)和计算机视觉的先进技术,将数十亿个街景和航拍图像融合在一起,创建了一个丰富的数字模型。除此之外,它还在上面添加了有用的信息,例如天气、交通和场所的繁忙程度。Immersive View 提供了餐厅、咖啡馆和其他场所的室内视图,让用户可以虚拟地近距离观看,从而帮助他们自信地决定去哪里。 今天我们将描述 Immersive View 中提供这些室内视图的工作。我们基于神经放射场(NeRF),这是一种最先进的方法,用于融合照片以在神经网络中产生逼真的多维重建。我们描述了我们的 NeRF 创作流程,其中包括使用 DSLR 相机对空间进行自定义照片拍摄、图像处理和场景再现。我们利用 Alphabet 在这一领域最近的进展,设计了一种方法,其视觉保真度与之前的最新技术相匹配甚至超越。然后,这些模型被嵌入交互式的 360° 视频中,沿着策划的飞行路径,使它们可以在智能手机上使用。…

Leave a Comment

前进,收集更多游戏:Xbox Game Pass 即将登陆 GeForce NOW

GeForce NOW 即将支持 Xbox Game Pass。 会员们很快就可以通过 NVIDIA 的云游戏服务器,玩到支持的 Xbox Game Pass 游戏目录中的 PC 游戏。了解有关 Game Pass 和 Microsoft Store 支持将如何在未来几个月内推出的更多信息。 此外,《帝国时代 IV:周年版》是来自世界上最受欢迎的实时战略游戏系列中首款登陆 GeForce NOW…

Leave a Comment

NVIDIA研究团队在CVPR赢得自动驾驶挑战赛和创新奖

NVIDIA将在下周的计算机视觉和模式识别会议(CVPR)上,作为自主驾驶开发中激烈争夺的3D占用预测挑战的优胜者进行展示,该会议将在加拿大温哥华举行。 该比赛来自来自10个地区的近150个团队的400多个提交。 3D占用预测是预测场景中每个体素的状态的过程,即3D俯视图网格上的每个数据点。体素可以被识别为自由、占用或未知。 3D占用网格预测对于安全和强大的自动驾驶系统的发展至关重要,它利用最先进的卷积神经网络和变压器模型为自主驾驶车辆(AV)规划和控制堆栈提供信息,这些模型是由NVIDIA DRIVE平台启用的。 “NVIDIA的获胜解决方案具有两个重要的AV进展,” NVIDIA的学习和感知的高级研究科学家Zhiding Yu说。“它展示了一种最先进的模型设计,可以提供出色的俯视感知。它还展示了具有10亿个参数和大规模预训练的视觉基础模型在3D占用预测中的有效性。” 自主驾驶的感知在过去几年中已经从处理2D任务(例如检测图像中的对象或自由空间)发展到使用多个输入图像推理世界中的3D。 这现在为复杂交通场景中物体提供了灵活而精确的细粒度表示,这是“实现自主驾驶的安全感知要求至关重要的,” NVIDIA的AV应用研究总监和杰出科学家Jose Alvarez说。 于将在CVPR的端到端自主驾驶研讨会上介绍NVIDIA研究团队的获奖作品,时间为6月18日星期天上午10:20,以及在6月19日星期一下午4:00举行的视觉中心自主驾驶研讨会上介绍。 除了在比赛中获得第一名外,NVIDIA还将在会议上获得创新奖,该奖项表彰了其“对视图转换模块开发的新见解”,与以前的方法相比,“性能大幅提高”,根据CVPR研讨会委员会的说法。 请阅读NVIDIA提交的技术报告。 3D占用预测使车辆更安全 虽然传统的3D对象检测(检测和表示场景中的对象,通常使用3D边界框)是AV感知中的核心任务,但它也有其局限性。例如,它缺乏表现力,这意味着边界框可能不表示足够的现实世界信息。它还需要为所有可能的对象定义分类和基本真实,甚至包括在现实世界中很少见到的对象,例如可能从卡车上掉落的道路障碍。 相比之下,3D占用预测为自驾车的规划堆栈提供了丰富的关于世界的信息,这对于端到端自驾车是必要的。 软件定义的车辆可以持续升级,使用随时间证明和验证的新发展。来自研究倡议的最先进的软件更新,如CVPR所认可的更新,正在为新功能和更安全的驾驶功能提供支持。 NVIDIA DRIVE平台为汽车制造商提供了一条通往生产的道路,为安全可靠的AV开发提供全栈硬件和软件,从汽车到数据中心。 CVPR挑战赛详情 CVPR的3D占用预测挑战要求参与者在推理期间仅使用相机输入开发算法。参与者可以使用开源数据集和模型,促进数据驱动算法和大型模型的探索。组织者为最新的实际场景中最先进的3D占用预测算法提供了基线沙盒。 NVIDIA在CVPR上 NVIDIA将在CVPR上展示近30篇论文和演示。将讨论自动驾驶的专家包括:…

Leave a Comment