Press "Enter" to skip to content

Month: November 2023

这项来自中国的人工智能研究介绍了“啄木鸟”:一种创新的人工智能框架,旨在纠正多模态大型语言模型(MLLMs)中的幻觉

中国的研究人员引入了一种名为Woodpecker的新型AI校正框架,以解决多模态大型语言模型(MLLMs)中的错觉问题。这些模型结合了文本和图像处理,经常生成不准确反映所提供图像内容的文本描述。这种不准确性被归类为物体级错觉(涉及不存在的物体)和属性级错觉(对物体属性的不准确描述)。 目前减轻错觉的方法通常涉及使用特定数据对MLLM进行重新训练。这些基于指令的方法可能需要大量数据和计算资源。相比之下,Woodpecker提供了一种无需训练的替代方案,可应用于各种MLLM,通过其校正过程的不同阶段增强可解释性。 Woodpecker由五个关键阶段组成: 1.关键概念提取:该阶段识别所生成文本中提到的主要对象。 2.问题制定:围绕提取出的对象提出问题以诊断错觉。 3.视觉知识验证:使用专家模型回答这些问题,例如物体检测用于物体级查询,视觉问答(VQA)模型用于属性级问题。 4.视觉索赔生成:问题-答案对被转化为结构化视觉知识库,包括物体级和属性级索赔。 5.错觉校正:利用视觉知识库,系统引导MLLM修改所生成文本中的错觉,并附加边界框以确保清晰和可解释性。 该框架强调透明度和可解释性,使其成为理解和校正MLLM中失真的有价值工具。 研究人员在三个基准数据集(POPE、MME和LLaVA-QA90)上评估了Woodpecker。在POPE基准测试中,Woodpecker在基线模型MiniGPT-4和mPLUG-Owl上显著提高了准确性,分别实现了30.66%和24.33%的准确性改善。该框架在不同设置(包括随机、流行和对抗性场景)中表现出一致性。 在MME基准测试中,Woodpecker显示出显著的改进,特别是在与计数相关的查询中,它的表现超过了MiniGPT-4 101.66个得分。对于属性级查询,Woodpecker提高了基线模型的性能,有效解决了属性级错觉。 在LLaVA-QA90数据集中,Woodpecker一直提高了准确性和详细性指标,表明其能够校正MLLM生成的响应中的错觉,并丰富描述内容。 总之,Woodpecker框架为解决多模态大型语言模型中的错觉提供了一种有希望的校正方法。它通过关注解释和校正而不是重新训练,为提高MLLM生成描述的可靠性和准确性提供了有价值的工具,并有潜在的在涉及文本和图像处理的各种应用中带来好处。

Leave a Comment

斯坦福大学的研究人员提出了“EquivAct”:一种在不同比例和方向上推广任务的机器人学习的突破性技术

如果所涉及的物体具有不同的视觉或物理属性,人类可以通过几个示例来解决操纵任务的多种变体,并学习完成任务的方法。为了使学到的策略适用于不同的物体比例、方向和视觉外观,现有的机器人学习研究仍然需要大量的数据增强。然而,尽管有这些改进,对于未知变体的泛化并不保证。 斯坦福大学的一篇新论文研究了零样本学习的视觉运动策略挑战,该策略可能以少量样本轨迹作为输入,来自单个源操作场景,并推广到具有未知对象视觉外观、大小和姿势的场景。特别重要的是学习如何处理可变形和关节化物体,例如衣物或盒子,以及刚性物体,例如拾放。为了确保学到的策略对不同的物体放置、方向和比例都具有鲁棒性,建议将等变性融入到视觉物体表示和策略架构中。 他们提出了一种新的视觉运动策略学习方法——EquivAct,可以从单个源操作场景的演示中学习3D机器人操作任务的闭环策略,并将其零样本推广到未知场景。学到的策略以机器人末端执行器姿态和环境的部分点云作为输入,以机器人的动作(例如末端执行器速度和夹持器命令)作为输出。与大多数先前的工作相比,研究人员在其神经网络中使用了SIM(3)-等变网络架构。这意味着当输入的点云和末端执行器位置被平移和旋转时,输出的末端执行器速度会相应调整。由于他们的策略架构具有等变性,它可以从较小规模的桌面活动的演示中学习,然后零样本推广到包括具有不同的视觉和物理外观的演示对象的移动操作任务中。 这种方法分为两个部分:学习表示和策略。为了训练代理的表示,团队首先提供了一组使用与目标任务对象相同的相机和设置捕获的合成点云,但具有不同的随机非均匀尺度。他们以这种方式补充训练数据,以适应非均匀缩放,即使所建议的架构对于均匀缩放是等变的。模拟数据不必显示机器人活动,甚至不必演示实际任务。为了从场景点云中提取全局和局部特征,他们使用模拟数据训练了一个SIM(3)-等变编码器-解码器架构。在训练过程中,对配对的点云输入使用对比学习损失,以将相关物体部分的局部特征组合在一起。在策略学习阶段,假设之前验证的任务轨迹的样本是有限的。 研究人员使用数据训练了一个闭环策略,给定场景的部分点云作为输入,利用先前学习的编码器从点云中提取全局和局部特征,然后将这些特征馈入一个SIM(3)-等变行动预测网络,以预测末端执行器的移动。除了以前的工作中的标准刚性物体操作任务外,这种方法还在更复杂的任务领域中进行了评估,包括舒适被子的折叠、容器的覆盖和盒子的封口。 团队展示了许多人类示例,其中一个人为每个活动操作桌面上的一个物体。在演示了该方法后,他们在移动操作平台上进行了评估,机器人需要在一个更大的尺度上解决同一个问题。研究结果表明,该方法能够从源操作演示中学习闭环机器人操作策略,并在一次运行中执行目标任务,而无需进行任何微调。进一步证明该方法比这种方法更有效,并且依赖于对超出分布范围的物体姿势和比例的显著增强。它还优于不利用等变性的作品。

Leave a Comment

Middleware.io引入生成式AI驱动的云可观察性平台

云原生应用领域出现了一个紧迫的挑战——即需要观测性。随着云计算的快速崛起和微服务的大量使用,现代应用变得复杂起来,分布在全球各地的服务器上,并每天处理大量数据。这种复杂性增加了企业应对观测性在实现核心目标上的关键重要性。即使短暂中断,也会导致收入损失并损害公司的声誉。这是许多组织今天面临的困境。 虽然对观测性的需求是清楚的,但现有解决方案往往必须及时提供对云原生应用程序复杂性的洞察。这种差距使得组织在寻求更高效的故障排除和主动问题管理时陷入困境。快节奏的数字领域要求迅速行动,因此实时识别和解决问题至关重要。 中间件介绍了一种有希望的解决方案来解决这个观测性难题,这是一款颠覆性的云原生观测性平台,利用先进的人工智能技术。该平台利用基于AI驱动的异常检测和解决方案,其中关键工具是AI顾问。该顾问指出基础设施和应用程序问题,并提供有效的解决方案来解决问题。该平台的独特之处在于它的预测能力,可以根据数据趋势预测即将发生的错误。这种主动的问题管理方法对于寻求降低不断演变的数字领域风险的组织来说是一个改变者。 这个创新平台最令人信服的方面之一是它强大的实时监控功能。通过用户友好的仪表板,组织可直观地访问关键指标、日志、追踪和事件,从而极大地增强了对技术栈的可见性。该平台的AI驱动功能将问题分类为三类——关键问题、VoAGI和低问题,使组织能够有效地优先处理并解决它们。AI顾问提供有关问题的详细信息,包括受影响的资源和详细解决方案,使用户能够快速修复。 这项革命性的解决方案来临之际,对观测性的需求达到了历史最高水平,有86%的组织认识到它是实现核心业务目标的重要推动因素。AI的引入,尤其是GPT-4,有可能彻底改变组织管理和故障排除云原生应用程序的方式。通过最近获得的650万美元种子资金注入,该平台正处于扩张、团队增长和进一步AI功能开发的阶段,为云原生时代的观测性带来了光明的前景。 总之,云原生应用程序带来的复杂性以及数字时代需要快速故障排除的需求催生了新的创新解决方案。这个借助先进AI技术赋能的观测性平台是组织在有效应对云原生应用程序挑战时的希望之光。其实时监控、预测能力和用户友好的仪表板使其成为一个引人注目的选择,在每一秒都至关重要的世界中。观测性的未来似乎比以往任何时候都更加积极和有希望。 这篇文章《Middleware.io推出基于生成式AI技术的云原生可观测性平台》最初出现在MarkTechPost上。

Leave a Comment

MLOps 使用实施欺诈交易检测

介绍 在当今数字化的世界中,人们越来越倾向于通过在线交易和数字支付来进行交易,而不是使用现金,这是因为它的便利性。随着过渡的增加,欺诈行为也在增加。欺诈交易可以是任何类型,因为它涉及使用虚假身份或虚假信息要求钱款。这给个人和金融机构带来了重大问题。在这个项目中,我们将使用信用卡数据集来设计使用Airflow工具监控实时交易并预测其是否真实或欺诈的MLOPs模型。 学习目标 检测欺诈交易的重要性。 清理数据,转换数据集和预处理数据。 对数据集进行可视化分析以获得洞察力。 在数据科学中使用欺诈交易检测模型的实际应用。 使用Python编程语言进行欺诈交易数据分析 使用MS Azure和Airflow构建端到端的欺诈检测 本文作为数据科学博文马拉松的一部分发布。 什么是欺诈交易估计模型? 欺诈交易数据集包含来自不同来源的数据,其中包含交易时间、姓名、金额、性别、类别等列。欺诈交易估计模型是一个用于预测虚假交易的机器学习模型。该模型是在大量有效交易和欺诈交易的基础上进行训练的,以预测新的虚假交易。 什么是欺诈交易分析? 欺诈交易分析是分析过去数据集的过程。数据集分析旨在发现数据中的异常情况并找出数据集中的模式。欺诈交易分析在保护客户和减少财务损失方面起着关键作用。有不同类型的欺诈交易分析,例如基于规则的分析和异常检测。 基于规则的分析:基于规则的分析涉及创建规则来标记无效交易。例如,可以根据地理区域制定规则。 异常检测:异常检测涉及发现异常或异常的交易。例如,从新的IP地址进行的交易。 检测欺诈交易的重要性 对于企业和金融机构来说,检测欺诈交易对于保护客户免受欺诈和保护他们的资金至关重要。以下是检测欺诈交易的一些关键原因。 减少财务损失:欺诈交易给企业带来巨额财务损失,从而减少它们的利润。因此,企业检测欺诈交易变得至关重要。 维护声誉:维护声誉对于企业来说是至关重要的,因为它会导致潜在客户和顾客的流失。 保护客户和企业:欺诈交易可能对客户造成财务损失和情感影响。通过检测欺诈交易,企业可以保护客户和他们的业务。 数据收集和预处理 数据收集和预处理是开发欺诈检测模型的重要部分。一旦收集到数据,需要对数据集执行多个步骤。 数据清理:数据清理包括删除不需要的数据,例如重复数据,并填充缺失的数据值。…

Leave a Comment

见识CommonCanvas:一个使用创意共享图片训练而成的开放扩散模型

近年来,人工智能在文本到图像生成方面取得了显著进展。将书面描述转化为视觉表达具有许多应用,从创作内容到帮助盲人和讲故事。研究人员面临两个重要障碍,即缺乏高质量数据和与从互联网上提取的数据集相关的版权问题。 在最近的研究中,一个研究团队提出了建立一个遵循创意共享许可(CC)的图像数据集,并使用该数据集来训练能够胜过稳定扩散2(SD2)的开放式扩散模型的想法。为了做到这一点,需要克服以下两个主要障碍。 缺乏标题:虽然高分辨率的CC照片是开放许可的,但它们经常缺乏文本描述,即文本到图像生成模型训练所必需的标题。在缺少标题的情况下,模型很难理解和生成基于文本输入的视觉内容。 CC照片的稀缺性:与像LAION这样的较大专有数据集相比,CC照片虽然是重要资源,但却更为稀缺。这种稀缺性提出了一个问题,即是否有足够的数据可以成功训练高质量的模型。 该团队使用了迁移学习技术,并使用预训练模型创建了出色的合成标题,并将它们与精心选择的CC照片进行匹配。这种方法简单且利用了模型从照片或其他输入生成文本的能力。他们通过编制一个照片和虚构标题的数据集来实现这一目标,该数据集可以用来训练将文字转化为视觉内容的生成模型。 为了应对第二个挑战,该团队创建了一个既节约计算资源又节约数据的训练方案。与SD2模型训练所需的最初利用了大约7000万个示例相比,只需要约3%的数据即可达到相同的质量。这表明存在足够的CC照片可用于高质量模型的有效训练。 该团队使用数据和有效的训练程序训练了几个文本到图像模型。这些模型共同被称为CommonCanvas家族,它们标志着生成模型领域的重大进展。它们可以生成与SD2在质量上相媲美的视觉输出。 CommonCanvas家族中最大的模型是在比LAION数据集小不到3%的CC数据集上训练的,其性能在人类评估中可与SD2相媲美。尽管受到数据集大小限制和使用人工生成的标题的影响,但该方法在生成高质量结果方面是有效的。 该团队总结了他们的主要贡献: 团队使用一种名为”电报”的迁移学习方法为初始时没有标题的创作共享(CC)照片生成了出色的标题。 他们提供了一个名为CommonCatalog的数据集,其中包括约7000万张在开放许可下发布的CC照片。 CommonCatalog数据集被用来训练一系列潜在扩散模型(LDM)。这些模型共同被称为CommonCanvas,在定性和定量上与SD2基线相比具有竞争力。 该研究应用了许多训练优化技术,使得SD2基线模型的训练速度快了近三倍。 为了促进合作和更多的研究,该团队在GitHub上免费提供了训练好的CommonCanvas模型、CC照片、人工生成的标题和CommonCatalog数据集。

Leave a Comment

苹果研究人员推出了Matryoshka扩散模型(MDM):一种用于高分辨率图像和视频合成的端到端人工智能框架

在近期,大型语言模型展示了惊人的能力。其中扩散模型尤其广泛用于多种生成应用,包括3D建模、文本生成、图像和视频生成。尽管这些模型适用于各种任务,但在处理高分辨率数据时会遇到很大的困难。由于每个步骤都需要重新对整个高分辨率输入进行编码,因此将它们扩展到高分辨率需要大量的计算资源和内存。 为了克服这些问题,研究人员经常使用具有注意力机制的深度架构来进行处理,尽管这样会增加计算和内存需求,并且使优化变得复杂。研究人员一直在努力开发有效的网络设计来处理高分辨率照片。然而,当前的方法在输出质量上不及DALL-E 2和IMAGEN等标准技术,并且在512×512分辨率之上尚未展示出竞争力。 这些广泛使用的技术通过合并许多独立训练的超分辨扩散模型与低分辨率模型来减少计算量。相反,潜在扩散方法(LDMs)依赖于经过单独训练的高分辨率自编码器,只训练低分辨率扩散模型。这两种策略都需要使用多阶段的流程和精细的超参数优化。 在最近的研究中,苹果的研究团队提出了万花筒扩散模型(MDM),这是一系列为端到端高分辨率图像和视频合成而设计的扩散模型。MDM的思想是将低分辨率扩散过程作为高分辨率生成的关键组成部分。该方法受到了生成对抗网络(GANs)多尺度学习的启发,团队通过使用嵌套的 UNet 架构,在多个分辨率上进行联合扩散过程。 该方法的一些主要组成部分如下所示。 多分辨率扩散过程:MDM使用嵌套的 UNet 架构,同时对多个分辨率的输入进行去噪处理,从而能够同时处理和生成具有不同细节级别的图像。 嵌套 UNet 架构:嵌套的 UNet 架构将较小尺度的输入特征和参数嵌套在较大尺度的输入特征和参数中。通过这种嵌套,可以有效地在各个尺度上共享信息,提高模型在捕捉细节特征时的能力,同时保持计算效率。 渐进式训练计划:MDM提出了一个逐渐提高分辨率的训练计划,从较低分辨率开始。使用这种训练方法,可以增强优化过程,并使模型更好地学习如何生成高分辨率内容。 团队通过一系列基准测试来分享这种方法的性能和效果,例如文本到视频应用、高分辨率文本到图像生成和条件图片生成。MDM已经证明可以训练一个像素级模型,分辨率高达1024×1024像素。考虑到这一成就是使用相对较小的数据集(CC12M)实现的,该数据集只包含1200万张照片,这是非常令人瞩目的。MDM展示出鲁棒的零样本泛化能力,使其能够为其未经专门训练的分辨率生成高质量信息。总而言之,万花筒扩散模型(MDM)代表了高分辨率图像和视频合成领域的重大进步。

Leave a Comment

揭秘图像中的数学:新的MathVista基准如何推动视觉和数学推理的AI界限

MATHVISTA被介绍为评估大型语言模型(LLMs)和大型多模态模型(LMMs)在视觉背景下的数学推理能力的基准。该标准结合了各种数学和图形任务,并包括现有的和新的数据集。初步评估涉及11个知名模型,包括LLMs,工具增强的LLMs和LMMs,在与人类能力相比存在可观的性能差距,表明进一步的发展是必要的。该基准对于开发具有数学和视觉推理能力的通用AI代理非常重要。 评估LLMs的数学推理能力的当前基准仅关注基于文本的任务,并且其中一些,如GSM-8K,显示出性能饱和。在科学领域,有一个对于强大的多模态基准的日益需要以解决这个限制。像VQA这样的基准探索了LMMs在自然图像之外的视觉推理能力,涵盖了广泛的视觉内容。生成式基础模型在解决各种任务时起到了重要作用,而专门的预训练方法在视觉背景下改善了图表推理。最近的研究强调了这些模型在实际应用中的日益重要性。 数学推理是人类智力的关键方面,应用于教育、数据分析和科学发现。现有的AI数学推理基准是基于文本的,缺乏视觉上下文。来自UCLA、华盛顿大学和微软研究机构的研究人员引入了MATHVISTA,这是一个综合性基准,结合了多种数学和图形挑战,以评估基础模型的推理能力。MATHVISTA包括多种推理类型、主要任务和各种视觉背景,旨在改善模型在实际应用中的数学推理能力。 MATHVISTA是一个用于在视觉背景中评估基础模型数学推理能力的基准。它采用任务类型、推理技能和视觉背景的分类法来策划现有数据集和新的数据集。该基准包括需要深入理解视觉和组合推理的问题。初步测试显示,它对GPT-4V造成了挑战,并强调了其重要性。 MATHVISTA揭示了最佳表现模型Multimodal Bard的准确率为34.8%,而人类表现显著高于60.3%。仅文本的LLMs优于随机基线,2-shot GPT-4的准确率达到29.2%。配备图像标题和OCR文本的增强LLMs表现更好,2-shot GPT-4的准确率达到33.9%。开源LMMs如IDEFICS和LLaVA由于数学推理、文本识别、形状检测和图表理解的局限性而表现不佳。 总之,MATHVISTA研究强调了在视觉背景中改善数学推理能力的需求,以及在将数学与视觉理解整合时面临的挑战。未来的发展方向包括开发具有增强的数学和视觉能力的通用LMMs,通过使用外部工具增强LLMs,并评估模型解释能力。该研究强调了推动AI代理执行数学密集且视觉丰富的实际任务的重要性,这可以通过在模型架构、数据和训练目标方面的创新来实现,以改进视觉感知和数学推理。

Leave a Comment

加州大学伯克利分校和斯坦福大学的研究人员引入了隐藏效用强盗 (HUB):一种人工智能框架,用于模拟从多位教师学习奖励的过程

在强化学习(RL)中,将人类反馈有效地整合到学习过程中已经成为一个重要挑战。在从人类反馈中进行奖励学习(RLHF)时,尤其是处理多个教师时,这个挑战变得尤为显著。 RLHF系统中有关教师选择的复杂性已经促使研究人员推出创新的HUB(含未知Beta的人类在环中)框架。该框架的目标是简化教师选择的过程,并通过这样做来增强RLHF系统内的整体学习成果。 RLHF系统中现有方法在有效管理学习效用函数的复杂性方面存在一定限制。这一限制凸显了更复杂和全面的方法的必要性,该方法能够提供教师选择的战略机制。 HUB框架应运而生,为RLHF范例内任命教师提供了一个结构化和系统化的方法。与传统方法相比,其强调主动询问教师的方法有所区别,即使涉及多个教师的复杂情景,也能够更深入地探索效用函数并导致精细估计。 在其核心,HUB框架作为部分可观察的马尔可夫决策过程(POMDP)运作,将教师选择与学习目标的优化相结合。这种整合不仅管理教师选择,而且还优化学习目标。其有效性的关键在于对教师进行主动询问,从而更加细致地理解效用函数,并从而提高效用函数估计的准确性。通过采用基于POMDP的方法,HUB框架巧妙地处理了从多个教师学习效用函数的复杂性,最终提高了效用函数估计的准确性和性能。 HUB框架最明显的优势在于其在各种现实领域中的实际适用性。通过在论文推荐和COVID-19疫苗测试等领域进行全面评估,框架的实力得以展现。在论文推荐领域,该框架有效地优化了学习成果,展示出在信息检索系统中的适应性和实用价值。同样,在COVID-19疫苗测试中的成功运用突显了它在应对紧急和复杂挑战方面的潜力,从而促进了医疗保健和公共卫生的进步。 总之,HUB框架对于RLHF系统是一个重要的贡献。其系统化和结构化方法不仅简化了教师选择的过程,而且强调了这种选择背后决策的战略重要性。通过提供一个强调为特定环境选择最合适的教师的框架,HUB框架成为提高RLHF系统整体性能和效果的关键工具。其在各个领域进一步发展和应用的潜力是人工智能和机器学习驱动系统未来的一个有希望的迹象。

Leave a Comment

谷歌的这项AI研究揭示出如何通过编码图数据提升语言模型在复杂任务中的性能

近年来,大型语言模型(LLM)的研究和应用取得了显著进展。这些生成模型引起了人工智能界的兴趣,最近还提供了许多在各种任务和模态下训练的模型。这些发展形成了一个共识,即LLMs是人工通用智能(AGI)的重要一步。尽管具有所有的好处,但目前LLMs的设计和实施还有一些可以改进的地方。它们对于非结构化文本的依赖是它们最明显的缺点之一,因为有时候会导致模型忽略明显的逻辑推理或假想错误的结论。 另一个问题是LLMs基于它们所教授的时间段存在固有的限制,而如何整合关于世界进化的“新”知识可能具有挑战性。图结构化数据是信息表示中最具适应性的形式之一,可以为这两个问题提供潜在的解决方案。有趣的是,尽管存在这种潜力,图和LLMs的交叉研究还很少。例如,尽管图数据库和LLMs受到了很多关注,但对于图结构化数据的更广泛应用还需要进一步研究。王等人最近通过创建一个专门为语言模型而设的图基准挑战来解决这个问题。 尽管他们的工作标志着评估LLM的图推理能力的有趣起步努力,但由于存在各种未解答的问题,如消除各种自然图挑战和解决的图结构类型的缺乏多样性,还需要更多的研究。最近的其他工作旨在使用LLMs代替图结构化数据,但它忽略了一些LLMs的核心问题。Google Research的研究人员在这篇论文中首次进行了关于以文本形式呈现给LLMs阅读的图结构化数据推理的彻底研究。他们将问题分解为图提示工程和图编码,以更详细地研究图推理。 我们可以通过尝试不同的图编码技术,将LLM获得的表示应用于图问题。在研究提示工程方法时,可以选择最佳方法来询问LLM所要回答的问题。他们的测试结果旨在确定各种提示启发式策略在哪些情况下表现最佳。为此,他们提供了一个全新的用于评估LLM在图数据上推理性能的基准集合,称为GraphQA。使用比以前使用LLMs进行研究的图结构要丰富和真实得多的图结构,使得GraphQA与众不同。 具体而言,他们的工作对以下方面做出了贡献: 1. 对用于LLMs的图结构提示方法进行了全面研究。 2. 为将图编码为文本以供LLM使用提供了最佳实践和见解。 3. 提出了一个全新的图基准集合GraphQA,让社区更好地探索图结构对LLM提示的影响。

Leave a Comment