图像分割是一项基本的计算机视觉任务,其中将图像划分为有意义的部分或区域。就像将一张图片分成不同的部分,使计算机能够识别和理解图像内的独立对象或区域。这个过程对于各种应用非常重要,从医学图像分析到自动驾驶汽车,因为它使计算机能够像人类一样解释和与视觉世界互动。 分割基本上可以分为两个主题:语义分割和实例分割。语义分割意味着标记图像中的每个像素所属的对象类型,后者则是计算相同类型的独立对象的数量,即使它们彼此靠近。 然后,有分割之王:全景分割(panoptic segmentation)。它结合了语义分割和实例分割的挑战,旨在预测不重叠的掩模,每个掩模与其相应的类别标签配对。 多年来,研究人员在改进全景分割模型的性能方面取得了显著进展,主要关注全景质量(PQ)。然而,一个基本的挑战限制了这些模型在实际场景中的应用:由于对细粒度数据集的注释成本高昂,语义类别的数量限制。 这是一个重大问题,可以想象到。要检查数千张图像并标记其中的每个对象是非常耗时的。如果我们能够以某种方式自动化这个过程会怎么样?如果我们能够找到一个统一的方法呢?是时候见识一下FC-CLIP了。 FC-CLIP是一个统一的单阶段框架,解决了上述限制。它具有革命性的潜力,可以改进全景分割,并扩展其在开放词汇情景下的适用性。 为了克服封闭词汇分割的挑战,计算机视觉界探索了开放词汇分割的领域。在这种范式中,使用自然语言中表示的类别名称的文本嵌入作为标签嵌入。这种方法使模型能够对更广泛的词汇进行分类,显著增强其处理更广泛类别的能力。通常会使用预训练的文本编码器来确保提供有意义的嵌入,使模型能够捕捉对于开放词汇分割至关重要的词语和短语的语义细微差别。 基于ViT和CNN的CLIP都产生语义有意义的特征。来源:https://arxiv.org/pdf/2308.02487.pdf CLIP和ALIGN等多模态模型在开放词汇分割中表现出巨大的潜力。这些模型利用它们从大量互联网数据中学习对齐的图像-文本特征表示的能力。最近的方法,例如SimBaseline和OVSeg,已经将CLIP适应于开放词汇分割,利用了两阶段框架。 虽然这些两阶段方法取得了相当大的成功,但它们本质上存在低效和低效的问题。为了获得掩码生成和CLIP分类需要单独的骨干网络,增加了模型的大小和计算成本。此外,这些方法通常在不同的输入尺度上执行掩码分割和CLIP分类,导致结果不理想。 这引出了一个关键问题:我们能否将掩码生成器和CLIP分类器统一到单一阶段的框架中,用于开放词汇分割?这样的统一方法可能在流程中提高效率和效果。 FC-CLIP概述。来源:https://arxiv.org/pdf/2308.02487.pdf 这个问题的答案就在于FC-CLIP。 这个开创性的单阶段框架无缝地整合了掩码生成和CLIP分类,它是建立在一个共享的冻结卷积CLIP骨干之上的。FC-CLIP的设计基于一些聪明的观察: 1. 预训练的对齐:冻结的CLIP骨干确保预训练图像文本特征对齐保持完好,从而允许进行超词典分类。 2. 强大的掩码生成器:通过添加轻量级像素解码器和掩码解码器,CLIP骨干可以充当一个强大的掩码生成器。 3. 分辨率的泛化:随着输入尺寸的增加,卷积CLIP表现出更好的泛化能力,使其成为密集预测任务的理想选择。 采用单个冻结的卷积CLIP骨干的结果是一个设计优雅简单且高度有效的模型。与先前最先进的模型相比,FC-CLIP需要的参数更少,训练时间更短,具有更低的计算成本,使其非常实用。
Leave a CommentTag: AI Paper Summary
生成式人工智能在过去两年取得了巨大的飞跃,这要归功于大规模扩散模型的成功发布。这些模型是一种生成模型,可以用来生成逼真的图像、文本和其他数据。 扩散模型通过从随机噪声图像或文本开始,逐渐添加细节。这个过程被称为扩散,类似于现实世界中物体逐渐变得越来越详细的过程。它们通常在一个大型真实图像或文本数据集上进行训练。 另一方面,视频生成在近年来也取得了显著的进展。它包含了生成逼真和动态视频内容的令人兴奋的能力。这项技术利用深度学习和生成模型生成从超现实的梦幻景观到对我们世界的逼真模拟的视频。 利用深度学习的能力来精确控制视频的内容、空间排列和时间演化,对各种应用领域都具有巨大的潜力,从娱乐到教育等等。 在历史上,这个领域的研究主要集中在视觉线索上,严重依赖于初始帧图像来引导后续的视频生成。然而,这种方法有其局限性,特别是在预测视频的复杂时间动态方面,包括摄像机运动和复杂的物体轨迹。为了克服这些挑战,最近的研究已经转向将文本描述和轨迹数据作为额外的控制机制。虽然这些方法取得了重大进展,但它们也有自己的限制。 让我们来认识一下DragNUWA,它解决了这些限制。 DragNUWA是一个具有细粒度控制的轨迹感知视频生成模型。它无缝集成了文本、图像和轨迹信息,提供了强大和用户友好的可控性。 使用DragNUWA生成的示例视频。来源:https://arxiv.org/pdf/2308.08089.pdf DragNUWA有一个生成逼真视频的简单公式。这个公式的三个支柱是语义、空间和时间控制。这些控制分别通过文本描述、图像和轨迹来实现。 文本控制以文本描述的形式进行。这将意义和语义注入到视频生成中。它使模型能够理解和表达视频背后的意图。例如,它可以区分真实世界中的鱼游泳和一幅画中的鱼。 对于视觉控制,使用图像。图像提供了空间上下文和细节,有助于准确地表示视频中的对象和场景。它们是文本描述的重要补充,为生成的内容增加了深度和清晰度。 这些都是我们熟悉的东西,而真正的区别在于DragNUWA在最后一个组成部分中的应用:轨迹控制。 DragNUWA采用开放域轨迹控制。而以前的模型在处理轨迹复杂性方面存在困难,DragNUWA采用了轨迹采样器(TS)、多尺度融合(MF)和自适应训练(AT)来应对这一挑战。这一创新使得可以生成具有复杂的、开放域的轨迹、逼真的摄像机运动和复杂的物体交互的视频。 DragNUWA概览。来源:https://arxiv.org/pdf/2308.08089.pdf DragNUWA提供了一个端到端的解决方案,将文本、图像和轨迹三个基本的控制机制统一起来。这种整合赋予用户对视频内容的精确和直观的控制能力。它重新构想了视频生成中的轨迹控制。它的TS、MF和AT策略实现了对任意轨迹的开放域控制,使其适用于复杂和多样化的视频场景。
Leave a Comment大型语言模型(LLMs),如臭名昭著的ChatGPT,在各种自然语言处理任务中取得了令人印象深刻的表现,如机器翻译、文本摘要和问答。它们改变了我们与计算机的交流方式和任务处理方式。 LLMs已经成为具有变革性的实体,推动了自然语言理解和生成的界限。其中,ChatGPT是一个显著的例子,代表了一类设计用于在对话环境中与用户进行交互的LLM。这些模型是在极大的文本数据集上进行了广泛训练的结果。这使它们具备了理解和生成类似人类文本的能力。 然而,这些模型在计算和内存方面非常消耗资源,限制了它们的实际应用。顾名思义,这些模型是庞大的;当我们说庞大时,我们是指真的很大。最近的开源LLM,来自Meta的LLaMa2,包含大约700亿个参数。 减少这些要求是使它们更实用的重要一步。量化是减少LLMs计算和内存开销的一种有希望的技术。有两种主要的量化方式——训练后量化(PTQ)和量化感知训练(QAT)。虽然QAT在准确性方面具有竞争力,但在计算和时间方面代价太高。因此,对于许多量化工作来说,PTQ已经成为首选方法。 现有的PTQ技术,如仅权重和权重-激活量化,已经在内存消耗和计算开销方面取得了显著的降低。然而,它们在低位量化方面往往存在困难,而这对于高效部署至关重要。低位量化中的性能下降主要是由于依赖手工量化参数,导致结果不够优化。 让我们见识一下OmniQuant。它是一种用于LLMs的新型量化技术,在各种量化场景中实现了最先进的性能,特别是在低位设置中,同时保留了PTQ的时间和数据效率。 OmniQuant在LLaMa系列上的特性。来源:https://arxiv.org/pdf/2308.13137.pdf OmniQuant采用了一种独特的方法,冻结原始的全精度权重,并结合一组有限的可学习量化参数。与繁琐的权重优化相比,OmniQuant侧重于逐层量化过程中的每个单独层。这使得可以使用简单的算法进行高效的优化。 OmniQuant由两个关键组件组成——可学习权重剪裁(LWC)和可学习等效变换(LET)。LWC优化剪裁阈值,调节极端权重值,而LET通过学习变换来处理激活的离群值。这些组件使得全精度的权重和激活更适合量化。 OmniQuant的灵活性体现在其适用于仅权重和权重-激活量化的多样性。最好的部分是,OmniQuant对于量化模型没有额外的计算负担或参数,因为量化参数可以融合到量化权重中。 OmniQuant概览。来源:https://arxiv.org/pdf/2308.13137.pdf 与LLM中的所有参数进行联合优化不同,OmniQuant在移动到下一层之前依次量化一层的参数。这使得OmniQuant能够使用简单的随机梯度下降(SGD)算法高效地进行优化。 它是一个实用的模型,因为即使在单个GPU上也很容易实现。您可以在16小时内训练自己的LLM,这使得它们在各种实际应用中非常易于使用。此外,OmniQuant在性能上优于先前的基于PTQ的方法。 然而,尽管它是一种相对较新的方法,但它的性能还是有一些限制的。例如,它有时可能会产生比全精度模型稍差的结果。然而,这只是OmniQuant的一个小不便,因为它仍然是一种用于高效部署LLM的有前途的技术。
Leave a Comment对于图像的处理一直存在持久的兴趣,因为它在内容创作中有着广泛的应用。其中最广泛研究的处理之一是对象的移除和插入,通常被称为图像修复任务。虽然当前的修复模型能够生成与周围图像无缝融合的视觉上令人信服的内容,但它们的适用性传统上仅限于单个2D图像输入。然而,一些研究人员正在尝试将这些模型的应用推进到对完整3D场景的处理。 神经辐射场(NeRFs)的出现使将真实的2D照片转换为逼真的3D表示更加容易。随着算法的不断改进和计算需求的降低,这些3D表示可能会变得普遍。因此,该研究旨在实现对3D NeRF的类似处理,如同对2D图像的处理一样,并特别关注修复功能。 修复3D对象存在独特的挑战,包括3D数据的稀缺性以及必须同时考虑3D几何和外观。使用NeRF作为场景表示引入了额外的复杂性。神经表示的隐式性质使得基于几何理解直接修改底层数据结构变得不切实际。此外,由于NeRF是从图像训练的,对多个视角的一致性的保持带来了挑战。对各个组成图像的独立修复可能导致视角不一致和视觉上不真实的输出。 已经尝试了各种方法来解决这些挑战。例如,一些方法旨在事后解决不一致性,如NeRF-In,通过像素损失结合视角,或者SPIn-NeRF,利用感知损失。然而,当修复的视角存在显著的感知差异或涉及复杂外观时,这些方法可能会遇到困难。 另外,还探索了单参考修复方法,通过仅使用一个修复的视角避免视角不一致。然而,这种方法引入了一些挑战,包括非参考视角的视觉质量降低、缺乏视角相关效果以及不连续问题。 考虑到上述限制,已经开发了一种新方法,实现了对3D对象的修复。 系统的输入是N个来自不同视角的图像,以及它们的相应摄像机变换矩阵和蒙版,用于标记不需要的区域。此外,还需要一个与输入图像相关的修复参考视角,该视角提供了用户期望从3D场景的修复中获取的信息。这个参考视角可以是一个简单的替代蒙版的对象的文本描述。 https://ashmrz.github.io/reference-guided-3d/paper_lq.pdf 在上述示例中,可以通过使用单图像文本条件修复器来获得“橡皮鸭”或“花盆”参考。这样,任何用户都可以控制和驱动生成具有所需编辑的3D场景。 通过专注于视角相关效果(VDEs)的模块,作者试图考虑场景中的视角相关变化(例如镜面反射和非朗伯效应)。出于这个原因,他们通过将VDEs添加到非参考视角的蒙版区域,通过校正参考颜色以匹配其他视角的周围环境,来修复蒙版区域。 此外,他们引入了单目深度估计器,根据参考图像的深度来引导修复区域的几何形状。由于不是所有蒙版目标像素在参考图像中都是可见的,因此设计了一种方法来通过额外的修复来监督这些未遮挡的像素。 下面是所提出方法的新视角渲染与最先进的SPIn-NeRF-Lama的视觉比较。 https://ashmrz.github.io/reference-guided-3d/paper_lq.pdf 这是一个关于参考引导可控补全神经辐射场的新型AI框架的摘要。如果您对此感兴趣并且想要了解更多信息,请随时参考下面引用的链接。
Leave a Comment大脑 ,人体最迷人的器官。理解它的工作原理是解开生命秘密的关键。我们是如何思考、感知、嗅觉、感觉、行动的?所有这些问题的答案都在于理解大脑的工作原理。 理解大脑对我们所看到的内容的反应是一个热门研究课题,因为这种知识可能导致先进的计算认知系统的发展。由于我们有功能磁共振成像(fMRI)和脑电图(EEG)等先进工具,科学家现在可以记录由视觉刺激引发的大脑活动。这导致了对解码和重建引发人脑这些反应的实际内容的兴趣日益增长。 研究人类视觉感知的一种常见方法是重建被试者在实验中看到的图像或视频。这是通过使用计算方法,尤其是深度神经网络,并且主要基于fMRI数据来完成的。然而,收集fMRI数据在实际使用中既昂贵又不方便。我的意思是,如果你曾经在MRI设备中待过,你可能知道待在那里是多么的不舒服。没有人愿意自愿参加这样的实验。 这就是脑电图的作用。脑电图是一种更高效的记录和分析大脑信号的方法,被试者在观看各种刺激时使用,但它也面临着自己的挑战。脑电图信号是时间序列数据,与静态图像非常不同。这使得将刺激与相应的脑信号片段匹配变得困难。此外,电极放置错误和身体运动等问题会给数据引入显著的噪声。简单地将脑电图输入映射到像素以进行图像重建会产生低质量的结果。 另一方面,扩散模型已经成为生成建模中的最先进方法。它们已成功应用于各种任务,包括图像合成和视频生成。通过在强大的预训练自动编码器的潜在空间中操作,研究人员克服了像素空间评估的局限性,实现了更快的推理和降低的训练成本。 让我们来认识一下NeuroImageGen,它利用扩散模型的强大功能来解决这个问题。 NeuroImageGen是使用脑电图信号进行神经图像生成的流程。它通过加入多级语义提取模块来解决与基于脑电图的图像重建相关的挑战。该模块从脑电图信号中解码出不同级别的语义信息,从样本级语义到像素级细节(如显著性图)等各种级别。然后,这些多级输出被输入到预训练的扩散模型中,有效地控制不同语义级别上的生成过程。 脑电图信号是复杂的时间序列数据,容易受到噪声的影响,使其难以处理。 NeuroImageGen通过提取多级语义(包括像素级和样本级信息)来克服这一问题。像素级语义涉及通过显著性图捕捉视觉刺激的细粒度颜色、位置和形状细节。另一方面,样本级语义提供了更粗粒度的理解,如识别图像类别或文本标题。这种多级方法使得NeuroImageGen能够有效处理嘈杂的脑电图数据,实现高质量的视觉刺激重建。 NeuroImageGen概览。来源:https://arxiv.org/abs/2308.02510 NeuroImageGen将这些多级语义集成到隐式扩散模型中进行图像重建。从脑电图特征生成的显著性图作为初始图像。从图像标题的CLIP模型嵌入中派生的样本级语义指导扩散模型中的去噪过程。这种集成允许在重建过程中灵活控制不同级别的语义信息。结果是重建的视觉刺激,它有效地结合了细粒度和粗粒度信息,产生高质量的图像。 这种方法的结果是令人鼓舞的,在脑电图数据上胜过了传统的图像重建方法。NEUROIMAGEN显著提高了重建图像的结构相似性和语义准确性,提高了我们对视觉刺激对人脑的影响的理解。
Leave a Comment深度神经网络的最新进展使得解剖分割有了新的方法。例如,利用深度卷积神经网络(CNN)在生物医学图像的解剖分割方面取得了最先进的性能。传统的策略采用标准的编码器-解码器CNN架构,使用带注释的数据集来预测像素级分割。虽然这种方法适用于拓扑在个体间不保持一致的场景,如病变分割,但对于具有规则拓扑结构的解剖结构来说可能不是理想的。深度分割网络通常被训练来最小化像素级损失函数,但这可能不保证解剖合理性,因为它对全局形状和拓扑不敏感。这可能导致出现碎片化结构和拓扑不一致等伪影。 为了缓解这些问题,结合先验知识和形状约束变得至关重要,特别是对于疾病诊断和治疗规划等下游任务。与密集的像素级遮罩相比,统计形状模型或基于图的表示等替代方法提供了一种更自然的方式来包含拓扑约束。图,特别是提供了一种表示标志点、轮廓和表面的方法,可以实现拓扑的正确性。几何深度学习将CNN扩展到非欧几里德域,促进了图数据的判别和生成模型的发展。这些进展使得能够进行准确的预测,并生成与特定分布对齐的真实图结构。 根据上述考虑,引入了新的HybridGNet架构,以在图像特征编码中利用基于标志点的分割的优势。 架构概述如下图所示。 HybridGNet结合了基于图神经网络(GCNN)的生成模型,以创建解剖学上准确的分割结构。它通过标准卷积处理输入图像,并通过对“瓶颈潜在分布”进行采样来生成基于标志点的分割,这是一个包含图像关键信息的紧凑编码表示。从该分布中进行采样使得模型能够根据编码的图像特征创建多样且合理的分割输出。采样后,进行了重塑和图域卷积。 此外,根据局部图像特征可能有助于产生更准确的标志点位置估计的假设,提出了一种名为Image-to-Graph Skip Connection (IGSC)模块。类似于UNet的跳跃连接,IGSC模块结合了图解缩操作,允许特征图从编码器流向解码器,从而增强了模型恢复细节的能力。 下图显示了从研究中选择的样本结果。这些可视化结果提供了HybridGNet和最先进方法之间的比较概览。 这就是HybridGNet的摘要,一种新颖的AI编码器-解码器神经架构,利用标准卷积进行图像特征编码,并利用图卷积神经网络(GCNN)解码解剖结构的合理表示。如果您感兴趣并想更多了解,请随时参考下面引用的链接。
Leave a Comment我们做事的方式在最近几年发生了快速变化。我们已经开始使用虚拟助手来完成我们大部分的任务,并发现自己处于一种需要将任务委派给AI代理的位置。 有一把钥匙可以解锁推动所有这些进步的力量:软件。在一个日益技术驱动的世界中,软件开发是创新的关键,涵盖了从医疗保健到娱乐等各个领域。然而,软件开发的过程往往充满了复杂性和挑战,要求开发人员快速解决问题和创造性思考。 这就是为什么AI应用程序在软件开发领域迅速找到了自己的位置。它们简化了这个过程,为开发人员提供了及时的编码查询答案,并在他们的努力中支持他们。我的意思是,你可能也在使用它。你上次去StackOverflow而不是ChatGPT是什么时候?或者当你安装了GitHub协作者时,你按Tab键的次数有多少? ChatGPT和Copilot都不错,但它们在软件开发中仍然需要有良好的指导才能发挥更好的作用。今天,我们见到了一个新的参与者;SoTaNa。 SoTaNa是一个利用LLM的能力来提高软件开发效率的软件开发助手。像ChatGPT和GPT4这样的LLM已经展示了它们在理解人类意图和生成类似人类的回应方面的能力。它们在包括文本摘要和代码生成在内的各个领域都变得有价值。然而,由于某些限制,它们的可用性受到了限制,而SoTaNa旨在解决这些限制。 SoTaNa作为一个开源软件开发助手,致力于弥合开发者和LLM的巨大潜力之间的鸿沟。这个倡议的主要目标是使基础LLM能够在有限的计算资源下理解开发者的意图。这项研究采用了多步骤的方法来实现这一目标,利用ChatGPT来生成面向软件工程任务的高质量基于指令的数据。 SoTaNa概述。来源:https://arxiv.org/pdf/2308.13416.pdf 该过程通过引导ChatGPT进行具体提示,详细说明生成新实例的要求来开始。为了确保准确性和与期望输出的对齐,手动注释的软件工程相关实例的种子池作为参考。这个池子涵盖了各种软件工程任务,为生成新数据奠定了基础。通过巧妙的采样技术,这种方法有效地使演示实例多样化,并确保创建满足规定要求的高质量数据。 为了更好地提高模型对人类意图的理解,SoTaNa采用了Lora,一种参数高效的微调方法,使用有限的计算资源来增强开源基础模型,特别是LLaMA。这个微调过程使模型在软件工程领域内更好地理解人类意图。 生成数据使用的提示。来源:https://arxiv.org/pdf/2308.13416.pdf SoTaNa的能力是使用Stack Overflow问题回答数据集进行评估的,包括人工评估在内的结果强调了该模型在协助开发人员方面的有效性。 SoTaNa向世界介绍了一个基于LLMs构建的开源软件开发助手,能够理解开发人员的意图并生成相关的响应。此外,它通过发布模型权重和专为软件工程而设计的高质量基于指令的数据集,对社区做出了重要贡献。这些资源有望加速未来在该领域的研究和创新。
Leave a Comment大型语言模型(LLMs)在人工智能领域引发了一场革命。ChatGPT的发布为LLMs时代点燃了火花,从那时起,我们见证了它们不断改进。这些模型通过大量的数据变得可能,并以其能力给我们留下了深刻的印象,从掌握语言理解到简化复杂任务。 ChatGPT的替代方案有很多,它们每天都在变得越来越好,甚至在某些任务上超越了ChatGPT。LLaMa、Claudia、Falcon等等;新的LLM模型正向ChatGPT的宝座发起冲击。 然而,毫无疑问,ChatGPT仍然是迄今为止最受欢迎的LLM。你最喜欢的基于AI的应用很有可能只是一个处理连接的ChatGPT封装器。但是,如果我们退后一步思考安全问题,它真的是私密且安全的吗?OpenAI确保保护API数据隐私是他们非常关心的事情,但他们同时面临着许多诉讼。即使他们非常努力地保护模型使用的隐私和安全性,这些模型可能过于强大而无法控制。 那么,我们如何确保在使用LLMs的同时不会出现隐私和安全问题?如何利用这些模型的能力而不损害敏感数据?让我们来认识一下PUMA。 PUMA 是一个旨在实现安全高效评估Transformer模型的框架,同时保护您数据的纯洁性。它将安全多方计算(MPC)与高效的Transformer推理相结合。 在其核心,PUMA 引入了一种新颖的技术,用于近似Transformer模型内的复杂非线性函数,如GeLU和Softmax。这些近似是为了保持准确性,同时显著提高效率。与可能牺牲性能或导致复杂部署策略的先前方法不同,PUMA的方法平衡了两个世界-确保准确结果的同时,保持了实际应用所需的效率。 PUMA 引入了三个关键实体:模型所有者、客户端和计算方。每个实体在安全推理过程中都发挥着关键作用。 模型所有者提供经过训练的Transformer模型,而客户端贡献输入数据并接收推理结果。计算方集体执行安全计算协议,确保数据和模型权重在整个过程中得到安全保护。PUMA推理过程的基本原则是保持输入数据和权重的机密性,保护涉及的实体的隐私。 安全嵌入是安全推理过程的一个基本方面,传统上涉及使用令牌标识符生成一位热向量。然而,PUMA 提出了一种与Transformer模型的标准工作流程密切相符的安全嵌入设计。这种简化的方法确保安全措施不会干扰模型的固有架构,简化了在实际应用中部署安全模型。 PUMA中使用的安全GeLU和LayerNorm协议的概述。来源:https://arxiv.org/pdf/2307.12533.pdf 此外,在安全推理中,近似复杂函数(如GeLU和Softmax)以平衡计算效率和准确性的方式是一个重大挑战。PUMA 通过设计更准确的近似方法,根据这些函数的特性进行优化,解决了这个问题。通过利用这些函数的特定特征,PUMA 显著提高了近似的精度,同时优化了运行时间和通信成本。 最后,LayerNorm作为Transformer模型中的关键操作,由于除法平方根公式,它在安全推理中带来了独特的挑战。PUMA 通过巧妙地重新定义使用安全协议的操作,确保LayerNorm的计算既安全又高效。 PUMA 最重要的特点之一是它的无缝集成。该框架可以在不需要进行重大模型架构修改的情况下,实现端到端的安全推理,这意味着您可以轻松利用预训练的Transformer模型。无论是从Hugging Face还是其他来源下载的语言模型,PUMA 都能简化操作。它与原始工作流程相一致,不需要复杂的重新训练或修改。
Leave a Comment机器人一直是科技领域的关注焦点。它们总是在科幻电影、儿童节目、书籍、反乌托邦小说等领域中占据一席之地。不久之前,它们只是科幻中的梦想,但现在它们无处不在,重塑着各行各业,并让我们瞥见未来。 从工厂到外太空,机器人正扮演主角,展示其前所未有的精确性和适应性。 机器人领域的主要目标一直是相同的:模仿人类的灵巧。通过整合手中的摄像头,无论是作为传统静态第三人称摄像头的补充还是替代品,已经取得了令人兴奋的进展,以提高操纵能力。 尽管手中的摄像头具有巨大的潜力,但它们并不能保证无误的结果。基于视觉的模型常常在现实世界的波动中遇到困难,例如背景的变化、光照的变化和物体外观的变化,从而导致脆弱性。 为了解决这个挑战,最近出现了一套新的泛化技术。不再依赖于视觉数据,而是使用多样的机器人演示数据来教授机器人特定的动作策略。这在一定程度上是有效的,但是有一个主要问题。它非常昂贵,真的非常昂贵。在真实的机器人环境中收集这样的数据意味着耗时的任务,比如运动学教学或通过VR头盔或操纵杆进行机器人远程操作。 我们真的需要依赖这种昂贵的数据集吗?既然机器人的主要目标是模仿人类,为什么我们不能只使用人类演示视频呢?人类执行任务的视频提供了一种更具成本效益的解决方案,因为人类的灵活性。这样做可以捕捉到多个示范,而无需不断重置机器人、硬件调试或费力的重新定位。这提供了一个有趣的可能性,即利用人类视频演示来提高以视觉为中心的机器人操纵器的泛化能力,规模化应用。 然而,弥合人类和机器人领域之间的差距并不是一件轻而易举的事情。人类和机器人之间外观上的差异引入了一个需要仔细考虑的分布偏移。让我们来看看新的研究,“给机器人一个帮手”,它弥合了这一差距。 现有的方法采用第三人称摄像机视角来应对这一挑战,其中涉及图像转换、领域不变的视觉表示,甚至利用关于人类和机器人状态的关键点信息的领域适应策略。 给机器人一个帮手的概述。来源:https://arxiv.org/pdf/2307.05959.pdf 相比之下,“给机器人一个帮手”采用了一种令人耳目一新的简单方法:遮盖每个图像的一个一致部分,有效地隐藏了人类手部或机器人末端执行器。这种简单的方法避开了复杂的领域适应技术的需求,使机器人能够直接从人类视频中学习操纵策略。因此,它解决了由于人到机器人图像转换而产生的明显视觉不一致性等明确领域适应方法带来的问题。 该方法可以训练机器人执行各种任务。来源:https://giving-robots-a-hand.github.io/ “给机器人一个帮手”的关键在于该方法的探索性质。它将广泛的手动视频演示与环境和任务泛化相结合。它在一系列真实世界的机器人操纵任务中取得了惊人的表现,包括到达、抓取、拾取和放置、堆叠方块、清理盘子、打包玩具等。该方法显著提高了泛化能力。与仅在机器人演示中训练的策略相比,它使策略能够适应未知的环境和新的任务,平均绝对成功率在未知环境和任务中增加了58%。
Leave a Comment你能想象没有图片编辑的互联网吗?所有那些有趣的表情包、花哨的Instagram照片、迷人的风景等等都将消失。那将不是一个有趣的互联网,不是吗? 自从数码相机问世以来,图片编辑一直是许多人的热情所在。在最初的时候,我们有一些简单的编辑工具,但是现在,你几乎可以将图片中的任何东西变成任何东西而不费吹灰之力。图像编辑工具在近年来有了显著的进步,这要归功于所有这些强大的人工智能方法。 然而,当谈到视频编辑时,它落后了。视频编辑通常需要技术专长和复杂的软件。你需要深入研究像Premier和FinalCut Pro这样的复杂工具,并且尝试自己调整每一个细节。难怪视频编辑现在是一个高薪技能。另一方面,甚至可以在移动应用上进行图像编辑,结果对普通用户来说已经足够了。 想象一下,如果交互式视频编辑能够变得像图像编辑一样用户友好,那将有无限的可能性。想象一下,你可以告别技术复杂性,迎接全新的自由!是时候见识一下INVE了。 INVE(交互式神经视频编辑器)是一个解决视频编辑问题的AI模型,正如其名称所示。它提出了一种让非专业用户轻松进行复杂视频编辑的方法。 INVE的主要目标是使用户能够以简单直观的方式对视频进行复杂编辑。该方法基于分层神经图谱表示,其中包括视频中每个对象和背景的2D图谱(图像)。这些图谱允许进行局部和一致的编辑。 视频编辑由于一些固有的挑战而繁琐。例如,视频中的不同对象可能会独立移动,需要精确定位和仔细组合,以避免不自然的伪影。此外,编辑单个帧可能会导致不一致和可见的故障。为了解决这些问题,INVE引入了一种使用分层神经图谱表示的新方法。 这个想法是将视频表示为一组2D图谱,每个移动对象一个图谱,背景一个图谱。这种表示允许进行局部编辑,保持整个视频的一致性。然而,以前的方法在双向映射方面存在困难,很难预测特定编辑的结果。此外,计算复杂性妨碍了实时交互式编辑。 INVE可以保持一帧上的编辑的一致性。来源:https://arxiv.org/pdf/2307.07663.pdf INVE学习了图谱和视频图像之间的双向映射。这使用户可以在图谱或视频本身中进行编辑,提供了更多的编辑选项,并更好地理解编辑在最终视频中的感知效果。 此外,INVE采用了多分辨率哈希编码,显著提高了学习和推理速度。这使用户能够享受真正的交互式编辑体验。 INVE正向映射管道的概述。来源:https://arxiv.org/pdf/2307.07663.pdf INVE 提供了丰富的编辑操作词汇,包括刚性纹理跟踪和矢量素描;它使用户能够轻松实现他们的编辑愿景。新手用户现在可以利用交互式视频编辑的能力,而不被技术复杂性所困扰。这使得视频编辑,比如给移动的汽车添加外部图形,调整背景森林的色调,或者在道路上画画,可以轻松地将这些编辑传播到整个视频。
Leave a Comment在计算机视觉中,人物再识别是当今互联世界中的一项重要追求。它涉及在不理想条件下跨不同摄像机视图识别个体的挑战性任务。然而,要实现准确的再识别模型,需要大量多样化且标记完整的数据。这就是数据增强的重要性所在。数据增强技术可以提高可用数据的质量和数量,使模型能够学习到强大的特征并适应各种场景。 在文献中,人物再识别采用了各种数据增强方法。包括随机擦除、随机水平翻转、遮挡样本生成、具有不同光照条件的虚拟图像创建,甚至涉及生成对抗网络(GANs)的方法。然而,像Cutmix和mixup这样可以生成高质量图像的方法,由于难以将它们适应人物再识别的三元组损失框架,很少被使用。 最近,中国的一个研究团队发表了一篇新论文,介绍了一种将Cutmix数据增强方法应用于人物再识别的解决方案。作者将常用的三元组损失扩展为处理十进制相似性标签,优化图像相似性。他们还提出了Strip-Cutmix,一种适用于人物再识别的增强技术,并提供了在该领域中有效应用该技术的策略。 具体而言,该论文调整了三元组损失和cutmix以解决这个挑战。Cutmix涉及将一幅图像的部分粘贴到另一幅图像上以创建一个新的图像。尽管常用,但由于cutmix生成的十进制相似性标签与其不兼容,它在人物再识别中很少被使用。 为了解决这个问题,作者修改了三元组损失以适应十进制相似性标签,并允许cutmix与三元组损失同时使用。修改后的三元组损失根据目标相似性动态调整优化方向。此外,三元组损失的决策条件被重写以与目标相似性标签对齐。 具体而言,作者扩展了三元组损失以处理十进制相似性标签,在再识别背景下使用cutmix。Cutmix通常将图像的一部分裁剪并粘贴到另一幅图像上,以创建一幅新的组合图像。然而,原始的三元组损失在人物再识别的度量学习中起着重要作用,但它在cutmix生成的十进制相似性标签上存在困难。 为了克服这个挑战,作者动态修改了三元组损失的优化方向以处理十进制标签,使其与cutmix和原始三元组损失兼容。他们还引入了Strip-Cutmix,将图像分成水平块,利用个体的相似特征通常在图像之间的对应位置上找到的事实。这种方法提高了生成图像的质量,并为三元组损失提供了更好的边界条件。Strip-Cutmix与标准cutmix不同之处在于强调基于位置的混合和图像块,使其可以获取组合图像之间的相似性标签。 在实践中,该解决方案涉及: 修改三元组损失以处理十进制标签。 引入Strip-Cutmix技术。 确定在训练过程中应用Strip-Cutmix的最佳方案。 进行了实验研究,以评估所提出方法的有效性。实验在Market-1501、DukeMTMC-ReID和MSMT17数据集上进行。使用平均平均精度(mAP)和累积匹配特性(CMC)进行评估。 研究人员选择了ResNet-50作为骨干网络。结果显示,该方法优于其他方法,在ResNet-50和RegNetY-1.6GF骨干网络上取得了最佳结果。此外,该技术表现出对过拟合的抵抗力,达到了最先进的性能。总体而言,该方法在数据集上提升了人物再识别任务的一致优势。 总之,本文介绍了一种将cutmix数据增强技术应用于人物再识别的方法。人物再识别中使用的现有三元组损失被扩展以适应十进制相似性标签,确保在处理这种新形式时的兼容性。此外,还引入了一种名为strip-cutmix的新概念,专门为人物再识别任务量身定制。通过研究strip-cutmix的最佳利用方案,作者确定了最有效的方法。该提出的方法超越了其他基于卷积神经网络的人物再识别模型,在纯卷积网络框架中实现了最佳性能。
Leave a Comment能够生成“伪造”视频的能力的出现引发了人们对视觉内容可信度的重大担忧。在解决这个问题时,区分真实和伪造信息至关重要。利用深度学习和面部标记的各种算法在应对这一挑战时展示了令人着迷的结果。检测伪造视频的主要挑战在于令人信服的深度伪造技术可能造成的潜在危害,这些技术可以用于欺骗、证据篡改、侵犯隐私和散布错误信息。检测这些视频需要结合分析面部动作、纹理和时间一致性等技术,通常利用卷积神经网络(CNN)等机器学习方法。 最近的研究集中在使用各种方法检测深度伪造。有些方法将深度伪造视为异常情况,并寻找深度、背景和局部-全局信息的不一致性。还有些方法将深度伪造视为一种独特的模式,利用深度学习技术分析面部特征和颜色空间。这些努力为区分真实内容和深度伪造视频做出了贡献。 在这个背景下,最近发表了一篇新论文,提出了一种新的解决方案,即利用头部姿势估计(HPE)作为区分真实视频和深度伪造视频的独特标识符。作者建议通过分析视频中个人的头部姿势来帮助区分真实和深度伪造内容。这种方法关注头部定向角度,以发现在视频处理过程中引入的不一致性。该研究旨在使用各种方法和数据集评估这种技术的有效性,为改进深度伪造检测策略做出贡献。 所提出的方法的主要思想是将头部姿势估计作为检测深度伪造视频的特征。 HPE涉及确定图像或视频中人物的头部位置和方向。这些信息可以用于识别深度伪造处理引入的差异,因为即使是头部对齐的微小变化也可能很难准确复制。该研究分析了三种HPE方法,并在热门的FF++深度伪造数据集上进行了水平和垂直分析。目标是确定最有效的深度伪造检测方法。 作者进行了实验,使用头部姿势模式来检测深度伪造视频。他们使用了包含真实和篡改视频的“FaceForensics++”数据集。他们采用KNN与动态时间规整(DTW)来对齐序列,并使用深度学习模型(1D卷积和GRU)来捕捉时间模式。这些方法旨在根据头部姿势将视频分类为真实或伪造。最好的结果来自基于HPE的方法,使用了KNN-DTW的FSA-Net。该方法优于几种最先进的方法,表现出对数据集不同子集的稳定性和可迁移性。该研究表明,头部姿势模式对于深度伪造检测是有效的,特别是对于像FaceSwap这样不太逼真的攻击。 总之,在这篇文章中,我们介绍了一种最近针对深度伪造视频威胁的新方法。这种方法利用HPE分析视频中的头部定向来识别深度伪造。这个研究团队评估了三种HPE方法,使用了FF++深度伪造数据集并进行了涉及KNN与动态时间规整(DTW)的实验以及深度学习模型。基于HPE的方法,使用了FSA-Net与KNN-DTW,展示了优于最先进方法的性能。这凸显了使用头部姿势模式有效地检测深度伪造的潜力,特别是在像FaceSwap这样不太逼真的操作中。
Leave a Comment近年来,对于从2D图像中获取3D生成模型的任务引起了越来越多的兴趣。随着神经辐射场(NeRF)的出现,从3D模型产生的图像质量得到了显著提升,与2D模型实现的逼真程度相媲美。虽然一些特定的方法专注于3D表示,以确保第三维度的一致性,但这往往以降低图像逼真度为代价。然而,最近的研究表明,混合方法可以克服这个限制,从而增强图像逼真度。然而,这些模型的一个显著缺点在于场景元素的交织,包括几何、外观和光照,这妨碍了用户定义的控制。 已经提出了各种方法来解开这种复杂性。然而,它们要求有效实施时需要多视图图像的集合。不幸的是,当处理在真实世界条件下拍摄的图像时,这个要求带来了困难。虽然一些努力放宽了这个条件,包括来自不同场景的图片,但仍然需要多个视角的同一对象。此外,这些方法缺乏生成能力,并且需要对每个不同的对象进行单独训练,使它们无法创建新对象。在考虑生成方法时,几何和照明的交织特性仍然具有挑战性。 所提出的名为FaceLit的框架介绍了一种仅从图像中获取面部的解缠3D表示的方法。 下图展示了该架构的概述。 该方法的核心是构建一个渲染流水线,强制遵守已建立的物理光照模型,类似于以前的工作,以适应3D生成建模原则。此外,该框架利用现有的照明和姿势估计工具。 基于物理的照明模型被集成到最近开发的神经体积渲染流水线EG3D中,该流水线使用三平面组件从2D图像生成用于体积渲染的深度特征。这里使用了球谐函数。随后的训练侧重于逼真性,并利用该框架固有的物理遵循性来生成逼真图像。这种与物理原理的一致性自然地促进了对解缠3D生成模型的获取。 关键的要素是将基于物理的渲染原则与神经体积渲染结合起来。正如之前所述,该策略旨在与现有的可用照明估计器无缝集成,利用球谐函数。在这个框架中,场景的漫反射和高光方面由球谐系数来描述,这些系数与表面法线和反射矢量相关联。这些系数通过神经网络生成,包括漫反射反射、材料高光反射和法线向量。然而,这种看似简单的设置有效地解开了照明与渲染过程之间的关系。 所提出的方法在三个数据集FFHQ、CelebA-HQ和MetFaces上进行了实施和测试。根据作者的说法,这产生了最先进的FID分数,将该方法置于3D感知生成模型的前沿。下面报告了所讨论方法产生的一些结果。 这是FaceLit的摘要,它是一个新的人工智能框架,可以仅通过图像获取人脸的分离的3D表示。如果您感兴趣并希望了解更多信息,请随时参考下面引用的链接。
Leave a Comment视觉和语言研究是一个不断发展的领域,最近取得了显著的进展,特别是在建立静态图像和相应标题之间联系的数据集方面。这些数据集还涉及使用多种方法将标题中的某些词与图像中的特定区域关联起来。最新的本地化叙事(ImLNs)提供了一种有趣的方法:注释者在描述图像的同时,通过鼠标光标移动来标记他们讨论的区域。这种语音和光标移动的双重过程反映了自然交流,为每个单词提供了全面的视觉基础。然而,值得注意的是,静态图像只能捕捉到一瞬间。注释视频的前景更具吸引力,因为视频展示了完整的叙事,展示了多个实体和物体动态交互的事件。 为了解决这个耗时且复杂的任务,提出了一种增强的注释方法,将ImLNs扩展到视频中。 所提出技术的流程如下所示。 这种新的协议允许注释者在受控环境中构建视频叙事。注释者开始仔细观察视频,识别主要角色(如“男人”或“鸵鸟”),并选择代表每个角色重要时刻的关键帧。 随后,针对每个角色单独构建叙事。注释者在同时引导光标在关键帧上突出显示相关对象和动作的同时,使用口头描述表达角色在各种事件中的参与。这些口头描述包括角色的名称、属性,特别是它所承担的动作,包括与其他角色的互动(例如“与鸵鸟玩耍”)和与无生命物体的互动(例如“拿起食物杯”)。为了提供全面的背景信息,注释者还在单独的阶段提供了对背景的简要描述。 有效地使用关键帧消除了时间限制,而为每个角色创建独特的叙述使得复杂情况的分解成为可能。这种分解有助于全面描绘涉及多个角色相互交互和与许多被动物体互动的多面事件。与ImLN类似,这个协议利用鼠标轨迹段来定位每个单词。该研究还实施了几项额外措施,以确保精确定位,超过了先前工作的成果。 研究人员使用视频本地化叙事(VidLNs)在不同的数据集上进行了注释。考虑到的视频展示了复杂的场景,其中各种角色和无生命物体之间的交互,通过详细的注释描述了引人入胜的叙事。以下是一个示例。 VidLNs数据集的深度为各种任务(如视频叙事基础(VNG)和视频问答(VideoQA))提供了坚实的基础。新引入的VNG挑战要求开发一种能够通过在视频帧上生成分割掩码来定位输入叙述中的名词的技术。这个任务面临着重大挑战,因为文本中经常包含多个相同的名词,需要从周围词语中利用上下文线索进行消歧。虽然这些新的基准测试仍然是复杂的挑战,并远未完全解决,但所提出的方法在正确的方向上取得了有意义的进展(有关详细信息,请参阅已发表的论文)。 这是关于视频本地化叙事的总结,这是一种将视觉和语言连接起来的新型多模态视频注释。如果您对此感兴趣并想了解更多信息,请随时参考下面引用的链接。
Leave a Comment文本到图像模型已经成为AI领域讨论的基石,该领域的进展相当迅速,因此我们拥有了令人印象深刻的文本到图像模型。生成式人工智能进入了一个新阶段。 扩散模型是这一进展的关键贡献者。它们已经成为一个强大的生成模型类别。这些模型被设计为通过缓慢去噪输入来生成高质量的图像。扩散模型能够捕捉隐藏的数据模式并生成多样且逼真的样本。 基于扩散的生成模型的快速进展已经彻底改变了文本到图像生成方法。你可以要求一个图像,无论你能想到什么,描述出来,模型都能够相当准确地为你生成出来。随着它们的进一步发展,越来越难以理解哪些图像是由人工智能生成的。 然而,这里存在一个问题。这些模型完全依赖于文本描述来生成图像。你只能“描述”你想要看到的内容。此外,它们很难进行个性化,因为在大多数情况下需要进行微调。 想象一下,你正在为你的房子做室内设计,与一位建筑师合作。建筑师只能为你提供他为之前的客户设计的方案,当你试图个性化设计的某个部分时,他只会忽视它并为你提供另一个曾经使用过的风格。听起来不太令人愉快,不是吗?如果你在寻求个性化,这可能是你在使用文本到图像模型时会得到的体验。 幸运的是,已经有人试图克服这些限制。研究人员已经探索了将文本描述与参考图像整合起来以实现更个性化的图像生成。虽然一些方法需要在特定的参考图像上进行微调,但其他方法会在个性化数据集上重新训练基础模型,从而可能出现保真度和泛化性的潜在缺陷。此外,大多数现有算法只适用于特定领域,无法处理多概念生成、测试时微调和开放领域零样本能力。 因此,今天我们将介绍一种接近开放领域个性化的新方法——Subject-Diffusion。 SubjectDiffusion可以生成高保真度的主题驱动图像。来源:https://arxiv.org/pdf/2307.11410.pdf Subject-Diffusion是一种创新的开放领域个性化文本到图像生成框架。它仅使用一个参考图像,消除了测试时微调的需求。为了构建一个大规模的个性化图像生成数据集,它利用了一个自动数据标记工具,生成了令人印象深刻的7600万图像和2.22亿个实体的Subject-Diffusion数据集。 Subject-Diffusion有三个主要组成部分:位置控制、细粒度参考图像控制和注意力控制。位置控制是在噪声注入过程中添加主要主题的遮罩图像。细粒度参考图像控制使用一个组合的文本-图像信息模块来改善两者的整合。为了实现多个主题的平滑生成,训练过程中引入了注意力控制。 SubjectDiffusion概览。来源:https://arxiv.org/pdf/2307.11410.pdf Subject-Diffusion实现了令人印象深刻的保真度和泛化性,能够根据每个主题的一个参考图像生成单个、多个和以人为主题的个性化图像,并进行形状、姿势、背景和风格的修改。该模型还通过特别设计的去噪过程,实现了自定义图像和文本描述之间的平滑插值。定量比较显示,Subject-Diffusion在各种基准数据集上超越或与其他最先进的方法相媲美,无论是否进行测试时微调。
Leave a Comment深度学习和人工智能在近年来在检测模型方面取得了显著的进展。尽管取得了令人印象深刻的进步,但目标检测模型的有效性主要依赖于大规模的基准数据集。然而,挑战在于目标类别和场景的变化。在现实世界中,与现有图像存在显著差异,并且可能出现新的目标类别,因此需要重新构建数据集以确保目标检测器的成功。不幸的是,这严重影响了它们在开放世界情景中的泛化能力。相比之下,即使是儿童,人类也能够在新环境中快速适应和良好泛化。因此,人工智能系统与人类智能之间的普遍性不足仍然是一个值得关注的差距。 克服这一限制的关键是开发一种通用的目标检测器,以实现对任何给定场景中所有类型的目标的检测能力。这样的模型将具备在未知情况下有效运作而无需重新训练的显著能力。这样的突破将显著接近使目标检测系统像人类一样智能的目标。 通用的目标检测器必须具备两个关键能力。首先,它应该使用来自各种来源和多样的标签空间的图像进行训练。在分类和定位方面进行大规模协作训练是确保检测器获得足够信息以有效泛化的关键。理想的大规模学习数据集应包含许多图像类型,涵盖尽可能多的目标类别,具有高质量的边界框注释和广泛的类别词汇。不幸的是,由于人类注释者的限制,实现这样的多样性是具有挑战性的。在实践中,虽然小词汇量的数据集提供了更清晰的注释,但较大的数据集存在噪声并可能存在不一致性。此外,专门的数据集专注于特定类别。为了实现普遍性,检测器必须从具有不同标签空间的多个来源学习,以获得全面和完整的知识。 其次,检测器应该展示对开放世界的强大泛化能力。它应能够准确预测在训练过程中未见过的新类别的标签,而没有显著的性能下降。然而,仅依靠视觉信息无法实现这一目的,因为全面的视觉学习需要人类注释来进行全面监督学习。 为了克服这些限制,提出了一种名为“UniDetector”的新型通用目标检测模型。 架构概述如下图所示。 要实现通用目标检测器的两个关键能力,需要解决两个相应的挑战。第一个挑战是使用多源图像进行训练,其中图像来自不同的来源,并与多样化的标签空间相关联。现有的检测器仅能预测来自一个标签空间的类别,而数据集特定的分类法和数据集之间的标注不一致性使得统一多个异构标签空间变得困难。 第二个挑战涉及新类别的区分。受近期研究中图像-文本预训练的成功启发,作者利用带有语言嵌入的预训练模型来识别未见过的类别。然而,全面监督训练往往会使检测器偏向于关注训练过程中出现的类别。因此,在推断时,模型可能会偏向基础类别,并对新类别产生不自信的预测。尽管语言嵌入提供了预测新类别的潜力,但其性能仍远远落后于基础类别。 UniDetector被设计来解决上述挑战。研究人员利用语言空间探索各种结构,以有效地训练具有异构标签空间的检测器。他们发现采用分区结构可以促进特征共享,同时避免标签冲突,这对于检测器的性能是有益的。 为了增强区域建议阶段对新类别的泛化能力,作者将建议生成阶段与RoI(感兴趣区域)分类阶段解耦,选择分别进行训练而不是联合训练。这种方法利用了每个阶段的独特特征,有助于检测器的整体普遍性。此外,他们引入了一个无类别定位网络(CLN)以实现广义的区域建议。 此外,作者提出了一种概率校准技术来消除预测的偏差。他们估计了所有类别的先验概率,然后根据这个先验概率调整了预测的类别分布。这种校准显著提高了物体检测系统中新类别的性能。根据作者的说法,UniDetector可以超过当前最先进的CNN检测器Dyhead,达到6.3%的平均精度(AP)。 这是UniDetector的摘要,它是一种针对通用物体检测设计的新型人工智能框架。如果您对该工作感兴趣并希望了解更多信息,您可以通过点击下面的链接找到更多信息。
Leave a Comment这篇AI论文对MLOps领域进行了广泛的研究。 MLOps是一门新兴的学科,专注于自动化整个机器学习生命周期。调查涵盖了广泛的主题,包括MLOps流水线、挑战和最佳实践。它深入探讨了机器学习过程的各个阶段,从模型需求分析、数据收集、数据准备、特征工程、模型训练、评估、系统部署和模型监控等开始。此外,它还讨论了整个生命周期中的业务价值、质量、人类价值和伦理等重要考虑因素。 该论文旨在全面调查MLOps,并强调其在自动化机器学习生命周期中的重要性。调查涵盖了多个主题,包括MLOps流水线、挑战、最佳实践以及机器学习过程的各个阶段。 本文在下图中提供了一个概览: https://arxiv.org/abs/2304.07296:机器学习流程 模型需求分析 为了启动一个机器学习项目,利益相关者必须分析和确定模型需求。本节概述了四个考虑因素:业务价值、模型质量、人类价值(隐私、公平性、安全性和问责制)以及伦理。鼓励利益相关者定义目标,评估用于识别价值和问题的工具,优先考虑需求,涉及相关利益相关者,并确定必要的功能。 数据收集和准备 数据准备阶段在确保机器学习任务的高质量数据方面起着至关重要的作用。本节介绍了数据收集、数据发现、数据增强、数据生成和ETL(提取、转换、加载)过程。强调了数据质量检查、数据清洗、数据合并、数据匹配以及进行探索性数据分析(EDA)以获得数据集洞察的重要性。 特征工程 特征工程对于提高预测建模性能至关重要。本节重点介绍了特征选择和提取、特征构建、特征缩放、数据标记和特征填充等技术。提到了与每种技术相关的具体算法和方法,包括主成分分析(PCA)、独立成分分析(ICA)以及标准化和归一化。 模型训练 模型训练阶段涵盖了不同类型的机器学习模型,包括有监督学习、无监督学习、半监督学习和强化学习。本节讨论了模型选择,包括为特定问题选择适当模型的过程。还探讨了模型选择的方法,如交叉验证、自助法和随机拆分。还讨论了超参数调优,即优化模型参数的过程。 模型评估 模型评估侧重于使用各种指标评估模型的性能。本节介绍了常见的评估指标,如准确率、精确率、召回率、F值和ROC曲线下的面积(AUC)。强调同时考虑模型性能和业务价值的重要性。 系统部署 系统部署涉及选择适当的ML模型操作平台,集成系统,进行系统集成测试,并将系统发布给最终用户。解释了部署策略,包括金丝雀部署和蓝绿部署。还讨论了部署ML系统所面临的挑战,以及实现顺畅部署过程的提示。 模型监控 本文强调在ML系统中进行模型监控的重要性。强调开发人员在ML模型监控和维护方面缺乏知识和经验。本节探讨了模型监控的各个方面,包括漂移检测、模型监控质量、合规性、系统日志记录和模型解释(XAI)。提供了监控数据分布变化、确保模型性能、符合行业特定标准和法规、用于ML流水线的系统日志记录以及实现模型透明度的洞察。 结论 本文通过讨论MLOps的未来以及需要解决的可扩展性和可靠性挑战来总结。它强调了对机器学习模型进行持续监控和维护的重要性,以实现长期成功。 总之,这份综合调研涵盖了MLOps领域内整个机器学习生命周期。它为MLOps管道、挑战、最佳实践、模型需求分析、数据准备、特征工程、模型训练、评估、系统部署和模型监控提供了宝贵的见解。通过详细研究这些主题,本调研旨在帮助研究人员和从业者全面了解MLOps及其实际意义。
Leave a Comment基于骨架的人体动作识别是一种计算机视觉领域,通过分析视频数据中的骨骼关节位置来识别人体动作。它使用机器学习模型来理解时间动态和空间配置,从而在监控、医疗、体育分析等领域应用。 自从这个研究领域出现以来,科学家们遵循了两种主要策略。第一种策略是手工制作的方法:这些早期技术应用3D几何操作来创建输入经典分类器的动作表示。然而,它们需要人工辅助来学习高级动作线索,导致性能过时。第二种策略是深度学习方法:深度学习的最新进展已经改变了动作识别的方式。最先进的方法专注于设计能够捕捉空间拓扑和时间运动相关性的特征表示。更准确地说,图卷积网络(GCNs)已经成为基于骨架的动作识别的强大解决方案,在各种研究中取得了令人印象深刻的结果。 在这个背景下,最近发表了一篇新文章,提出了一种名为“骨架大核关注图卷积网络”(LKA-GCN)的新方法。它解决了基于骨架的动作识别中的两个主要挑战: 长程依赖性:LKA-GCN引入了骨架大核关注(SLKA)算子,以有效捕捉关节之间的长程相关性,克服了现有方法中的过度平滑问题。 有价值的时间信息:LKA-GCN采用手工制作的关节运动建模(JMM)策略,专注于具有显著关节运动的帧,增强了时间特征,提高了识别准确性。 该方法将骨架数据作为图形进行时空图建模,其中空间图形捕捉人体关节的自然拓扑,而时间图形编码相邻帧中相同关节之间的相关性。图形表示是从骨架数据生成的,它是表示随时间变化的人体关节的一系列三维坐标。作者引入了SLKA算子,将自注意机制与大核卷积相结合,以高效地捕捉人体关节之间的长程依赖关系。它通过更大的感受野聚合间接依赖关系,同时最小化计算开销。此外,LKA-GCN还包括JMM策略,通过计算反映局部范围内平均关节运动的基准帧,专注于信息丰富的时间特征。LKA-GCN由时空SLKA模块和识别头组成,利用多流融合策略来提高识别性能。最后,该方法采用多流方法,将骨架数据分为三个流:关节流、骨流和运动流。 为了评估LKA-GCN,作者使用了各种实验对三个基于骨架的动作识别数据集(NTU-RGBD 60、NTU-RGBD 120和Kinetics-Skeleton 400)进行了实验研究。将该方法与基准进行了比较,并分析了SLKA算子和关节运动建模(JMM)策略等不同组件的影响。还探讨了两流融合策略。实验结果表明,LKA-GCN优于最先进的方法,证明了其在捕捉长程依赖关系和提高识别准确性方面的有效性。视觉分析进一步验证了该方法捕捉动作语义和关节依赖性的能力。 总之,LKA-GCN解决了基于骨架的动作识别中的关键挑战,捕捉了长程依赖关系和有价值的时间信息。通过SLKA算子和JMM策略,LKA-GCN在实验评估中优于最先进的方法。其创新方法在各种应用中有望实现更准确、更稳健的动作识别。然而,研究团队也意识到一些限制。他们计划扩展他们的方法,包括深度图和点云等数据模态,以获得更好的识别性能。此外,他们还计划使用知识蒸馏策略来优化模型的效率,以满足工业需求。
Leave a Comment模型专业化涉及将预训练的机器学习模型适应特定的任务或领域。在语言模型(LMs)中,模型专业化对于改进其在摘要、问答、翻译和语言生成等各种任务中的性能至关重要。将语言模型专门用于特定任务的两个主要过程是指令微调(将预训练模型适应新任务或任务集)和模型蒸馏(从预训练的“教师”模型转移知识到更小、专门的“学生”模型)。提示是LM专业化领域的一个关键概念,因为它提供了引导模型朝特定行为的方式,允许更有效地使用有限的训练数据,并且对于实现最先进的性能至关重要。压缩提示是一种研究中的技术,希望能够在计算、内存和存储方面节省大量开销,同时不会对输出的总体性能或质量产生显著降低。 本文由斯坦福大学的研究人员提出,提出了一种名为gisting的提示压缩新技术,该技术训练了一个LM将提示压缩为更小的“要点”标记集。为了降低提示的成本,可以使用微调或蒸馏等技术训练一个模型,该模型的行为类似于没有提示的原始模型,但在这种情况下,模型必须针对每个新提示进行重新训练,这远非理想。然而,gisting的思想是使用元学习方法从提示中预测要点标记,这不需要为每个任务重新训练模型,并且可以在没有额外训练的情况下实现对未见指令的泛化。这将降低计算成本,并允许压缩、缓存和重用提示以提高计算效率。它还允许用户在有限的上下文窗口中容纳更多内容。 作者们尝试了一种实现这种模型的简单方法-他们使用LM本身(利用其现有的知识)在指令微调过程中预测要点标记,同时修改Transformer注意力掩码。给定一个(任务、输入)对,他们在任务和输入之间添加要点标记,并将注意力掩码设置如下:要点标记之后的输入标记不能与要点标记之前的任何提示标记关联(但它们可以与要点标记关联)。由于输入和输出不能参考提示,这迫使模型将提示中的信息压缩到要点标记之间。为了训练要点模型,他们需要一个包含各种任务的数据集,因此他们创建了一个称为Alpaca+的数据集,该数据集结合了两个现有的指令微调数据集(斯坦福Alpaca和Self-Instruct),总共超过130k个示例。然后,他们保留了3个验证拆分,以便在训练后验证模型,其中包括已见、未见和手工制作的人类提示。通过这种方式,他们能够测试对未见指令的泛化性能,其中人类拆分提出了更强的泛化挑战。他们还使用了多种LM架构(即LLaMA-7Bm、仅解码器的GPT风格模型和FLAN-T5-XXL),并使用不同数量的要点标记(1、2、5或10)训练要点模型。然而,结果显示,模型对于要点标记的数量通常不敏感,有些情况下甚至显示出更多标记实际上对性能有害。因此,他们在后续实验中使用了单个要点模型。 为了评估提示压缩的质量,他们将性能与正面控制进行了校准,正面控制实际上是标准指令微调,它提供了性能的上限,并且负面控制中模型完全无法访问指令,导致生成随机要点标记,这提供了性能的下限。为了将模型的输出与正面控制进行比较并测量胜率,他们要求ChatGPT选择哪个响应更好,并解释其推理过程。他们还使用了一个称为ROUGE-L的简单词汇重叠统计指标(用于衡量生成文本与人类编写的指令之间的相似性)。50%的胜率表示模型的质量与不进行提示压缩的模型相当。 研究结果显示,在已见指令上,概要模型的胜率非常接近正向对照模型,LLaMA为48.6%,FLAN-T5为50.8%。更重要的是,他们能够表明概要模型在未见提示上具有竞争力的泛化能力,LLaMA为49.7%,FLAN-T5为46.2%。只有在最具挑战的人类分割上,他们的胜率略微下降(但仍具竞争力),LLaMA为45.8%,FLAN-T5为42.5%。FLAN-T5的表现稍差以及特定的失败案例为未来的研究提供了更多的假设。 研究人员还调查了通过概要提取可能实现的效率提升。结果非常令人鼓舞,概要缓存导致FLOPs减少40%,墙上时钟时间比未优化的模型降低4-7%。尽管这些改进在仅有解码器的语言模型中较小,研究人员还证明了概要模型使未见提示的压缩率提高了26倍,为输入上下文窗口提供了相当大的额外空间。 总的来说,这些发现说明了概要提取对于增强专用语言模型的有效性和效率的巨大潜力。作者还提出了几个有前途的概要提取后续工作方向。例如,他们指出,从概要提取中获得的最大计算和效率收益将来自于对更长提示的压缩,并且“概要预训练”可以通过首先学习压缩任意自然语言段落来改善压缩性能。
Leave a Comment卷积神经网络(CNN)一直是计算机视觉任务系统的基础。它们一直是各种问题的首选架构,从目标检测到图像超分辨率。事实上,深度学习领域的著名突破(例如AlexNet)之所以能够实现,得益于卷积神经网络。 然而,当基于Transformer模型的新架构——Vision Transformer(ViT)展示出有希望的结果并在大型数据集上优于经典的卷积架构时,情况发生了变化。从那时起,该领域一直在寻求为多年来使用CNN解决的问题提供基于ViT的解决方案。 ViT使用自注意力层来处理图像,但如果在像素级别上天真地应用,这些层的计算成本将随图像每个像素的数量呈二次倍增。因此,ViT首先将图像分成多个补丁,对其进行线性嵌入,然后直接将Transformer应用于这个补丁集合。 在原始ViT的成功之后,许多工作修改了ViT架构以提高其性能。替换自注意力层、进行其他小的改变等。虽然进行了所有这些改变,几乎所有的ViT架构都遵循一个共同且简单的模板。它们在整个网络中保持相等的大小和分辨率,并表现出各向同性的行为,通过在交替步骤中实现空间和通道混合来实现。此外,所有网络都使用补丁嵌入,这允许在网络开始时进行下采样,并促进了直接和统一的混合设计。 这种基于补丁的方法是所有ViT架构的常见设计选择,简化了整体设计过程。因此,问题就出现了。视觉变换器的成功主要是由于基于补丁的表示吗?还是由于使用了自注意力和MLP等先进且富有表现力的技术?视觉变换器的出色性能主要取决于哪个因素? 有一种方法可以找到答案,它被称为ConvMixer。 ConvMixer概述。来源:https://openreview.net/forum?id=rAnB7JSMXL ConvMixer是一种卷积架构,用于分析ViT的性能。它在许多方面与ViT非常相似:它直接处理图像补丁,在整个网络中保持一致的分辨率,并将通道混合与图像不同部分的空间混合分离开。 然而,关键的区别在于ConvMixer使用标准卷积层来实现这些操作,而不是Vision Transformer和MLP-Mixer模型中使用的自注意力机制。最终,由此得到的模型在计算能力方面更便宜,因为深度卷积和逐点卷积操作比自注意力和MLP层更便宜。 尽管极其简单,ConvMixer在某些参数数量相似的“标准”计算机视觉模型(例如ResNet)以及一些对应的ViT和MLP-Mixer变体之上表现出色。这表明基于补丁的各向同性混合架构是一种功能强大的基本原理,几乎适用于任何良好的混合操作选择。 ConvMixer是一类极其简单的模型,它独立地使用标准卷积来混合补丁嵌入的空间和通道位置。通过使用受ViT和MLP-Mixer大感受野启发的大内核大小,可以实现显著的性能提升。最后,ConvMixer可以作为未来基于补丁的架构的基准。
Leave a Comment最近,对于通过神经网络将坐标映射到其数量(如标量或向量)来表示信号的神经场的研究已经迅速增长。这引发了对利用这项技术处理各种信号(包括音频、图像、3D形状和视频)的兴趣增加。通用逼近定理和坐标编码技术为大脑场的准确信号表示提供了理论基础。最近的研究表明,它在数据压缩、生成模型、信号操作和基本信号表示方面具有适应性。 图1显示了(a)所提出的流引导的逐帧表示的一般结构,(b)逐帧视频表示,(c)像素级视频表示(FFNeRV) 最近,对于通过神经网络将坐标映射到其数量(如标量或向量)来表示信号的神经场的研究已经迅速增长。这引发了对利用这项技术处理各种信号(包括音频、图像、3D形状和视频)的兴趣增加。通用逼近定理和坐标编码技术为大脑场的准确信号表示提供了理论基础。最近的研究表明,它在数据压缩、生成模型、信号操作和基本信号表示方面具有适应性。 每个时间坐标由由多层感知机(MLP)和卷积层堆叠创建的视频帧来表示。与基本神经场设计相比,我们的方法大大减少了编码时间,并且在视频压缩技术方面表现出色。这种范式遵循了最近提出的E-NeRV,同时也提升了视频质量。如图1所示,它们提供了用于电影的流引导的逐帧神经表示(FFNeRV)。它们将光流嵌入到逐帧表示中,利用时间冗余,借鉴了常见的视频编解码器。通过组合由光流引导的附近帧,FFNeRV创建了一个视频帧,强制重用先前帧的像素。鼓励网络避免在帧之间再次记住相同的像素值,极大地提高了参数效率。 根据对UVG数据集的实验结果,FFNeRV在视频压缩和帧插值方面击败了其他逐帧算法。他们建议使用多分辨率时间网格,以固定空间分辨率代替MLP,将连续的时间坐标映射到相应的潜在特征,以进一步提高压缩性能。这受到基于网格的神经表示的启发。此外,他们建议使用更简洁的卷积结构。他们在推荐的逐帧流表示中使用群组和逐点卷积,由生成模型驱动,生成高质量的图片和轻量级神经网络。通过量化感知训练和熵编码,FFNeRV击败了流行的视频编解码器(H.264和HEVC),并与最先进的视频压缩算法表现相当。代码实现基于NeRV,可在GitHub上获得。
Leave a Comment生成模型正在成为计算机科学中许多具有挑战性任务的事实解决方案。它们代表了分析和合成视觉数据最有前景的方法之一。稳定扩散是目前最知名的生成模型,可以从复杂的输入提示生成美丽而逼真的图像。该架构基于扩散模型(DMs),已经展现出图像和视频的惊人生成能力。扩散和生成模型的快速发展正在推动二维内容创作的革命。这个口号非常简单:“如果你能描述它,你就能可视化它。”或者更好的说,“如果你能描述它,模型就能为你绘制出来。”确实令人难以置信,生成模型的能力。 虽然二维内容已被证明是对DMs的一种压力测试,但三维内容由于包括但不限于额外的维度而带来了几个挑战。生成与2D内容相同质量的三维内容,例如头像,是一项艰巨的任务,由于内存和处理成本可能会限制为高质量头像生成所需的丰富细节。 随着技术推动数字头像在电影、游戏、元宇宙和3D行业中的使用,允许任何人创建数字头像可能是有益的。这是推动该工作开发的动力。 作者提出了Roll-out扩散网络(Rodin)来解决创建数字头像的问题。下图给出了该模型的概述。 模型的输入可以是图像、随机噪声或所需头像的文本描述。然后从给定的输入中派生潜在向量z,并在扩散过程中使用它。扩散过程包括多个噪声去噪步骤。首先,随机噪声被添加到起始状态或图像中,并进行去噪以获得更清晰的图像。 这里的不同之处在于所需内容的三维性质。扩散过程与通常运行一样,但扩散模型生成头像的粗略几何形状,随后使用扩散上采样器进行细节合成。 计算和内存效率是该工作的目标之一。为了实现这一目标,作者利用了神经辐射场的三平面(三个轴)表示,与体素网格相比,它具有更小的内存占用,而不会损失表达能力。 然后,训练另一个扩散模型,将产生的三平面表示上采样以匹配所需分辨率。最后,利用由4个全连接层组成的轻量级MLP解码器生成RGB体积图像。 下面报告了一些结果。 与提到的最先进方法相比,Rodin提供了最清晰的数字头像。对于该模型,在共享样本中没有可见的伪影,与其他技术相反。 这是Rodin的摘要,一个能够轻松从各种输入源生成3D数字化身的新颖框架。如果您有兴趣,可以在下面的链接中找到更多信息。
Leave a Comment构建与人类视觉系统类似的人工系统,是计算机视觉的一个重要目标。最近在人口脑活动测量方面的进展,以及深度神经网络模型的实现和设计的改进,使得可以直接比较人工网络的结构特征与生物大脑潜在表示的架构特征,揭示了这些系统的工作方式的关键细节。从脑活动中重建视觉图像,比如通过功能磁共振成像(fMRI)检测到的脑活动,就是其中的一个应用之一。这是一个有趣但困难的问题,因为潜在的脑表示大部分是未知的,而且用于脑数据的样本量通常很小。 近年来,学者们使用深度学习模型和技术,如生成对抗网络(GAN)和自监督学习,来应对这一挑战。然而,这些研究要求对fMRI实验中使用的特定刺激进行微调,或者从头开始训练新的生成模型。这些尝试在像素级和语义保真度方面表现出很大但受限的性能,部分原因是神经科学数据量较小,部分原因是构建复杂生成模型的多个困难。 扩散模型,尤其是计算资源消耗较少的潜在扩散模型,是最近的一个GAN替代方案。然而,由于LDMs仍然相对较新,很难完全理解它们的内部工作原理。 大阪大学和CiNet的研究团队使用一种名为稳定扩散的LDM来从fMRI信号重建视觉图像,试图解决上述问题。他们提出了一个简单的框架,可以在不需要训练或微调复杂深度学习模型的情况下,重建具有高语义保真度的高分辨率图像。 作者在这项研究中使用的数据集是自然场景数据集(NSD),该数据集收集了来自fMRI扫描仪的数据,每个受试者在30-40个会话期间观看了10,000张图片的三次重复。 来源:https://www.biorxiv.org/content/10.1101/2022.11.18.517004v2.full 首先,他们使用潜在扩散模型从文本中创建图像。在上图(顶部)中,z被定义为由模型通过c进行修改的生成的潜在表示,c被定义为文本的潜在表示(描述图像),zc被定义为由自编码器压缩的原始图像的潜在表示。 为了分析解码模型,作者按照以下三个步骤进行操作(上图,中部)。首先,他们从早期视觉皮层(蓝色)的fMRI信号中预测出呈现图像X的潜在表示z。然后,将z经过解码器处理,产生粗糙的解码图像Xz,然后将其编码并通过扩散过程。最后,将噪声图像添加到从高级视觉皮层(黄色)的fMRI信号中得到的解码潜在文本表示c中,并进行去噪处理,得到zc。从zc出发,解码模块产生最终重建的图像Xzc。需要强调的是,这个过程所需的唯一训练是线性映射fMRI信号到LDM组件zc、z和c。 从zc、z和c出发,作者进行了编码分析,通过将它们映射到脑活动来解释LDM的内部操作(上图,底部)。从表示中重建图像的结果如下所示。 来源:https://www.biorxiv.org/content/10.1101/2022.11.18.517004v2.full 使用简单的 z 重新创建的图像具有与原始图像的视觉一致性,但其语义价值丧失了。另一方面,仅使用 c 部分重建的图像产生了具有很强语义保真度但视觉不一致的图像。通过使用 zc 恢复的图像能够产生具有很高语义保真度的高分辨率图像,从而证明了该方法的有效性。 对大脑的最终分析揭示了关于 DM 模型的新信息。在大脑的后部,即视觉皮层中,所有三个组件都取得了很高的预测性能。特别是,z 在早期视觉皮层(位于视觉皮层后部)中提供了强大的预测性能。同时,它在上部视觉皮层(即视觉皮层的前部)中表现出很强的预测值,但在其他区域的值较小。另一方面,在上部视觉皮层中,c 提供了最佳的预测性能。 来源:https://www.biorxiv.org/content/10.1101/2022.11.18.517004v2.full 查看论文和项目页面。所有关于这项研究的荣誉归功于该项目的研究人员。还请不要忘记加入我们的26k+ ML…
Leave a Comment一年前,用人工智能生成逼真的图像还只是一个梦想。尽管大部分生成的输出仍然有三只眼睛、两个鼻子等等,但我们对于看到与真实相似的生成的脸庆幸不已。然而,随着扩散模型的发布,情况发生了很大变化。如今,很难区分出人工智能生成的图像和真实的图像。 生成高质量图像的能力是方程式的一部分。如果我们要充分利用它们,高效地压缩它们在内容生成、数据存储、传输和带宽优化等任务中发挥着至关重要的作用。然而,图像压缩在很大程度上仍然依赖于传统的变换编码和量化技术,对生成模型的探索有限。 尽管扩散模型和基于评分的生成模型在图像生成方面取得了成功,但在图像压缩方面,它们尚未成为主导方法,落后于基于GAN的方法。它们在高分辨率图像上的表现往往比不上HiFiC等基于GAN的方法。即使尝试将文本到图像模型重新用于图像压缩,也会产生不令人满意的结果,生成的重建图像与原始输入有所偏差,或者包含不良伪影。 在图像生成任务中,基于评分的生成模型的性能与它们在图像压缩中的有限成功之间的差距引发了有趣的问题,并激发了进一步的研究。令人惊讶的是,能够生成高质量图像的模型在图像压缩这个特定任务中无法超越GAN。这种差异表明,在将基于评分的生成模型应用于压缩任务时,可能存在独特的挑战和考虑因素,需要专门的方法来充分发挥其潜力。 因此,我们知道在图像压缩中使用基于评分的生成模型存在潜力。问题是,如何实现呢?让我们来看答案。 谷歌研究人员提出了一种方法,将经过均方误差(MSE)优化的标准自编码器与扩散过程结合起来,以恢复并添加自编码器丢弃的细节。对于编码图像的比特率仅由自编码器确定,因为扩散过程不需要额外的比特。通过专门为图像压缩微调扩散模型,结果显示它们在图像质量方面可以胜过几种最近的生成方法。 所提出的方法能够更好地保留细节,与最先进的方法相比。来源:https://arxiv.org/pdf/2305.18231.pdf 该方法探索了两种紧密相关的方法:扩散模型表现出令人印象深刻的性能,但需要大量的采样步骤;而修正流模型在允许较少的采样步骤时表现更好。 这种两步方法首先使用MSE优化的自编码器对输入图像进行编码,然后应用扩散过程或修正流方法来增强重建图像的逼真度。扩散模型采用与文本到图像模型相反方向的噪声调度,优先考虑细节而不是全局结构。另一方面,修正流模型利用自编码器提供的配对关系,直接将自编码器输出映射到未压缩图像。 所提出的HFD模型概述。来源:https://arxiv.org/pdf/2305.18231.pdf 此外,该研究揭示了一些具体细节,这些细节对未来在该领域的研究具有实用价值。例如,研究表明,噪声计划和在图像生成过程中注入的噪声量显著影响结果。有趣的是,尽管文本到图像模型在高分辨率图像上训练时受益于增加的噪声水平,但发现在压缩方面减少扩散过程的整体噪声是有利的。这种调整使模型能够更多地关注细节,因为粗略的细节已经被自动编码器重建充分捕捉到了。
Leave a Comment图像生成AI模型在过去几个月里席卷了领域。你可能听说过中途、DALL-E、ControlNet或Stable dDiffusion。这些模型能够根据给定的提示生成逼真的照片,无论给定的提示有多奇怪。你想看到皮卡丘在火星上跑来跑去吗?随便找一个这些模型,让它为你做,你就能得到。 现有的扩散模型依赖于大规模的训练数据。当我们说大规模时,是真的很大。例如,Stable Diffusion本身是在超过25亿个图像-标题对上进行训练的。所以,如果你计划在家里训练自己的扩散模型,你可能要重新考虑一下,因为训练这些模型在计算资源方面非常昂贵。 另一方面,现有的模型通常是无条件的,或者以文本提示等抽象格式为条件。这意味着它们在生成图像时只考虑一个单一的因素,并且无法传递像分割图这样的外部信息。结合它们对大规模数据集的依赖,意味着大规模生成模型在我们没有大规模数据集进行训练的领域中的适用性受到限制。 克服这种限制的一种方法是针对特定领域对预训练模型进行微调。然而,这需要访问模型参数和大量的计算资源来计算整个模型的梯度。此外,微调一个完整的模型限制了它的适用性和可扩展性,因为每个新的领域或模态组合都需要新的全尺寸模型。此外,由于这些模型的体积庞大,它们往往很快就会过度拟合到它们进行微调的较小数据子集上。 也可以从头开始训练模型,并根据所选择的模态进行调节。但同样,这受限于训练数据的可用性,并且从头训练模型非常昂贵。另一方面,人们试图在推理时引导预训练模型朝着期望的输出方向发展。他们使用来自预训练分类器或CLIP网络的梯度,但这种方法会减慢模型的采样速度,因为它在推理过程中增加了很多计算。 如果我们能够使用任何现有的模型,并在不需要非常昂贵的过程的情况下对其进行调节,那么该怎么办呢?如果我们不去繁琐而耗时的改变扩散模式,它是否仍然可以被调节?答案是肯定的,让我来向你介绍。 多模态调节模块的用例。来源:https://arxiv.org/pdf/2302.12764.pdf 所提出的方法,多模态调节模块(MCM),是一个可以集成到现有扩散网络中的模块。它使用一个小型的类似扩散网络的网络,在每个采样时间步骤上训练,以调节原始扩散网络的预测,使生成的图像符合提供的条件。 MCM不需要对原始扩散模型进行任何形式的训练。唯一需要训练的是调节网络,它是小规模的,训练起来不昂贵。这种方法在计算上效率高,所需的计算资源比从头开始训练扩散网络或微调现有扩散网络要少,因为它不需要为大型扩散网络计算梯度。 此外,MCM即使在没有大量训练数据的情况下也能很好地泛化。它不会减慢推理过程,因为不需要计算梯度,唯一的计算开销来自运行小型扩散网络。 所提出的调节流程概述。来源:https://arxiv.org/pdf/2302.12764.pdf 通过引入多模态调节模块,图像生成的控制能力得到增强,可以对附加的模态进行调节,例如分割图或素描。该方法的主要贡献是引入多模态调节模块,一种适应预训练扩散模型进行有条件图像合成的方法,不改变原始模型的参数,并且在成本更低、内存使用更少的情况下实现高质量和多样化的结果,而不是从头开始训练或微调一个大模型。 查看论文和项目。这项研究的所有功劳归功于该项目上的研究人员。还请不要忘记加入我们的26k+ ML SubReddit、Discord频道和电子邮件通讯,我们在其中分享最新的人工智能研究新闻、酷炫的人工智能项目等等。 使用Tensorleap的可解释性平台揭示深度学习的奥秘 本文由MarkTechPost发布,标题为《一次扩散控制所有扩散:调节预训练扩散模型进行多模态图像合成》。
Leave a Comment随着自然语言系统在现实场景中的普及,这些系统必须正确地传达不确定性。人类通常依靠不确定性表达来告知决策过程,从带伞到开始化疗的决策都范围之内。然而,有必要研究语言不确定性与自然语言生成系统的相互作用,从而需要了解模型与自然语言交互的关键组成部分。 最近的研究探讨了语言模型(LMs)解释不确定性表达的能力以及当它们被训练用于发出不确定性表达时的行为变化。自然的不确定性表达可以包括表示犹豫、归因信息或承认限制等其他话语行为。尽管先前的研究集中于学习模型的内部概率与语言或数字序数输出之间的映射,但当前的研究旨在将非单一维度的语言特征(如修饰语、认识标记、主动动词和证据标记)纳入自然语言生成模型中。 本研究检查了大型语言模型(LMs)在解释和生成不确定性提示时在问答(QA)任务的上下文中的行为。研究在零样本设置下进行实验,以分离提示中不确定性的影响,并在上下文学习场景中研究学习表达不确定性如何影响QA任务的生成。 研究发现,使用高确定性的表达可能导致准确性和校准性的缺陷。具体而言,在使用确定性表达来加强介词时,准确性存在系统性损失。此外,教导LM发出削弱语气而不是加强语气可以在不牺牲准确性的情况下获得更好的校准。该研究引入了不确定性表达的分类学以评估语言特征对LM生成的影响。 结果表明,在设计语言校准模型时至关重要,鉴于模型发出高度确定性语言的潜在缺陷。该研究的贡献包括: 提供不确定性表达与LMs相互作用的框架和分析。 引入不确定性表达的分类学。 展示模型使用确定性表达或惯用语言时出现的准确性问题。 最后,研究表明,不确定性表达可能比确定性表达更好地实现校准。 结论 本研究分析了自然不确定性表达对零样本提示和上下文学习中模型行为的影响。研究人员发现,在零样本提示中使用自然不确定性表达(如加强语气和主动动词)以及数值不确定性习语(如“100%确定”)会降低准确性。然而,教导模型仅在不确定时发出不确定性表达可能是人机交互的更安全设计选择。这是因为先前的研究表明,辅助决策的人工智能表现不如仅依靠人类决策,这表明过度依赖人工智能。教导模型发出确定性表达可能会加剧模型的校准不良和脆弱性。 研究人员建议,在进一步研究人类如何解释生成的自然表达式时,社区应将重点放在训练模型发出不确定性表达上。
Leave a Comment大型语言模型(LLMs)展示了在包括对话、逐步推理、数学问题解决和代码撰写在内的各个领域中的强大推理能力。尽管将大量文本数据用于LLMs的训练可以产生与其物理环境有关的表示,但将这些表示与真实世界的视觉和物理传感器模态相连接对于解决计算机视觉和机器人领域中更广泛的基于真实世界的问题至关重要。 以前的工作将LLMs的输出与学习到的机器人策略和可行性函数结合起来进行决策,但这种方法受到限制。以前的工作的局限性在于LLM只接收文本输入,这对于许多需要场景的几何配置至关重要的任务来说是不足够的。此外,他们的研究表明,在常见的视觉语言任务(如视觉问答)上训练的最先进的视觉语言模型无法直接解决机器人推理问题。在这项研究中,来自Google和TU Berlin的研究人员提出了具有体现的语言模型,该模型直接包括来自具体代理的传感器模态的连续输入,并允许语言模型在实际世界中进行更准确的顺序决策。他们开发了PaLM-E,这是一个单一的大型具体化多模态模型,具有积极的迁移效果,可以解决多种观察模态下的多种具体化推理问题。 PaLM-E LLM表现出积极的迁移效果,即学习者在学习第二语言(L2)时可以将他们在第一语言(L1)中的知识或技能应用于L2学习中,从而更快、更有效地掌握L2。例如,如果学习者的L1与他们正在学习的L2具有相似的语法结构,他们可能能够利用对L1语法的了解来更快地理解和应用L2语法规则。同样,如果学习者的L1和L2共享同源词(在两种语言中拼写和含义相似的词),他们可以通过识别和记忆这些同源词来快速扩展他们的L2词汇量。积极迁移与负迁移相对应,负迁移发生在学习者的L1的知识或技能干扰他们获得L2的能力时。例如,如果学习者的L1的语法结构与他们的L2大相径庭,即使他们在理解上理解了L2的语法规则,他们也可能在正确应用L2的语法规则时遇到困难。 与基于Transformer的LLM的自注意力层处理语言标记的方式类似,图片和状态估计等输入也被合并到与语言标记相同的潜在嵌入中。他们首先通过编码器将连续输入注入到预训练的LLM中。这些编码器经过端到端训练,可以产生自然语言中的顺序判断,具体化代理可以通过配置低层规则或响应具体化查询来理解这些判断。通过对比各种输入表示(例如标准与以物体为中心的ViT编码用于视觉输入)、在训练编码器时冻结与微调语言模型以及研究在多个任务上进行联合训练是否能够实现迁移,他们在一系列情境中评估了这种方法。 他们在三个机器人操作领域(其中两个在真实世界中是闭环的)、常见的视觉语言任务(如VQA和图片描述)和语言任务上测试了这种技术,以确定该方法的广度。根据他们的研究结果,多任务训练相对于单一任务训练可以提高性能。他们展示了在机器人任务中这种任务之间的迁移可能导致更高的数据效率,包括在新的物品组合或未知对象上表现出一次性或零次性的泛化,并大大提高从少量训练样本中的学习性能。据他们所知,将540B的PaLM LLM和22B的Vision Transformer(ViT)结合起来创建了迄今为止发表的最大的视觉语言模型,使PaLM-E扩展到了562B个参数。 在没有使用任务特定的微调的情况下,PaLM-E-562B在OK-VQA基准测试上取得了最先进的性能。他们还发现,即使只在单个图像示例上进行训练,PaLM-E-562B显示出了广泛的技能,包括零次多模态思维链(CoT)少量提示、无OCR算术推理和多图像推理。在他们的知识范围内,使用端到端模型在多模态数据上展示零次CoT尚未被证明具体化程序。 总结他们的主要贡献,他们(1)建议并展示了如何在训练多模态大型语言模型时包含具体化数据,以创建一个通用的、迁移学习的、多具体化决策代理。他们证明,即使最先进的通用视觉语言模型在开箱即用的情况下不能有效解决具体化推理问题(零-shot),也有可能训练一个既有效的具体化推理器又能胜任任务的通用视觉语言模型。在研究这种模型的最佳训练方法时, 他们(3)提供了新的架构概念,包括实体标记的多模态标记和神经场景表示。最后但并非最不重要的是,他们(4)证明了PaLM-E不仅是一个具体化推理器,而且还是一个定量技能丰富的视觉和语言通用模型,并且(5)显示扩大语言模型的规模可以实现多模态微调而减少灾难性遗忘。可以在他们的项目网站上找到各种演示。
Leave a Comment现如今,基于文本的生成图片模型已经能够创建各种逼真的图片。最近的许多研究努力将文本到图片的模型进一步扩展,通过添加分割图、场景图、绘画、深度图和修复遮罩等条件或在少量特定主题数据上进行微调来实现定制化生成。然而,当将这些模型应用于实际应用时,设计师仍然需要更多的控制。例如,在真实世界的设计项目中,生成模型通常需要帮助可靠地生成同时对语义、形式、风格和颜色有要求的图片。 阿里巴巴中国的研究人员介绍了Composer。它是一个训练有数十亿个(文本,图片)对的大型(50亿参数)可控扩散模型。他们认为组合性而不仅仅是条件性是控制图像生成的秘密。后者引入了很多可能的组合,可以极大地扩大控制空间。类似的思想在语言和场景理解领域也有研究。在这些领域中,组合性被称为组合泛化,即能够从有限数量的可用组件中识别或创建出有限数量的独特组合的能力。基于上述概念,他们在这项工作中提供了一个组合生成模型的实现,称之为Composer。他们将可以平滑重新组合视觉元素以创建新图片的生成模型称为组合生成模型。他们使用一个具有UNet骨干的多条件扩散模型来实现Composer。每个Composer训练迭代有两个阶段:分解阶段,在这个阶段,计算机视觉算法或预训练模型被用来将一批图片分解成单个表示;合成阶段,在这个阶段,Composer被优化以从表示子集中重建图片。 图1:组合图像合成的思想,首先将一张图片分解成多个基本部分,然后以很高的创造力和控制度重新组合它们。为了做到这一点,这些组件以各种形式存在,并在整个生成过程中充当条件,使得在推理步骤中可以进行广泛的修改。建议以高分辨率查看。 Composer可以解码出从未见过的表示组合中的独特图片,这些表示可能来自多个来源,可能不兼容,而仅仅是通过重建目的进行训练。尽管概念上很简单且易于使用,但Composer在传统和以前未开发的图片生成和操作任务上表现出色,如但不限于文本到图片生成、多模态条件图片生成、风格转换、姿势转换、图片翻译、虚拟试穿、插值和来自各个方向的图片变化、通过修改草图进行图片重构、依赖图片翻译和图片翻译。 此外,Composer可以将所有上述操作的可编辑区域限制在用户指定的区域内,这比传统的修复操作更灵活,同时通过引入掩膜的正交表示防止在该区域之外修改像素。尽管经过多任务训练,Composer在COCO数据集上利用标题作为标准,在文本到图片合成中获得了零射击FID为9.2的结果,展示了其出色的性能。他们的分解-合成范式表明,当条件是可组合的而不仅仅是单独使用时,生成模型的控制空间可以大大增加。因此,他们的Composer架构可以重塑广泛的传统生成任务,并揭示了迄今未被认识的生成能力,为进一步研究各种分解技术提供了启示。此外,基于无分类器和双向引导,他们展示了许多使用Composer进行不同图片生成和修改任务的方法,并为后续研究提供了有益的参考。在将这项工作公开之前,他们计划仔细检查Composer如何降低滥用风险,并可能提供一个经过筛选的版本。
Leave a Comment在过去的几年里,大规模神经网络引起了研究人员的广泛关注。这主要是因为它们在各种任务中表现出色,包括自然语言理解、解决具有挑战性的数学方程,甚至蛋白质结构预测。然而,为了确保这些模型对社会做出建设性贡献,关键是它们与人类价值观保持一致,并考虑人类偏好。使用人类反馈是实现这一目标最重要的方面之一,因为它使人类能够根据一系列指标(如准确性、公平性、偏见等)评估这些模型的性能,并提供改进这些模型以产生更具伦理输出的见解。为了提高整合用户反馈的效率,研究人员在过去几年中一直在尝试多种人机协同系统的方法。结果表明,ChatGPT和InstructGPT在使用人类反馈进行学习方面取得了惊人的成果。 这种语言建模的性能提升主要归因于依赖监督微调(SFT)和利用人类反馈进行强化学习(RLHF)的策略。尽管这些策略在提高语言模型性能方面做出了显著贡献,但它们也有自己的缺点。SFT主要依赖于人工注释,使得这些模型难以使用并且在数据利用上效率低下。另一方面,由于强化学习是基于奖励函数的,优化这些模型非常具有挑战性。 为了解决这些问题,加州大学伯克利分校的研究人员开发了一种将所有反馈转化为句子并使用它们来微调模型以理解反馈的新技术。这种技术被称为“回顾链”(CoH),它在很大程度上受到人类如何处理以语言形式提供的大量反馈的启发。研究人员在设计这种技术时的目标是结合SFT和RLHF的优势,同时避免使用强化学习来充分利用所有反馈。他们目前的方法利用语言理解和学习反馈的能力,最终提高模型在执行各种任务时的准确性和效果。 研究人员利用人类从语言形式的丰富反馈中学习得很好的事实。鉴于预训练语言模型在上下文中有效学习的卓越能力,研究人员想知道是否可以将所有反馈都转化为一个句子,并训练模型遵循这些反馈。更详细地说,研究人员建议微调模型以预测结果,同时依赖于一个或多个排序结果及其比较形式的反馈。CoH在训练过程中随机选择一个或多个模型输出,并利用它们构建一个包含正面和负面比较反馈的句子。例如,两个示例句子可以是“以下是一个糟糕的摘要”和“以下摘要更好”。模型在推理时使用正面反馈生成所需的输出。 CoH方法允许模型从正面和负面反馈中学习,以识别和纠正负面属性或错误。该策略还具有其他一些优点,包括更有机的反馈样式和一个训练系统。此外,根据研究人员进行的众多实验评估,CoH技术在关联语言模型与人类偏好方面远远优于先前的方法。该方法在人类评估中受到青睐,并在摘要和讨论任务上表现出色。加州大学伯克利分校的研究团队坚信,CoH在未来在各种其他类型的反馈(如自动和数值反馈)中具有巨大潜力。
Leave a Comment为了实现最佳性能准确性,了解代理在训练过程中是否在正确或首选的轨道上至关重要。这可以通过在强化学习中为代理提供奖励或使用评估指标来判断最佳策略来实现。因此,在训练先进的智能代理时,能够检测到这种成功行为变得至关重要。这就是成功检测器的作用,它们可以用来分类代理的行为是否成功。先前的研究表明,开发特定领域的成功检测器相对比较容易,而开发更通用的成功检测器则更加困难。这是因为定义大多数实际任务的成功是相当具有挑战性的,因为它常常是主观的。例如,一幅由人工智能生成的艺术作品可能会让某些人着迷,但对整个观众来说可能并非如此。 在过去的几年里,研究人员提出了不同的方法来开发成功检测器,其中之一是使用偏好数据进行奖励建模。然而,这些模型存在一定的缺陷,因为它们只在固定的任务集和环境条件下表现出可观的性能,这些任务和环境条件都是在偏好注释的训练数据中观察到的。因此,为了确保泛化性能,需要更多的注释来覆盖各种领域,这是一项非常费时费力的任务。另一方面,当涉及到同时使用视觉和语言作为输入的模型训练时,可泛化的成功检测应该确保在语言和视觉上的变化中都能给出准确的度量,以完成指定的任务。现有的模型通常只针对固定条件和任务进行训练,因此无法适应这种变化。此外,适应新的条件通常需要收集新的带注释的数据集并重新训练模型,这并不总是可行的。 在解决这个问题的过程中,Alphabet子公司DeepMind的研究人员团队开发了一种训练稳健成功检测器的方法,可以抵御语言规范和感知条件的变化。他们通过利用大规模预训练的视觉语言模型(如Flamingo)和人类奖励注释来实现这一目标。研究基于研究人员的观察,即对Flamingo进行大量多样化语言和视觉数据的预训练将导致训练更稳健的成功检测器。研究人员声称他们最重要的贡献是将可泛化的成功检测任务重新定义为视觉问答(VQA)问题,称为SuccessVQA。这种方法将任务定义为一个简单的是/否问题,并使用一个统一的架构,该架构只包括定义状态环境的短视频剪辑和描述所需行为的一些文本。 DeepMind团队还证明了通过使用人类注释来微调Flamingo可以实现在三个主要领域的可泛化成功检测。这些领域包括家庭模拟中的交互式自然语言代理、现实世界中的机器人操作和野外自我中心人类视频。SuccessVQA任务公式的通用性使得研究人员可以对来自不同领域的各种任务使用相同的架构和训练机制。此外,使用像Flamingo这样的预训练视觉语言模型使得充分利用在大型多模态数据集上的预训练优势变得相当容易。团队认为这使得在语言和视觉变化方面实现了泛化。 为了评估他们对成功检测的重新定义,研究人员进行了几个实验,涵盖了未见过的语言和视觉变化。这些实验揭示了预训练的视觉语言模型在大多数分布内任务上具有可比性的性能,并在分布外场景中明显优于任务特定的奖励模型。调查还揭示了这些成功检测器能够在语言和视觉上对未见过的变化进行零样本泛化,而现有的奖励模型则无法。尽管DeepMind研究人员提出的这种新方法具有显著的性能,但在与机器人环境相关的任务中仍然存在某些缺点。研究人员表示,他们未来的工作将涉及在这个领域做出更多的改进。DeepMind希望研究社区将他们的初步工作视为实现成功检测和奖励建模方面更多进展的基石。
Leave a Comment