Press "Enter" to skip to content

Tag: Computer vision

用FC-CLIP革命性地改善全景分割:一个统一的单阶段人工智能AI框架

图像分割是一项基本的计算机视觉任务,其中将图像划分为有意义的部分或区域。就像将一张图片分成不同的部分,使计算机能够识别和理解图像内的独立对象或区域。这个过程对于各种应用非常重要,从医学图像分析到自动驾驶汽车,因为它使计算机能够像人类一样解释和与视觉世界互动。 分割基本上可以分为两个主题:语义分割和实例分割。语义分割意味着标记图像中的每个像素所属的对象类型,后者则是计算相同类型的独立对象的数量,即使它们彼此靠近。 然后,有分割之王:全景分割(panoptic segmentation)。它结合了语义分割和实例分割的挑战,旨在预测不重叠的掩模,每个掩模与其相应的类别标签配对。 多年来,研究人员在改进全景分割模型的性能方面取得了显著进展,主要关注全景质量(PQ)。然而,一个基本的挑战限制了这些模型在实际场景中的应用:由于对细粒度数据集的注释成本高昂,语义类别的数量限制。 这是一个重大问题,可以想象到。要检查数千张图像并标记其中的每个对象是非常耗时的。如果我们能够以某种方式自动化这个过程会怎么样?如果我们能够找到一个统一的方法呢?是时候见识一下FC-CLIP了。 FC-CLIP是一个统一的单阶段框架,解决了上述限制。它具有革命性的潜力,可以改进全景分割,并扩展其在开放词汇情景下的适用性。 为了克服封闭词汇分割的挑战,计算机视觉界探索了开放词汇分割的领域。在这种范式中,使用自然语言中表示的类别名称的文本嵌入作为标签嵌入。这种方法使模型能够对更广泛的词汇进行分类,显著增强其处理更广泛类别的能力。通常会使用预训练的文本编码器来确保提供有意义的嵌入,使模型能够捕捉对于开放词汇分割至关重要的词语和短语的语义细微差别。 基于ViT和CNN的CLIP都产生语义有意义的特征。来源:https://arxiv.org/pdf/2308.02487.pdf CLIP和ALIGN等多模态模型在开放词汇分割中表现出巨大的潜力。这些模型利用它们从大量互联网数据中学习对齐的图像-文本特征表示的能力。最近的方法,例如SimBaseline和OVSeg,已经将CLIP适应于开放词汇分割,利用了两阶段框架。 虽然这些两阶段方法取得了相当大的成功,但它们本质上存在低效和低效的问题。为了获得掩码生成和CLIP分类需要单独的骨干网络,增加了模型的大小和计算成本。此外,这些方法通常在不同的输入尺度上执行掩码分割和CLIP分类,导致结果不理想。 这引出了一个关键问题:我们能否将掩码生成器和CLIP分类器统一到单一阶段的框架中,用于开放词汇分割?这样的统一方法可能在流程中提高效率和效果。 FC-CLIP概述。来源:https://arxiv.org/pdf/2308.02487.pdf 这个问题的答案就在于FC-CLIP。 这个开创性的单阶段框架无缝地整合了掩码生成和CLIP分类,它是建立在一个共享的冻结卷积CLIP骨干之上的。FC-CLIP的设计基于一些聪明的观察: 1. 预训练的对齐:冻结的CLIP骨干确保预训练图像文本特征对齐保持完好,从而允许进行超词典分类。 2. 强大的掩码生成器:通过添加轻量级像素解码器和掩码解码器,CLIP骨干可以充当一个强大的掩码生成器。 3. 分辨率的泛化:随着输入尺寸的增加,卷积CLIP表现出更好的泛化能力,使其成为密集预测任务的理想选择。 采用单个冻结的卷积CLIP骨干的结果是一个设计优雅简单且高度有效的模型。与先前最先进的模型相比,FC-CLIP需要的参数更少,训练时间更短,具有更低的计算成本,使其非常实用。

Leave a Comment

使用密集预测变换进行图像语义分割

介绍 本文将介绍一种计算机视觉技术——图像语义分割。虽然听起来很复杂,但我们会一步一步解析它,并介绍一种使用密集预测变换器(DPTs)实现的图像语义分割概念,这是从Hugging Face的集合中选择的。使用DPTs引入了一个具有非同寻常能力的新阶段。 学习目标 DPTs相对于传统对远程连接的理解的比较。 使用Python实现使用DPT进行深度预测的语义分割。 探索DPT设计,理解它们独特的特点。 本文是数据科学博文马拉松的一部分。 什么是图像语义分割? 想象一下,你有一张图像,并希望根据图像中每个像素的表示对其进行标注。这就是图像语义分割的概念。它可以用于计算机视觉,区分汽车和树木,或者分离图像的不同部分;这一切都是为了智能地标记像素。然而,真正的挑战在于理解对象之间的上下文和关系。让我们将其与处理图像的旧方法进行比较。 卷积神经网络(CNNs) 第一个突破是使用卷积神经网络来处理涉及图像的任务。然而,CNNs有一些限制,尤其是在捕捉图像中的长距离连接方面。想象一下,如果你试图理解图像中不同元素在长距离上是如何相互作用的,传统的CNNs会遇到困难。这就是我们赞美DPT的地方。这些模型基于强大的变换器架构,具备捕捉关联的能力。我们将在接下来看到DPTs。 什么是密集预测变换器(DPTs)? 要理解这个概念,想象一下将我们之前在NLP任务中使用的变换器的强大能力与图像分析相结合。这就是密集预测变换器背后的概念。它们就像图像世界中的超级侦探一样。它们不仅能够标记图像中的每个像素,还可以预测每个像素的深度——这在某种程度上提供了有关每个对象与图像之间的距离的信息。我们将在下面看到这一点。 DPT架构工具箱 DPTs有不同类型,每种类型都有其“编码器”和“解码器”层。让我们在这里看一下两种流行的类型: DPT-Swin-Transformer:将其想象为具有10个编码器层和5个解码器层的超级变换器。它擅长理解图像中不同级别的元素之间的关系。 DPT-ResNet:这个类型就像是一个聪明的侦探,具有18个编码器层和5个解码器层。它善于发现远距离对象之间的联系,同时保持图像的空间结构完整性。 关键特点 以下是关于DPTs如何使用一些关键特点的更详细说明: 分层特征提取:就像传统的卷积神经网络(CNNs)一样,DPTs从输入图像中提取特征。然而,它们采用一种分层的方法,将图像分为不同层次的细节。正是这种层次结构有助于捕捉局部和全局上下文,使模型能够理解不同尺度上对象之间的关系。 自注意机制:这是DPTs的核心,受原始变换器架构启发,使模型能够捕捉图像内的长程依赖关系,并学习像素之间的复杂关系。每个像素都考虑来自所有其他像素的信息,使模型对图像有整体的理解。 使用DPTs进行图像语义分割的Python演示 我们将在下面看到DPTs的实现。首先,让我们通过安装Colab上未预安装的库来设置环境。您可以在这里或https://github.com/inuwamobarak/semantic-segmentation找到此代码。 首先,我们安装并设置环境。…

Leave a Comment

家里的好莱坞:DragNUWA是一个能够实现可控视频生成的AI模型

生成式人工智能在过去两年取得了巨大的飞跃,这要归功于大规模扩散模型的成功发布。这些模型是一种生成模型,可以用来生成逼真的图像、文本和其他数据。 扩散模型通过从随机噪声图像或文本开始,逐渐添加细节。这个过程被称为扩散,类似于现实世界中物体逐渐变得越来越详细的过程。它们通常在一个大型真实图像或文本数据集上进行训练。 另一方面,视频生成在近年来也取得了显著的进展。它包含了生成逼真和动态视频内容的令人兴奋的能力。这项技术利用深度学习和生成模型生成从超现实的梦幻景观到对我们世界的逼真模拟的视频。 利用深度学习的能力来精确控制视频的内容、空间排列和时间演化,对各种应用领域都具有巨大的潜力,从娱乐到教育等等。 在历史上,这个领域的研究主要集中在视觉线索上,严重依赖于初始帧图像来引导后续的视频生成。然而,这种方法有其局限性,特别是在预测视频的复杂时间动态方面,包括摄像机运动和复杂的物体轨迹。为了克服这些挑战,最近的研究已经转向将文本描述和轨迹数据作为额外的控制机制。虽然这些方法取得了重大进展,但它们也有自己的限制。 让我们来认识一下DragNUWA,它解决了这些限制。 DragNUWA是一个具有细粒度控制的轨迹感知视频生成模型。它无缝集成了文本、图像和轨迹信息,提供了强大和用户友好的可控性。 使用DragNUWA生成的示例视频。来源:https://arxiv.org/pdf/2308.08089.pdf DragNUWA有一个生成逼真视频的简单公式。这个公式的三个支柱是语义、空间和时间控制。这些控制分别通过文本描述、图像和轨迹来实现。 文本控制以文本描述的形式进行。这将意义和语义注入到视频生成中。它使模型能够理解和表达视频背后的意图。例如,它可以区分真实世界中的鱼游泳和一幅画中的鱼。 对于视觉控制,使用图像。图像提供了空间上下文和细节,有助于准确地表示视频中的对象和场景。它们是文本描述的重要补充,为生成的内容增加了深度和清晰度。 这些都是我们熟悉的东西,而真正的区别在于DragNUWA在最后一个组成部分中的应用:轨迹控制。 DragNUWA采用开放域轨迹控制。而以前的模型在处理轨迹复杂性方面存在困难,DragNUWA采用了轨迹采样器(TS)、多尺度融合(MF)和自适应训练(AT)来应对这一挑战。这一创新使得可以生成具有复杂的、开放域的轨迹、逼真的摄像机运动和复杂的物体交互的视频。 DragNUWA概览。来源:https://arxiv.org/pdf/2308.08089.pdf DragNUWA提供了一个端到端的解决方案,将文本、图像和轨迹三个基本的控制机制统一起来。这种整合赋予用户对视频内容的精确和直观的控制能力。它重新构想了视频生成中的轨迹控制。它的TS、MF和AT策略实现了对任意轨迹的开放域控制,使其适用于复杂和多样化的视频场景。

Leave a Comment

首尔国立大学的研究人员介绍了一种名为Locomotion-Action-Manipulation (LAMA)的突破性人工智能方法,用于高效和适应性机器人控制

首尔国立大学的研究人员在机器人领域面临了一个根本性挑战——在动态环境下高效和适应性地控制机器人。传统的机器人控制方法通常需要大量的特定场景训练,使得计算成本昂贵且在面临输入条件变化时不灵活。这个问题在机器人必须与多样化和不断变化的环境进行交互的实际应用中尤为重要。 为了解决这个挑战,研究团队提出了一种开创性的方法,称为运动-动作-操纵(Locomotion-Action-Manipulation):LAMA。他们开发了一个针对特定输入条件进行优化的单一策略,可以处理各种输入变化。与传统方法不同,这种策略不需要针对每个独特场景进行单独训练,而是通过适应和概括其行为来显著减少计算时间,成为机器人控制的宝贵工具。 所提出的方法涉及训练一个针对特定输入条件进行优化的策略。这个策略在包括初始位置和目标动作在内的输入变化下经过严格测试。这些实验的结果证明了其鲁棒性和泛化能力。 在传统的机器人控制中,通常需要针对不同场景进行单独训练,需要大量的数据收集和训练时间。与这种方法相比,当处理不断变化的真实世界条件时,这种方法可能更加高效和适应。 研究团队的创新策略通过其高度适应性来解决这个问题。它可以处理多样化的输入条件,减少了针对每个特定场景进行大量训练的需求。这种适应性的改变不仅简化了训练过程,而且极大地提高了机器人控制器的效率。 此外,研究团队还对从该策略产生的合成运动的物理合理性进行了全面评估。结果表明,尽管该策略可以有效地处理输入变化,但合成运动的质量是保持的。这确保了机器人的运动在不同场景下保持逼真和物理上合理。 这种方法的最显著优势之一是大幅减少计算时间。在传统的机器人控制中,为不同场景训练单独的策略可能耗时且资源密集。然而,使用针对特定输入条件进行优化的预先训练策略时,无需为每个变化重新训练策略。研究团队进行了比较分析,结果显示使用预先优化的策略进行推理时计算时间显著减少,每个输入对的运动合成平均仅需要0.15秒。相反,为每个输入对从头开始训练策略平均需要6.32分钟,相当于379秒。这种计算时间上的巨大差异突出了这种方法的效率和节省时间的潜力。 这种创新的意义是巨大的。这意味着在机器人必须快速适应不同条件的真实世界应用中,这种策略可以改变游戏规则。它为更具响应性和适应性的机器人系统打开了大门,使它们在时间至关重要的情况下更加实用和高效。 总之,研究提出了一种对机器人在动态环境中进行高效和适应性控制的创新解决方案。所提出的方法,即针对特定输入条件进行优化的单一策略,为机器人控制提供了一种新的范式。 这种策略能够处理各种输入变化而无需进行大量重新训练,是一个重要的进步。它不仅简化了训练过程,而且极大地增强了计算效率。当使用预先优化的策略进行推理时,计算时间的显著减少进一步凸显了其高效性。 合成动作的评估表明,在不同的场景中,机器人运动的质量始终保持较高水平,确保它们保持物理上可行和逼真。 这项研究的影响广泛,潜在应用涵盖了从制造业到医疗保健再到自动驾驶车辆等多个行业。在这些领域中,机器人能够快速、高效地适应变化环境是一个关键特性。 总体而言,这项研究代表了机器人技术的重大进步,为其中最紧迫的挑战提供了有希望的解决方案。它为更加适应、高效、响应灵敏的机器人系统铺平了道路,使我们离一个未来更加无缝融入日常生活的机器人世界更近了一步。

Leave a Comment

推进图像修复:通过这种新颖的AI修复神经辐射场,弥合了2D和3D操作之间的差距

对于图像的处理一直存在持久的兴趣,因为它在内容创作中有着广泛的应用。其中最广泛研究的处理之一是对象的移除和插入,通常被称为图像修复任务。虽然当前的修复模型能够生成与周围图像无缝融合的视觉上令人信服的内容,但它们的适用性传统上仅限于单个2D图像输入。然而,一些研究人员正在尝试将这些模型的应用推进到对完整3D场景的处理。 神经辐射场(NeRFs)的出现使将真实的2D照片转换为逼真的3D表示更加容易。随着算法的不断改进和计算需求的降低,这些3D表示可能会变得普遍。因此,该研究旨在实现对3D NeRF的类似处理,如同对2D图像的处理一样,并特别关注修复功能。 修复3D对象存在独特的挑战,包括3D数据的稀缺性以及必须同时考虑3D几何和外观。使用NeRF作为场景表示引入了额外的复杂性。神经表示的隐式性质使得基于几何理解直接修改底层数据结构变得不切实际。此外,由于NeRF是从图像训练的,对多个视角的一致性的保持带来了挑战。对各个组成图像的独立修复可能导致视角不一致和视觉上不真实的输出。 已经尝试了各种方法来解决这些挑战。例如,一些方法旨在事后解决不一致性,如NeRF-In,通过像素损失结合视角,或者SPIn-NeRF,利用感知损失。然而,当修复的视角存在显著的感知差异或涉及复杂外观时,这些方法可能会遇到困难。 另外,还探索了单参考修复方法,通过仅使用一个修复的视角避免视角不一致。然而,这种方法引入了一些挑战,包括非参考视角的视觉质量降低、缺乏视角相关效果以及不连续问题。 考虑到上述限制,已经开发了一种新方法,实现了对3D对象的修复。 系统的输入是N个来自不同视角的图像,以及它们的相应摄像机变换矩阵和蒙版,用于标记不需要的区域。此外,还需要一个与输入图像相关的修复参考视角,该视角提供了用户期望从3D场景的修复中获取的信息。这个参考视角可以是一个简单的替代蒙版的对象的文本描述。 https://ashmrz.github.io/reference-guided-3d/paper_lq.pdf 在上述示例中,可以通过使用单图像文本条件修复器来获得“橡皮鸭”或“花盆”参考。这样,任何用户都可以控制和驱动生成具有所需编辑的3D场景。 通过专注于视角相关效果(VDEs)的模块,作者试图考虑场景中的视角相关变化(例如镜面反射和非朗伯效应)。出于这个原因,他们通过将VDEs添加到非参考视角的蒙版区域,通过校正参考颜色以匹配其他视角的周围环境,来修复蒙版区域。 此外,他们引入了单目深度估计器,根据参考图像的深度来引导修复区域的几何形状。由于不是所有蒙版目标像素在参考图像中都是可见的,因此设计了一种方法来通过额外的修复来监督这些未遮挡的像素。 下面是所提出方法的新视角渲染与最先进的SPIn-NeRF-Lama的视觉比较。 https://ashmrz.github.io/reference-guided-3d/paper_lq.pdf 这是一个关于参考引导可控补全神经辐射场的新型AI框架的摘要。如果您对此感兴趣并且想要了解更多信息,请随时参考下面引用的链接。

Leave a Comment

马里兰大学和Meta AI的研究人员提出了OmnimatteRF:一种将动态二维前景层和三维背景模型相结合的新型视频抠图方法

将视频分成许多层,每个层都有自己的阿尔法混合,并将这些层重新组合成原始视频,这就是被称为“视频抠图”的挑战。由于可以在合成之前交换或单独处理层,因此在视频编辑行业中具有许多用途,并且已经研究了几十年。需要仅关注兴趣物体的掩膜的应用包括视频制作中的描边和在线会议中的背景模糊。然而,通常希望能够生成包含不仅兴趣物体而且其相关效果(包括阴影和反射)的视频抠图。这可以提高最终剪辑影片的逼真度,同时减少对繁琐的手动分割次要效果的需求。 在对象去除等应用中,重建干净的背景是首选,而能够消除前景对象的相关影响有助于实现这一目标。尽管具有这些优势,但是由于该问题的不适定性,与标准抠图问题相比,研究较少。 Omnimatte是迄今为止解决此问题最有希望的努力。 Omnimattes是记录前景移动物体及其产生效果的RGBA层。 Omnimatte使用同伦来建模背景,这意味着它只能在背景是平面的视频或仅存在旋转运动的视频中有效。 D2NeRF通过分别使用两个辐射场对场景的动态和静态组件进行建模,努力解决这个问题。所有处理都在三个维度中进行,该系统可以处理具有大量摄像机运动的复杂场景。此外,不需要输入掩膜,使其完全是自主的。如何将定义在视频上的2D指导(如粗糙的掩膜)与之结合尚不清楚,但它确实可以有效地将所有移动物体分割出静态背景。 马里兰大学和Meta的最新研究提出了一种方法,通过使用三维背景模型和二维前景层结合了两者的优点。 难以在三维中创建的物体,动作和效果都可以通过轻量级的二维前景层来表示。同时,三维背景建模允许处理具有复杂几何形状和非旋转摄像机运动的背景,这为处理比2D方法更多样的电影铺平了道路。研究人员将这种技术称为OmnimatteRF。 实验结果表明,它在广泛的视频范围内表现出强大的性能,而无需为每个视频进行个别参数修改。 D2NeRF已经生成了一个使用Kubrics渲染的由5个视频组成的数据集,以客观分析3D环境中的背景分离。这些数据集是相对简单的内部设置,其中一些移动物体创建了实心阴影。此外,该团队还根据开源的Blender电影生成了五个视频,这些电影具有复杂的动画和照明条件,以获得更困难和逼真的场景。与过去的研究相比,两个数据集都展示了更好的性能。 如果某个部分始终位于阴影中,则背景模型将无法准确恢复该部分的颜色。由于动画层具有阿尔法通道,因此应该可以仅记录附加阴影而保留背景的原始颜色。不幸的是,目前的上下文中对此问题的边界不清晰,使得很难找到可行的解决方案。

Leave a Comment

CMU研究人员提出了一种带有槽位主导模型(Slot-TTA)的测试时间自适应方法:一种半监督模型,配备有槽位主导的瓶颈,可以同时对场景进行分割和重构

计算机视觉中最具挑战和关键性的任务之一是实例分割。在图像或三维点云中精确描绘和分类对象的能力对于各种应用至关重要,从自动驾驶到医学图像分析。多年来,在开发最先进的实例分割模型方面取得了巨大进展。然而,这些模型通常需要应对与其训练分布不同的各种真实场景和数据集。将分割模型调整以处理这些分布范围之外(OOD)的情况的挑战推动了创新研究。一种引起重大关注的开创性方法是Slot-TTA(测试时间调整)。 在快速发展的计算机视觉领域中,实例分割模型取得了显著进展,使机器能够识别和精确分割图像和三维点云中的对象。这些模型已成为许多应用的基础,从医学图像分析到无人驾驶汽车。然而,它们面临着一个常见而严峻的对手-适应各种真实世界的场景和超出其训练数据范围的数据集。无法无缝地从一个领域过渡到另一个领域在有效部署这些模型方面构成了重大障碍。 卡内基梅隆大学、Google Deepmind和Google Research的研究人员推出了一种突破性解决方案,称为Slot-TTA,以解决这一挑战。这种创新方法旨在实现实例分割的测试时间调整(TTA)。Slot-TTA将基于槽位的图像和点云渲染组件的能力与最先进的分割技术相结合。Slot-TTA的核心思想是使实例分割模型能够动态适应OOD场景,从而显著提高其准确性和多功能性。 Slot-TTA基于调整的兰德指数(ARI)作为其主要分割评估指标。它在一系列数据集上进行了严格的训练和评估,包括多视图姿势的RGB图像、单视图的RGB图像和复杂的三维点云。Slot-TTA的区别特征在于其能够利用重建反馈进行测试时间调整。这一创新涉及对以前未见过的视点和数据集的分割和渲染质量进行迭代改进。 在多视图姿势的RGB图像中,Slot-TTA显示出强大的竞争力。通过对MultiShapeNetHard(MSN)数据集进行全面评估,证明了其适应性。该数据集包含超过51,000个ShapeNet对象,精心渲染在真实世界的HDR背景下。MSN数据集中的每个场景都有九个姿势RGB渲染图像,被策略性地分为Slot-TTA的训练和测试的输入和目标视图。研究人员特别注意确保训练集和测试集之间的对象实例之间没有重叠,并且场景中存在的对象数量没有重叠。这种严格的数据集构建对于评估Slot-TTA的鲁棒性至关重要。 在评估中,Slot-TTA与几个基准进行了比较,包括Mask2Former、Mask2Former-BYOL、Mask2Former-Recon和Semantic-NeRF。这些基准是用于比较Slot-TTA在训练分布内外的性能的基准。结果令人瞩目。 首先,Slot-TTA在OOD场景中使用TTA超过了Mask2Former,这是一种最先进的2D图像分割器。这表明Slot-TTA在适应各种真实场景方面的优势。 其次,在Mask2Former-BYOL中添加来自Bartler等人(2022年)的自监督损失未能带来改进,突显出并非所有TTA方法都同样有效。 第三,Slot-TTA没有分割监督,仅用于类似于OSRT(Sajjadi等人,2022a)的跨视图图像合成的变体,与像Mask2Former这样的有监督分割器相比效果显著下降。这一观察结果强调了在训练过程中进行分割监督对于有效的TTA的必要性。 Slot-TTA的强大之处还包括合成和分解新颖的未见RGB图像视图。使用与之前相同的数据集和训练-测试划分,研究人员评估了Slot-TTA的像素精确重构质量和分割ARI准确性,用于五个新颖的未见视点。此评估包括在TTA训练期间未见过的视图。结果令人震惊。 Slot-TTA在这些未知视点上的渲染质量显著提高,展示了它在新颖场景中增强分割和渲染质量的能力。相比之下,强大的竞争对手Semantic-NeRF在这些未知视点上很难推广,突出了Slot-TTA的适应性和潜力。 总之,Slot-TTA在计算机视觉领域代表了一次重大飞跃,解决了将分割模型适应多样的现实场景的挑战。通过结合以槽为中心的渲染技术、先进的分割方法和测试时适应性,Slot-TTA在分割准确性和多功能性方面取得了显著的改进。这项研究不仅揭示了模型的局限性,还为计算机视觉领域的未来创新铺平了道路。Slot-TTA承诺在不断变化的计算机视觉领域提升实例分割模型的适应性。

Leave a Comment

麻省理工学院的研究人员创建了一个新的带注释的合成图像数据集,该数据集描绘了各种场景,以帮助机器学习模型理解场景中的概念

大规模预训练的视觉与语言模型在众多应用中展示出了非凡的性能,使得可以用无需指定固定的支持类别,而是通过(几乎任意的)自然语言查询进行零样本开放词汇推理。然而,最近的研究揭示了这些模型的一个根本缺陷。例如,它们无法理解超越名词的视觉语言概念(VLC),如非物体词语(例如属性、动作、关系、状态等)的意义,或者它们在组合推理方面的困难,如理解句子中词语顺序的重要性。 视觉与语言模型是强大的机器学习算法,可以学习将文本与图像匹配,当被要求生成视频标题或摘要时,它们展示出了非凡的结果。尽管这些模型擅长区分物体,但它们经常需要帮助理解概念,例如物体的属性或场景中物品的排列。例如,一个视觉与语言模型可能会看到图像中的杯子和桌子,但无法理解杯子在桌子上方的概念。 麻省理工学院的研究人员展示了一种利用计算机生成数据来帮助视觉与语言模型克服这个缺陷的新技术。具体而言,他们提出增强生成的视觉和文本数据的VLC和组合性方面,然后使用这些数据来微调VL模型,指导它们更加关注这些特征。此外,与实际数据始终伴随的隐私问题相比,合成数据不仅本质上是免费和无限可扩展的,而且可以不受隐私问题的限制。创建能够有效用于增强在大量实际数据上预训练的VL模型的VLC和组合性方面的合成数据,还面临其他技术挑战。与大多数以前关于生成合成视觉数据的工作不同,他们必须开发描述场景的组合元素的图像和文本。此外,他们生成利用真实物理3D模拟的合成视频,例如多样的3D环境和多样的3D物体、人体动作和动作资产,与物体的交互以及不同的摄像机角度。 以前的工作利用动作资产生成合成数据,但视觉数据没有伴随文本标题,并且需要考虑组合性。研究人员为合成视觉概念(SyViC)做出贡献,这是一个大规模(百万级)生成的合成VL数据集,具有丰富的文本标题,可以通过数据合成代码轻松扩展,以及所有先前生成的百万级合成数据。 贡献 研究人员贡献了SyViC – 一个百万级的合成数据集,具有丰富的文本注释,旨在增强VL模型的VLC理解和组合推理能力,以及其合成和潜在可扩展性的方法和生成代码库2。 有效的通用VL模型微调,利用SyViC数据改善强大的预训练VL模型的特性,而不损害其零样本性能。 实验结果和全面的消融研究表明,在最新的VL-Checklist、ARO和Winoground基准测试中,VLC理解和组合推理有显著改善(在某些情况下超过10%),并在最流行的CLIP模型及其衍生模型(例如最新的CyCLIP)上得到验证。 结果 使用所提出的方法和SyViC合成数据生成了所有模型的变体。在对SyViC进行微调之前,将每个模型与其分别在大规模实际数据上训练的源模型进行了比较。根据研究人员的发现,无论是SyViC合成数据还是提出的微调方法,都相对于各自的源基线表现出显著的改进。此外,研究人员还展示了在VL-Checklist和ARO基准测试中为CLIP获得的个别VLC指标改进,分别达到9.1%和12.6%的绝对改进。这证明了该方法和SyViC合成数据在提高VL模型的VLC理解和组合推理能力方面的效率和潜力。 在这里尝试 https://synthetic-vic.github.io/ 局限性 尽管研究人员在三个不同的基准测试中获得了相当有希望的结果,但他们的工作还存在一些限制。例如,图形模拟器对照片亮度、传感器噪声和反射函数的模型与实际世界相比较简化,可能影响颜色恒定性的稳健性。更复杂的领域适应和渲染技术可能需要进一步提高结果。此外,对合成数据的缩放规律进行更深入的研究将是充分发挥该工作潜力的一种优秀方式。 总结 大型视觉和语言模型决定了计算机视觉和多模态感知的现状,在多个困难的基准测试中取得了尖端的成果。然而,现有模型在组合推理和理解物体名词之外的概念(如属性和关系)方面需要帮助。这是第一次研究合成数据是否可以减轻这些不足。麻省理工学院的研究人员提出了一个数据生成流水线,用于创建一个百万级的合成图像数据集和相应的标题,并提供了一种高效的微调策略和全面的分析,以提高多模态模型的组合和概念理解能力,同时不影响它们的零样本分类性能。

Leave a Comment

这项人工智能研究介绍了AstroLLaMA:一种从LLaMA-2微调的70亿参数模型,使用了来自ArXiv的30万多个天文学摘要

大型语言模型(LLM)的出现引起了许多领域的关注,因为几个重要因素同时出现。这些因素包括可获得的大量数据、计算机性能的提升以及神经网络设计的突破。像GPT-4、PaLM和LLaMA这样的著名模型表明,它们能够非常好地完成许多不同的任务。这些任务通常使用的方法包括给它们提示、微调它们的能力以及从人类那里获得反馈来帮助它们学习和改进。天文学学科既是一个独特的挑战,也是LLMs应用的肥沃土壤。 在上面的图片中,我们可以注意到每个模型都以相同的短文本片段为提示,在各自的框中进行了突出显示。GPT-4往往产生更加通用的陈述,缺乏领域特定的细微差别。AstroLLaMA展示了最强大的完成能力,提供了更相关的概念和更深入的洞察,特别适用于天文学领域,因此在性能上显著优于LLaMA-2和GPT-4。 然而,AstroLLaMA确实存在一些需要认识到的局限性。一个重要的局限性是模型在天文学特定领域的知识缺乏,AstroLLaMA从Gaia-ESO数据中估计潜在星体候选者的能力明显不准确。为了解决这些问题,研究人员目前正在努力增强AstroLLaMA的训练数据集。研究人员计划不仅使用摘要,还将纳入现有天文学文章的完整LaTeX源代码。这样的扩展将大大增加模型能够学习的令牌数量。 AstroLLaMA是专门为天文学设计的令人印象深刻的大型语言模型(LLM)的原型。它展示了非凡的上下文感知能力,即使它的参数大大少于GPT-4,也能胜过GPT-4。这一进展不仅为回答问题、总结科学内容和生成假设等各种任务的性能提供了机会,而且对于多模型模型也具有重要意义。

Leave a Comment

遇见Würstchen:一个超快速和高效的扩散模型,其文本条件组件在高度压缩的图像潜空间中运作

文本到图像生成是人工智能领域中的一项具有挑战性的任务,它涉及从文本描述中创建图像。这个问题计算量大,并且训练成本高昂。对高质量图像的需求进一步加剧了这些挑战。研究人员一直在努力在这个领域中平衡计算效率和图像保真度。 为了高效解决文本到图像生成问题,研究人员引入了一种创新的解决方案,称为Würstchen。这个模型通过采用独特的两阶段压缩方法在该领域中脱颖而出。阶段A采用VQGAN,而阶段B使用扩散自动编码器。这两个阶段一起被称为解码器。它们的主要功能是将高度压缩的图像解码成像素空间。 Würstchen之所以与众不同,是因为它具有出色的空间压缩能力。而以前的模型通常只能实现4倍到8倍的压缩比,Würstchen通过实现了惊人的42倍空间压缩,突破了常见方法的局限性,这些方法在16倍空间压缩后往往难以忠实地重建详细图像。 Würstchen的成功归功于它的两阶段压缩过程。阶段A,即VQGAN,在将图像数据量化为高度压缩的潜空间中发挥关键作用。这种初始压缩显著减少了后续阶段所需的计算资源。阶段B,即扩散自动编码器,进一步改进了这种压缩表示,并以卓越的保真度重建图像。 将这两个阶段结合起来,就产生了一个能够从文本提示中高效生成图像的模型。这降低了训练的计算成本,提高了推断速度。重要的是,Würstchen在图像质量上没有妥协,使其成为各种应用的一个引人注目的选择。 此外,Würstchen还引入了阶段C,即先验,它是在高度压缩的潜空间中训练的。这为模型增加了额外的适应性和效率。它使Würstchen能够快速适应新的图像分辨率,最大限度地减少了针对不同场景进行微调的计算开销。这种适应性使其成为研究人员和组织在处理不同分辨率图像时的多功能工具。 Würstchen的训练成本降低可通过以下事实得以体现:Würstchen v1在512×512分辨率下只需要9000个GPU小时,而相同分辨率下的稳定扩散1.4则需要150,000个GPU小时。这种大幅降低的成本使研究人员可以更好地进行实验,并使组织更容易利用这种模型的强大功能。 总而言之,Würstchen为文本到图像生成领域的长期挑战提供了一种突破性的解决方案。其创新的两阶段压缩方法和令人瞩目的空间压缩比在效率方面树立了新的标准。通过降低训练成本和快速适应不同图像分辨率,Würstchen成为加速文本到图像生成领域的研究和应用开发的有价值的工具。

Leave a Comment

“解锁视觉Transformer中的效率:稀疏移动视觉MoEs在资源受限应用中胜过密集对应物”

一种称为Mixture-of-Experts (MoE)的神经网络架构将各种专家神经网络的预测结果结合起来。MoE模型处理复杂的工作,其中问题的几个子任务或元素需要专门的知识。它们的引入是为了增强神经网络的表示能力,并使其能够处理各种具有挑战性的任务。 此外,一种称为稀疏门控Mixture-of-Experts (MoE)模型的神经网络架构通过在门控机制中添加稀疏性来扩展传统的MoE模型的概念。这些模型的创建旨在提高MoE设计的效率和可扩展性,使其能够处理大规模的任务,并降低计算成本。 由于它们能够在每个给定的输入标记上独占激活模型参数的一小部分,它们可以将模型大小与推理效率分离。 在使用神经网络(NNs)时,尤其是当只有少量计算资源可用时,平衡性能和效率仍然是困难的。最近,稀疏门控Mixture-of-Experts模型(稀疏MoEs)被视为潜在的解决方案,它们可以将模型大小与推理效果分离。 稀疏MoEs提供了增加模型功能同时降低计算成本的可能性。这使得它们成为与Transformer集成的选择,后者是大规模视觉建模的主要架构选择。 因此,苹果研究团队在他们的论文《Mobile V-MoEs: Scaling Down Vision Transformers via Sparse Mixture-of-Experts》中介绍了稀疏Mobile Vision MoEs的概念。这些V-MoEs是一种高效、适用于移动设备的Mixture-of-Experts设计,能够在缩小视觉Transformer(ViTs)的同时保持卓越的模型性能。 研究人员强调他们开发了一种简单而强大的训练过程,通过利用语义超类来引导路由器训练,避免了专家不平衡的问题。它使用每个图像一个路由器,而不是每个补丁的路由器。在传统的每个补丁的路由器中,通常为每个图像激活更多的专家。然而,每个图像一个路由器减少了每个图像激活的专家数量。 研究团队通过训练基线模型开始训练阶段。然后,在训练数据集中保留的验证集上记录了模型的预测结果,创建了一个混淆矩阵。然后,使用这个混淆矩阵作为基础,对混淆图进行图聚类算法处理。由此过程形成了超类划分。 他们表示该模型在标准的ImageNet-1k分类基准测试上呈现了实证结果。他们从头开始在包含1.28M个图像的ImageNet-1k训练集上训练了所有模型,然后在包含50K个图像的验证集上评估了它们的Top-1准确率。 研究人员希望将MoE设计应用于除了ViTs之外的其他移动设备友好的模型。他们还打算考虑其他视觉任务,如目标检测。此外,他们希望对所有模型的实际设备延迟进行量化。

Leave a Comment

微软研究人员提出了InstructDiffusion:一种统一且通用的人工智能框架,用于将计算机视觉任务与人类指令对齐

在向可适应、普适视觉模型迈出重大一步的突破性进展中,来自微软亚洲研究院的研究人员发布了InstructDiffusion。这一创新性框架通过为多种视觉任务提供统一的接口,革命性地改变了计算机视觉领域的格局。论文《InstructDiffusion: A Generalist Modeling Interface for Vision Tasks》介绍了一种能够同时处理各种视觉应用的模型。 InstructDiffusion的核心是一种新颖的方法:将视觉任务构建为人类直观的图像处理过程。与依赖预定义输出空间(如类别或坐标)的传统方法不同,InstructDiffusion在灵活的像素空间中运作,更接近人类感知。 该模型旨在根据用户提供的文本指令修改输入图像。例如,“在红色中圈出男人的右眼”这样的指令可以使模型适用于关键点检测等任务。同时,“将蓝色掩码应用于最右侧的狗”这样的指令可用于分割。 支撑该框架的是去噪扩散概率模型(DDPM),它生成像素输出。训练数据包括三元组,每个三元组由指令、源图像和目标输出图像组成。该模型被设计为处理三种主要输出类型:RGB图像、二值掩码和关键点。这涵盖了广泛的视觉任务,包括分割、关键点检测、图像编辑和增强。 关键点检测 a) 在鲸鱼的右眼周围创建一个黄色圆圈。 (b) 用蓝色圆圈标记汽车标志。 分割 a) 将镜子中猫的像素标记为蓝色,其他保持不变。 (b) 将阴影像素涂成蓝色,保持其他像素的当前外观。 图像编辑 模型生成的图像结果 低级任务 InstructDiffusion也适用于包括图像去模糊、去噪和去水印在内的低级视觉任务。…

Leave a Comment

如何测量神经辐射场的不确定性?介绍BayesRays:一种为NeRFs提供的革命性后处理框架

创建3D模型可以比2D图像提供更沉浸式和逼真的场景表现。它们允许观众从不同角度探索和与场景进行交互,提供对空间布局和信息深度的更好理解。 这对虚拟现实(VR)和增强现实(AR)应用非常重要。它们可以将数字信息叠加到真实世界上(AR),或创建完全虚拟的环境(VR),提升游戏、教育、培训和各种行业的用户体验。 神经辐射场(NeRFs)是一种用于3D场景重建和渲染的计算机视觉技术。NeRF将场景视为一个3D体积,其中体积中的每个点都有相应的颜色(辐射)和密度。神经网络通过基于不同视角拍摄的2D图像预测每个点的颜色和密度。 NeRFs具有多个应用,例如视图合成和深度估计,但从多视图图像中学习具有固有的不确定性。目前用于量化不确定性的方法要么是启发式的,要么是计算开销很大的。Google DeepMind、Adobe Research和多伦多大学的研究人员引入了一种名为BayesRays的新技术。 它由一个框架组成,用于评估任何预训练的NeRF的不确定性,而无需修改训练过程。通过使用空间扰动和贝叶斯拉普拉斯近似添加体积不确定性场,他们能够克服NeRFs的局限性。贝叶斯拉普拉斯近似是一种用简单的多变量高斯分布近似复杂概率分布的数学方法。 他们计算出的不确定性在统计学上是有意义的,并且可以渲染为额外的颜色通道。他们的方法在关键指标(如与重建深度误差的相关性)上也优于先前的工作。他们使用了一种即插即用的概率方法来量化任何预训练的NeRF的不确定性,而不受其架构的影响。他们的工作提供了一种实时去除预训练NeRFs中伪影的阈值。 他们表示,他们构建他们的方法的灵感来自使用体积场对3D场景建模。体积变形场通常用于操作隐式表示的对象。他们的工作也类似于摄影测量学,其中重建不确定性通常通过在已识别的空间位置上放置高斯分布来建模。 最后,他们表示他们的算法仅限于量化NeRFs的不确定性,并且不能简单地转化为其他框架。然而,他们未来的工作涉及针对更近期的空间表示(如3D高斯喷洒)制定类似基于变形的拉普拉斯近似的方法。

Leave a Comment

UCLA研究人员介绍了一种基于宽带衍射光学神经网络设计的多光谱QPI系统

定量相位成像(QPI)是许多科学和显微镜领域的先进成像方法。它可以量化并观察透明或半透明材料中光的光程差异。利用这种无创、无标记的技术,可以了解样品内的折射率分布和厚度变化。 多光谱定量相位成像(QPI)系统在这个基本原理的基础上构建,通过在感兴趣的波长或光谱带范围内获取多个相位图像。QPI通过评估光与样品相互作用时所经历的相位偏移来获取关于样品的折射率和厚度的信息。 QPI是一种灵活的技术,可以在传统的生物医学学科之外的领域中使用,如细胞生物学、病理学和生物物理学。它在多个科学领域中都有用途,包括表面科学用于评估生物界面,材料科学用于表征光学组件、薄膜和纳米颗粒。它的能力包括研究亚细胞结构和过程,实时监测细胞生长和行为,癌症检测,病原体检测,薄膜厚度测量,光学质量评估和表面粗糙度分析。 因此,研究人员对QPI进行了深入研究,加利福尼亚大学洛杉矶分校(UCLA)电气与计算机工程系的研究人员提出了一种新的多光谱QPI设计。 这种方法使用深度学习创建宽带衍射光学网络,使得可以在单个快照中获取跨多个光谱带的定量相位图像。光学网络使用多个空间结构化的介质衍射层,每个层都有数十万个经过优化用于深度学习的透射衍射特征。 在制造出的衍射层后,光学网络将多光谱QPI信号光路到预定的空间位置处,在输出平面上进行单色焦平面阵列的强度分布测量,并提取输入对象在预定波长处的相位剖面。 这个光学网络通过深度学习优化输入对象的多光谱相位信息,将其转化为输出视场中分别空间编码每个目标光谱带的物体相位信息的不同强度分布。 QPI由两个主要组件组成。一个组件是图像前端,负责进行光学干涉以将所需的相位信息转化为可以使用数字图像传感器记录的强度级别,另一个组件是数字处理后端任务,用于根据这些信号执行必要的图像处理和定量相位图像重建。 为了测试系统的准确性,研究人员通过对新类型的前所未见的物体进行成像来验证了其能力。研究表明,这是一个多功能、通用的多光谱定量相位成像仪,适用于各种应用。

Leave a Comment

遇见LLaSM:一个端到端训练的大型多模态语音语言模型,具有跨模态对话能力,能够遵循语音和语言指令

语音比写作传递更多信息,因为它携带了语义和声音等语言信息。此外,与AI进行交流时,说话是一种更实用和有机的方式。因此,在创建通用助手时,遵循语音和语言的指导原则至关重要。然而,大多数大型语言模型只接受文本输入,限制了其潜力。尽管多模态视觉和语言模型在通用人工智能(AGI)方面取得了重大进展,但人类通过输入文本指令来输入任务仍然很繁琐。 级联范式方法使用自动语音识别(ASR)模型将语音输入转换为文本输入,然后模型可以利用该文本输入来处理任务。从语音到文本的模态转换仍然会导致信息消耗,并可能导入ASR系统错误。最近,具有处理和生成语音和文本的大型语言模型的语言语音多模态模型已能够理解和制作多模态信息。语音信号被分成不同的标记,并扩展到LLM的词汇中。从这个意义上说,LLM需要大量的多模态数据和强大的计算资源来重新训练。 本研究的来自LinkSoul.AI、北京大学和01.ai的作者建议LLaSM,这是一个具有跨模态对话能力的大型语音和语言模型,可以理解和遵守口头指令。他们使用训练有素的语音模态编码器和LLM,就像LLaVA一样,这使得LLaSM更加资源友好。他们专门使用Whisper作为音频编码器来整合语音信号。将大型语言模型的输入文本嵌入与使用模态适配器的语音嵌入进行匹配。为了创建交替的序列,将语音和文本嵌入组合在一起。然后将交替的序列馈送到LLM进行监督微调。 训练过程分为两个阶段。在初始阶段,他们使用公共ASR数据集进行模态适应预训练。只有模态适配器被训练以对齐语音和文本嵌入,LLM和语音编码器已被锁定。由于在这个阶段引入了模态适配器的一小部分参数,并且大部分模型参数仍需固定,因此不需要消耗大量资源。在第二步中,使用跨模态指令数据训练模型以处理多模态指令和分析跨模态交互。在进行跨模态教育时,语言模型和模态适配器的设置正在修改,而音频编码器则被冻结。 值得注意的是,目前很少有开源的语音-文本跨模态指令遵循数据集可用。因此,他们创建并发布了LLaSM-Audio-Instructions数据集。该数据集是通过精心选择GPT4-LLM、ShareGPT和WizardLM中的对话,并使用文本到语音技术创建大量的对话音频数据而生成的。据他们所知,这是最大的中英文语音-文本跨模态指令遵循数据集,包含19.9万个对话、8万个中文音频样本和42.8万个英文音频样本。 他们的研究贡献如下: • 他们创建了一个能够理解和执行语音-语言指令的语音-语言多模态模型,为人们与人工智能进行交流提供了更实用和有机的方式。 • 他们创建并发布了LLaSM-Audio-Instructions,这是一个结合了中文和英文语音和文本的大型跨模态指令遵循数据集。 • 可以在HuggingFace在线上查看演示,并在GitHub上获取代码。

Leave a Comment

阿里巴巴推出两个开源大型视觉语言模型(LVLM):Qwen-VL和Qwen-VL-Chat

在不断发展的人工智能领域中,图像理解与文本交互之间的差距一直是一个持久的挑战。这个难题让许多人寻求创新的解决方案。虽然近年来AI社区取得了显著的进展,但仍然迫切需要多功能、开源的模型,能够理解图像并以精细的方式回答复杂的查询。 现有的解决方案确实为AI的进步铺平了道路,但它们往往在无缝地融合图像理解和文本交互方面存在不足。这些局限性推动了对更复杂模型的追求,这些模型能够应对图像文本处理的多方面需求。 阿里巴巴推出了两个开源的大视觉语言模型(LVLM)- Qwen-VL和Qwen-VL-Chat。这些AI工具已经成为理解图像和解决复杂查询的有希望的答案。 首先,Qwen-VL是这些模型中的第一个,它被设计成阿里巴巴的70亿参数模型“通译千文”的复杂后代。它展示了处理图像和文本提示的卓越能力,在制作引人入胜的图像标题和回答与各种图像相关的开放问题等任务方面表现出色。 另一方面,Qwen-VL-Chat通过应对更复杂的交互将概念推向更远。这个AI模型通过高级对齐技术赋能,展示了一系列出色的才华,从根据输入图像创作诗歌和叙述,到解决嵌入图像中的复杂数学问题。它重新定义了英语和中文中文本-图像交互的可能性。 这些模型的能力得到了令人印象深刻的指标的支持。例如,Qwen-VL在训练期间展示了处理更大图像(448×448分辨率)的能力,超过了限于较小图像(224×224分辨率)的类似模型。它还在涉及图片和语言的任务中显示出色,可以在没有先验信息的情况下描述照片,回答有关照片的问题,并检测图像中的对象。 另一方面,Qwen-VL-Chat在理解和讨论单词和图像之间关系方面胜过其他AI工具,如阿里巴巴云在基准测试中设定的。它展示了在涉及300多张照片、800个问题和27个不同类别的对话中,用中文和英文进行关于图片的对话的优秀能力。 这一发展最令人兴奋的方面也许是阿里巴巴对开源技术的承诺。该公司打算为全球社区提供这两个AI模型作为开源解决方案,使其在全球范围内免费使用。这一举措使开发人员和研究人员能够利用这些尖端能力进行AI应用,无需进行广泛的系统培训,从而降低开支并使先进的AI工具更加普及。 总之,阿里巴巴推出的Qwen-VL和Qwen-VL-Chat代表了AI领域在无缝整合图像理解和文本交互方面迈出的重要一步。这些开源模型以其令人印象深刻的能力有望重塑AI应用的格局,促进创新和全球范围内的可访问性。AI社区翘首以待这些模型的发布,AI驱动的图像-文本处理的未来看起来充满了希望和可能性。

Leave a Comment

来自UCLA和Google的研究人员提出了AVIS:一种突破性的人工智能框架,用于自主信息搜索和视觉问答

GPT3、LaMDA、PALM、BLOOM和LLaMA只是一些大型语言模型(LLMs)的例子,它们展示了存储和应用大量信息的能力。它们展示了新的技能,如上下文学习、代码创作和常识推理。最近的一个发展是训练LLMs同时处理视觉和语言数据。GPT4、Flamingo和PALI是三个著名的视觉语言模型(VLMs)的例子。它们在许多任务上建立了新的基准,包括图片标题生成、视觉问答和开放词汇识别。虽然最先进的LLMs在涉及文本信息检索的任务上表现远远优于人类,但最先进的VLMs在Infoseek、Oven和OK-VQA等视觉信息检索数据集上表现较差。 由于多种原因,当今最先进的视觉语言模型(VLMs)很难对这类查询做出令人满意的回答。首先,需要教导年轻人识别图像中的细粒度类别和细节。其次,它们的推理必须更加强大,因为它们使用的语言模型比最先进的大型语言模型(LLMs)要小。最后,与图像搜索引擎不同,它们没有将查询图像与带有不同元数据的大量图像语料库进行比对。在这项研究中,来自加州大学洛杉矶分校(UCLA)和谷歌的研究人员提供了一种新方法来克服这些障碍,通过将LLMs与三种不同类型的工具相结合,实现了在视觉信息检索任务上的最先进性能。 辅助视觉信息提取的计算机程序包括对象检测器、光学字符识别软件、图片标题生成模型和视觉质量评估软件。 发现外部世界数据和信息的在线资源 通过挖掘与视觉相关的图像的元数据,找到图像搜索中的相关结果的方法。 该方法采用由LLM驱动的规划器来决定使用哪种工具以及向其发送什么查询。此外,研究人员使用由LLM驱动的推理器来检查工具的结果并提取相关数据。 首先,LLM将查询简化为策略、程序或一组指令。之后,激活适当的API来收集数据。虽然在简单的视觉语言挑战中有所希望,但在更复杂的现实场景中,这种方法通常需要进行修订。这样的初始查询无法确定一个全面的策略。相反,它需要根据持续的数据进行持续迭代。流动决策能力是所提出策略的关键创新。由于任务的复杂性,对于需要视觉信息的问题,规划器必须进行多步骤的规划过程。规划器必须决定在每个阶段使用哪个API以及提交什么查询。它只能预测像图像搜索这样的复杂API的答案的效用,或者在调用它们后预测它们的输出。因此,研究人员选择了一种动态策略,而不是传统的方法,包括对流程阶段和API调用进行预先规划。 研究人员进行了一项用户研究,以更好地了解人们在与API交互以查找视觉信息时如何做出选择。为了使大型语言模型(LLM)能够在选择API和构建查询时做出明智的选择,他们将这些信息编制成一个系统框架。从收集到的用户数据中,系统有两种主要的受益方式。首先,他们通过推断用户动作的顺序来构建一个转换图。该图定义了状态之间的边界以及每个状态可以采取的步骤。其次,他们为规划器和推理器提供了有用的用户决策示例。 主要贡献 团队提出了一种创新的视觉问答框架,使用大型语言模型(LLM)来制定使用外部工具的策略并调查其输出,从而学习提供答案所需的知识。 团队利用用户研究结果,创建了一个系统化的计划。该框架指导大型语言模型(LLM)在选择API和构建查询时模拟人类决策。 该策略在Infoseek和OK-VQA这两个基于知识的视觉问答基准上优于最先进的解决方案。特别是,与PALI在Infoseek(未知实体分割)数据集上的16.0%准确率相比,我们的结果显著提高,达到50.7%。 APIs和其他工具 AVIS(自主视觉信息查询与大型语言模型)需要一套强大的资源来回答需要适当深入信息检索的视觉查询。 图像字幕模型 视觉问答模型 物体检测 图像搜索 OCR 网络搜索 LLM短问答 限制 目前,AVIS的主要功能是为问题提供视觉回答。研究人员计划扩大基于LLM的动态决策系统的范围,以整合其他推理应用。当前框架还需要PALM模型,这是一个计算复杂的LLM。他们想要确定是否可以使用更小、计算负荷较轻的语言模型做出同样的决策。 总之,加州大学洛杉矶分校和谷歌的研究人员提出了一种新方法,使大型语言模型(LLM)能够访问广泛的资源来处理面向视觉的知识查询。该方法基于对人类决策制定的用户研究数据。它使用一个结构化框架,其中由LLM驱动的规划器选择要使用的工具以及如何即时构建查询。所选工具的输出将被处理,由9个LLM驱动的推理器将提取关键信息。视觉问题被分解成较小的部分,并且规划器和推理器共同使用各种工具来解决每个部分,直到积累足够的数据来回答问题。

Leave a Comment

AI能否真正从低质量图像中还原面部细节?认识DAEFR:一种用于增强质量的双分支框架

在图像处理领域中,从质量较差的面部照片中恢复高清信息仍然是一项困难的任务。由于这些图像经历了许多降级,经常导致关键信息的丢失,这些活动本质上很困难。这个问题凸显了低质量和高质量照片之间的质量差异。接下来的问题是是否可以利用低质量领域的固有特性来更好地理解和改善面部修复的过程。 最近的方法已经融入了码本先验、自动编码器和高质量特征集来解决这个问题。然而,这些方法仍然有一个显著的弱点。它们通常依赖于一个仅在高质量数据上训练的单个编码器,忽略了低质量图像所具有的特殊复杂性。虽然创新,但这种方法可能无意中扩大了领域差距,错过了低质量数据的细微差别。 最近有一篇新的论文提出了一个新的解决方案来解决这些问题。这种方法使用额外的“低质量”分支从模糊或不清晰的图像中提取重要细节,将其与更清晰的图像细节结合起来,以改善面部图像恢复。 他们的工作有以下几个突出之处: 1. 他们添加了一个特殊的工具来捕捉低质量图像的独特特征,弥合了清晰和不清晰图像之间的差距。 2. 他们的方法混合了低质量和高质量图像的细节。这种混合有助于克服图像恢复中的常见问题,导致更清晰、更好的结果。 3. 他们引入了一种称为DAEFR的技术来处理模糊或不清晰的面部图像。 具体而言,他们的方法包括以下几个关键步骤: 离散码本学习阶段:他们为HQ和LQ图像建立码本。使用向量量化,他们训练一个自编码器进行自重构,以捕捉领域特定的信息。这个阶段产生了HQ和LQ领域的编码器和码本。 关联阶段:他们借鉴了CLIP模型的灵感,将HQ和LQ领域的特征进行关联。来自领域特定编码器的特征被展平成补丁,构建相似性矩阵。该矩阵以空间位置和特征级别的接近度来衡量这些补丁之间的接近程度。目标是最小化领域差距,产生两个整合了来自两个领域信息的关联编码器。 特征融合和编码预测阶段:在获得关联编码器后,使用这两个编码器对LQ图像进行编码。一个多头交叉注意力模块将这些编码器的特征进行融合,生成一个融合特征,包含来自HQ和LQ领域的信息。随后,一个Transformer预测HQ码本的相关编码元素,这些元素由解码器用于生成恢复的HQ图像。 作者通过一系列实验评估了他们的方法。他们使用PyTorch框架在70,000张高质量人脸图像的FFHQ数据集上训练了他们的模型。这些图像经过调整大小和合成降级以供训练。对于测试,他们选择了四个数据集:CelebA-Test和三个真实世界的数据集。他们的评估指标包括具有真实值的数据集的PSNR和SSIM,以及没有真实值的真实世界数据集的FID和NIQE。与最先进的方法相比,他们的DAEFR模型在真实世界数据集上展现出了更好的感知质量,并在合成数据集上展现出了竞争性的性能。此外,消融研究表明使用两个编码器是最优的,他们提出的多头交叉注意力模块改善了特征融合,突显了该方法在恢复退化图像方面的有效性。 总而言之,本文介绍了一篇新的论文,旨在解决图像恢复的挑战,特别是针对低质量的面部照片。研究人员引入了一种新颖的方法DAEFR,利用高质量和低质量图像特征来产生更清晰、更精细的恢复结果。这种方法独特地使用了一个双编码器系统,一个用于高质量图像,一个用于低质量图像,弥合了两个领域之间的差距。该解决方案经过了严格的评估,显示出比以前的方法有显著的改进。该论文的研究结果强调了DAEFR在提高图像处理领域的潜力,为更准确的面部图像恢复铺平了道路。

Leave a Comment

这篇人工智能AI研究提出了SAM-Med2D:关于将SAM应用于医学2D图像的最全面的研究

通过识别和分离不同的组织、器官或感兴趣区域,医学图像分割对于研究医学图片至关重要。临床医生可以使用准确的分割来帮助他们定位和准确确定疾病区域,以获得更精确的诊断和治疗。此外,通过对医学图片进行定量和定性分析,提供了对各种组织或器官的形态、结构和功能的全面洞察,从而实现了对疾病的研究。由于医学成像的特殊性,例如各种模态的广泛应用、复杂的组织和器官结构以及缺乏注释数据,目前大多数现有方法都局限于特定的模态、器官或病理。  由于这种限制,算法很难推广和修改以在不同的临床环境中使用。最近,朝着大规模模型的推进在人工智能社区中引起了激动。像ChatGPT2、ERNIE Bot 3、DINO、SegGPT和SAM这样的通用AI模型的发展使得可以使用单一模型进行各种任务。使用SAM,这个最新的大规模视觉模型,用户可以通过交互式点击、绘制边界框或使用口头提示来创建特定感兴趣区域的遮罩。人们对它在各个领域的零样本和小样本能力已经付出了相当多的关注。  一些工作也集中在将SAM的零样本能力应用于医学成像领域。然而,SAM难以推广到多模态和多对象的医学数据集,导致不同数据集之间的分割性能不稳定。这是因为自然图像和医学图像之间存在相当大的领域差距。这种差距可以归因于获取数据的方法:由于其特定的临床目的,医学图片是使用特定的协议和扫描仪获取的,并以各种模态(电子、激光、X射线、超声、核物理和磁共振)显示。因此,这些图像与真实图像有很大的偏差,因为它们依赖于各种基于物理学特征和能源源的特性。  如图1所示,自然图像和医学图像在像素强度、颜色、纹理和其他分布特征方面有明显的差异。由于SAM仅在自然图片上进行训练,它需要更多关于医学成像的专业信息,因此不能立即应用于医疗领域。由于高昂的注释成本和不一致的注释质量,向SAM提供医学信息是具有挑战性的。医学数据的准备需要专业知识,而这些数据的质量在机构和临床试验之间存在很大差异。由于这些困难,医学和自然图像的数量差异很大。  图1中的条形图比较了公开可用的自然图像数据集和医学图像数据集的数据量。例如,作为医学领域最大的公共分割数据集,Totalsegmentor与Open Image v6和SA-1B相比也存在显著差距。在本研究中,四川大学和上海人工智能实验室的研究人员提出了SAM-Med2D,这是关于将SAM应用于医学2D图像的最全面的研究,旨在将SAM从自然图像转移到医学图像领域。这将为医学图像分析领域的研究人员提供基准模型和评估框架,以进行探索和改进。 

Leave a Comment

“弗拉明戈和DALL-E互相理解吗?探索图像描述和文本到图像生成模型之间的共生关系”

多模态研究近来在文本和视觉的计算机理解方面取得了重大进展。通过像DALL-E和稳定扩散(SD)这样的文本到图像生成模型,可以将现实世界环境中的复杂语言描述转化为高保真度的视觉图像。另一方面,像Flamingo和BLIP这样的图像到文本生成模型展示了理解图片中复杂语义的能力,并提供连贯的描述。尽管文本到图像生成和图片描述任务非常相关,但它们通常被独立研究,这意味着这些模型之间的交互需要被探索。文本到图像生成模型和图像到文本生成模型能否相互理解是一个有趣的话题。 为了解决这个问题,他们使用了一个称为BLIP的图像到文本模型为特定图像创建文本描述。然后,将这个文本描述输入到一个名为SD的文本到图像模型中,生成一个新的图像。他们认为,如果生成的图片与源图片相似,BLIP和SD可以相互交流。通过共同的理解,每一方对潜在理念的理解能力可以得到提高,从而实现更好的描述和图像合成。这个概念在图1中得到了展示,顶部标题导致了对原始图片更准确的重建,并且比底部标题更好地代表了输入图片。 https://arxiv.org/abs/2212.12249 来自慕尼黑大学,西门子公司和牛津大学的研究人员开发了一个重建任务,其中DALL-E使用Flamingo为给定的图像生成描述,从而合成一张新的图片。他们创建了两个重建任务,文本-图像-文本和图像-文本-图像,来测试这个假设(见图1)。对于第一个重建任务,他们计算使用预训练的CLIP图像编码器提取的图像特征之间的距离,以确定重建的图片和输入图片的语义相似度。然后,将生成的文本的质量与人工标注的标题进行比较。他们的研究表明,生成的文本的质量影响重建的表现。这导致他们的第一个发现:能够重建原始图片的描述是图片的最佳描述。 类似地,他们创建了相反的任务,SD从文本输入创建一张图片,然后BLIP从创建的图片创建文本。他们发现,产生原始文本的图片是最好的文本插图。他们假设在重建过程中,输入图片的信息在文本描述中被准确地保留下来。这个有意义的描述导致了对成像模态的忠实恢复。他们的研究为细调提供了一个独特的框架,使文本到图像和图像到文本模型更容易相互交流。 具体来说,在他们的范式中,生成模型从重建损失和人工标签中获得训练信号。一个模型首先为另一种模态的特定图片或文本创建一个表示,然后不同的模型将这个表示翻译回输入模态。重建组件创建一个正则化损失,来引导初始模型的细调。他们以这种方式得到了自我监督和人类监督,增加了生成会导致更准确的重建的可能性。例如,图像字幕模型需要偏好不仅与标记的图像-文本配对相对应的标题,还需要偏好那些可以产生可靠重建的标题。 相互代理通信与他们的工作密切相关。代理之间的主要信息交流方式是语言。但是,他们如何确保第一个和第二个代理对猫或狗的定义是一样的呢?在这项研究中,他们要求第一个代理检查一张图片并生成描述它的句子。在获得文本后,第二个代理根据它来模拟一张图片。后一阶段是一种具体化过程。根据他们的假设,如果第二个代理对输入图片的模拟接近第一个代理接收到的输入图片,那么通信就是有效的。从根本上说,他们评估了语言的有用性,语言作为人类的主要交流方式。特别是,他们的研究中使用了新建立的大规模预训练图片字幕模型和图像生成模型。多项研究证明了他们提出的框架在无需训练和细调情况下对各种生成模型的好处。特别是,在无需训练的范式中,他们显著提高了字幕和图片的生成,而在细调中,两种生成模型都取得了更好的结果。 以下是他们的关键贡献的概要: • 框架:据他们所知,他们是第一个研究如何通过易于理解的文本和图片表示来传达传统的图像到文本和文本到图像生成模型的人。相比之下,类似的工作通过嵌入空间隐式地集成了文本和图片的创建。 • 发现:他们发现评估文本到图像模型创建的图片重建可以帮助确定字幕的写作质量。能够最准确重建原始图片的字幕应该用于该图片。类似地,最佳的字幕图像是能够最准确重建原始文本的图像。 • 增强:根据他们的研究,他们提出了一个全面的框架来改进文本到图像和图像到文本模型。文本到图像模型计算的重建损失将用作细调图像到文本模型的正则化,图像到文本模型计算的重建损失将用于细调文本到图像模型。他们研究并确认了他们方法的可行性。

Leave a Comment

揭示解剖分割的秘密:HybridGNet——用于合理解码解剖结构的AI编码器-解码器

深度神经网络的最新进展使得解剖分割有了新的方法。例如,利用深度卷积神经网络(CNN)在生物医学图像的解剖分割方面取得了最先进的性能。传统的策略采用标准的编码器-解码器CNN架构,使用带注释的数据集来预测像素级分割。虽然这种方法适用于拓扑在个体间不保持一致的场景,如病变分割,但对于具有规则拓扑结构的解剖结构来说可能不是理想的。深度分割网络通常被训练来最小化像素级损失函数,但这可能不保证解剖合理性,因为它对全局形状和拓扑不敏感。这可能导致出现碎片化结构和拓扑不一致等伪影。 为了缓解这些问题,结合先验知识和形状约束变得至关重要,特别是对于疾病诊断和治疗规划等下游任务。与密集的像素级遮罩相比,统计形状模型或基于图的表示等替代方法提供了一种更自然的方式来包含拓扑约束。图,特别是提供了一种表示标志点、轮廓和表面的方法,可以实现拓扑的正确性。几何深度学习将CNN扩展到非欧几里德域,促进了图数据的判别和生成模型的发展。这些进展使得能够进行准确的预测,并生成与特定分布对齐的真实图结构。 根据上述考虑,引入了新的HybridGNet架构,以在图像特征编码中利用基于标志点的分割的优势。 架构概述如下图所示。 HybridGNet结合了基于图神经网络(GCNN)的生成模型,以创建解剖学上准确的分割结构。它通过标准卷积处理输入图像,并通过对“瓶颈潜在分布”进行采样来生成基于标志点的分割,这是一个包含图像关键信息的紧凑编码表示。从该分布中进行采样使得模型能够根据编码的图像特征创建多样且合理的分割输出。采样后,进行了重塑和图域卷积。 此外,根据局部图像特征可能有助于产生更准确的标志点位置估计的假设,提出了一种名为Image-to-Graph Skip Connection (IGSC)模块。类似于UNet的跳跃连接,IGSC模块结合了图解缩操作,允许特征图从编码器流向解码器,从而增强了模型恢复细节的能力。 下图显示了从研究中选择的样本结果。这些可视化结果提供了HybridGNet和最先进方法之间的比较概览。 这就是HybridGNet的摘要,一种新颖的AI编码器-解码器神经架构,利用标准卷积进行图像特征编码,并利用图卷积神经网络(GCNN)解码解剖结构的合理表示。如果您感兴趣并想更多了解,请随时参考下面引用的链接。

Leave a Comment

Meta AI在计算机视觉公平性方面的两项新尝试:引入DINOv2许可证和发布FACET

在不断发展的计算机视觉领域中,一个紧迫的问题是确保公平性。这篇文章揭示了人工智能技术(尤其是计算机视觉)中潜在的巨大潜力,它是促成各个领域变革性突破的催化剂,从维护生态保护努力到推动开拓性的科学探索。然而,它对这项技术崛起所带来的固有风险保持了坦诚的态度。 Meta AI的研究人员强调必须达到的关键平衡,即快速创新的节奏与必要时出现的有意识的开发实践之间的和谐平衡。这些实践不仅仅是一种选择,而且是对这项技术可能无意中给历史上被边缘化社区带来的潜在伤害的重要防护。 Meta AI的研究人员针对这个多方面的挑战制定了一项全面的路线图。他们首先通过开源Apache 2.0许可证使DINOv2成为一种先进的计算机视觉模型,该模型通过自监督学习的锻炼器锻炼而成。DINOv2是Data-Efficient Image Neural Network Version 2的缩写,代表着计算机视觉模型的一次重要飞跃。它利用自监督学习技术创建通用特征,使其能够以高度灵活的方式理解和解释图像。 DINOv2的能力不仅限于传统的图像分类。它在许多任务中表现出色,包括语义图像分割,可以准确识别物体边界并将图像分割成有意义的区域,以及单目深度估计,使其能够感知图像中物体的空间深度。这种多功能性使DINOv2成为计算机视觉应用的强大工具。这种扩展的可访问性使开发人员和研究人员能够在广泛的应用领域中利用DINOv2强大的功能,进一步推动计算机视觉创新的前沿。 Meta对计算机视觉中公平性的承诺的核心在于引入FACET(计算机视觉评估中的公平性)。FACET是一个里程碑式的基准数据集,包含约32,000张图片,涵盖约50,000个个体。然而,FACET的独特之处在于专家人工标注者的细致注释。这些专家经过细心的注释工作,将数据集按多个维度进行分类。其中包括感知性别表达、年龄组别以及感知肤色和发型等身体属性。值得注意的是,FACET引入了与个人相关的类别,涵盖了像“篮球运动员”和“医生”这样多样化的职业。该数据集还通过包含69,000个口罩标签增强了其研究目的的重要性。 使用FACET进行的初步研究已经揭示了先进模型在不同人群中的性能差异。例如,这些模型在准确检测肤色较暗或头发卷曲的个体方面经常遇到挑战,揭示了潜在的偏见,值得仔细研究。 在使用FACET进行性能评估时,最先进的模型在不同人群之间展示出性能差异。例如,模型可能难以检测到肤色较暗的个体,对于头发卷曲的个体则更加困难。这些差异凸显了对计算机视觉模型中的偏见进行全面评估和缓解的必要性。 尽管主要用于研究评估而不是用于训练目的,但FACET有可能成为评估计算机视觉模型公平性的卓越标准。它为对人工智能中的公平性进行深入细致的检查奠定了基础,超越了传统的人口属性,包括了与个人相关的类别。 总之,Meta的文章放大了计算机视觉中的公平性问题,并揭示了FACET揭示的性能差异。Meta的方法包括扩大对DINOv2等先进模型的访问,并引入一种开创性的基准数据集。这种多方面的方法彰显了他们对促进创新、坚持道德标准和缓解公平问题的坚定承诺。它突显了他们对负责任的发展的不懈奉献,为实现一个公平的人工智能领域铺平了道路,即利用技术造福于所有人的领域。

Leave a Comment

微软研究员提出了具有两阶段干预框架的开放词汇负责任视觉综合(ORES)

视觉综合模型由于大规模模型训练的进展而能够产生越来越逼真的视觉效果。鉴于使用合成图片的潜在风险增加,负责任的人工智能变得更加重要,特别是在合成过程中消除特定的视觉元素,如种族主义、性别歧视和裸露。但是,负责任的视觉综合是一个非常困难的任务,原因有两个。首先,合成的图片必须符合管理员的标准,例如不应出现“比尔·盖茨”和“微软创始人”等词语。其次,用户查询的非禁止部分应准确合成,以满足用户的要求。 现有的负责任的视觉综合技术可以分为三个主要类别来解决上述问题:改进输入、改进输出和改进模型。第一种策略是改进输入,集中在对用户查询进行预处理,以符合管理员的要求,例如构建黑名单来过滤不良内容。在开放词汇表的环境中,黑名单很难确保完全消除所有不良内容。第二种方法是改进输出,包括对生成的影片进行后处理,以符合管理员的规则,例如通过识别和删除不适宜的内容来保证输出的适用性。 这种技术很难识别开放词汇的视觉概念,它依赖于在特定概念上进行预训练的过滤模型。第三种策略是改进模型,尝试对整个模型或特定组件进行微调,以理解和满足管理员的要求,提高模型遵循预期准则并提供与指定规则和法规一致的材料的能力。然而,微调数据中的偏见常常对这些技术施加限制,使其难以达到开放词汇表的能力。这就引出了以下问题:管理员如何通过实现开放词汇负责任的视觉综合来有效地禁止创建任意的视觉概念?例如,用户可能要求在图1中生成“微软创始人在酒吧喝酒”的图片。 图1. 开放词汇负责任的视觉综合 根据地理、上下文和使用情况的不同,必须避免使用不适合的视觉概念进行适当的视觉综合。 当管理员将“比尔·盖茨”或“酒精”等概念禁止时,负责任的输出应以类似日常语言表达的方式澄清概念。微软的研究人员基于上述观察提出了一项名为开放词汇负责任的视觉综合(ORES)的新任务,其中视觉综合模型可以避免不明确表示的任意视觉元素,并允许用户输入所需的信息。然后引入了两阶段干预(TIN)结构。它可以通过使用大规模语言模型(LLM)进行可学习的指令重写和通过扩散综合模型进行快速干预来成功合成图片。 在可学习查询的指导下,TIN将特定应用于使用CHATGPT将用户的问题重写为降低风险的查询。在中间综合阶段,TIN通过用降低风险的查询替换用户的查询来干预合成。他们开发了一个基准测试,相关的基线模型,黑名单和负面提示,并提供了一个可公开访问的数据集。他们结合了大规模语言模型和视觉综合模型。据他们所知,他们是首次在开放词汇场景下研究负责任的视觉综合。 在附录中,他们的代码和数据集对所有人都是可访问的。他们作出了以下贡献: • 他们提出了开放词汇负责任的视觉综合(ORES)的可行性,并开发了一个带有适当基线模型的基准测试,建立了一个可公开访问的数据集。 • 作为ORES的成功解决方案,他们提供了两阶段干预(TIN)框架,其中包括 1)通过大规模语言模型(LLM)进行可学习教学的重写 2)通过扩散合成模型进行快速干预的合成 • 研究表明,他们的方法显著降低了不适当模型开发的机会。他们展示了LLM在负责任的视觉合成方面的能力。

Leave a Comment

新加坡国立大学研究人员提出了IT3D:一种新的即插即用的文本到3D生成的改进AI方法

在文本到图像领域取得了显著的进展,引发了研究界对扩展到3D生成的热情。这种兴奋主要是由于出现了利用预训练的2D文本到图像扩散模型的方法。 在这个领域的一个重要发展是由Dreamfusion完成的创造性工作。他们引入了一种名为Score Distillation Sampling (SDS)算法的新方法,这种方法的差异很大,因为它可以从文本指令中创建许多不同的3D对象。尽管它革命性的方法,但它也存在一些挑战。一个重要的限制是其对生成模型的几何和纹理的控制,往往导致过饱和和模型的多面外观等问题。 此外,研究人员还注意到,仅仅通过加强文本指令来改善模型并不能提高效果。 为了应对这些挑战,研究人员提出了一种增强的3D生成方法。这种方法的核心是通过从所需的3D模型的不同角度创建多个图像,并使用这些图像重建3D对象。这个过程首先使用现有的文本到3D生成模型,如DreamFusion,创建对象的基本表示。通过制作这些初始模型,我们对对象的形状以及它在空间中的排列有一个基本的了解。然后,该方法使用图像到图像(I2I)生成过程来改进视图的图像。 IT3D为不同的3D输出表示提供了支持,例如网格和NeRFs,并且其额外的优势在于其能够使用文本输入改变3D模型的外观。上面的图像展示了IT3D的流程。从粗糙的3D模型开始,IT3D首先使用图像到图像的流程生成一个小的姿势数据集,该数据集的条件是基于粗糙的3D模型的渲染。然后,它结合一个随机初始化的鉴别器来从生成的数据集中提取知识,并使用鉴别损失和SDS损失更新3D模型。 此外,分析显示,这种方法可以加快训练过程,减少必要的训练步骤和可比较的总训练时间。从上面的图像我们可以看到,这种方法可以容忍高方差的数据集。最后,实证结果证明,所提出的方法在纹理细节、几何形状和文本提示与生成的3D对象之间的逼真度方面显著改善了基线模型。 这种技术确实为我们提供了一个对文本到3D生成的新视角,并成为改进文本到3D任务的GAN和扩散先验的第一个研究工作。

Leave a Comment