Press "Enter" to skip to content

Tag: Computer vision

谷歌AI提出PixelLLM:一种能够进行细粒度定位和视觉语言对齐的视觉语言模型

大型语言模型(LLMs)成功利用了人工智能(AI)的子领域,包括自然语言处理(NLP),自然语言生成(NLG)和计算机视觉。借助LLMs,我们能够创建能够复杂推理关于图像的视觉语言模型,回答与图像相关的问题,并用自然语言描述图像。然而,LLMs是否能够执行词定位或定位引用等定位任务仍然不确定。 为了克服这个挑战,谷歌研究和UC圣地亚哥的研究人员团队引入了一种智能模型称为PixelLLM,可以实现精细的定位和视觉语言对齐。这种方法受到了人们自然行为的启发,尤其是婴儿用手势、指点和命名来描述他们的视觉环境。团队表示,目标是找出LLMs如何从视觉输入中获得空间理解和推理。 PixelLLM将语言模型的每个单词输出密集对准到像素位置上。为此,添加了一个微小的多层感知机(MLP),它能够对每个单词的像素位置进行回归。使用了低秩微调(LoRA),允许更新或冻结语言模型的权重。该模型还可以接收文本或位置提示,使其能够提供符合提示的输出。 该模型的架构包括图像编码器、提示编码器和提示特征提取器。大语言模型接受提示条件下的图片特征和可选的文本提示作为输入,并输出每个单词的定位和标题。该架构能够接受多样的语言或位置组合作为输入或输出,适应各种视觉语言活动。 团队使用诸如密集物体字幕、位置条件字幕和引用定位等众所周知的视觉任务评估了该模型。PixelLLM在各种挑战中展现出卓越的性能指标,包括RefCOCO引用定位上的89.8 P@0.5,Visual Genome条件化字幕上的19.9 CIDEr以及密集物体字幕上的17.0 mAP。密集的像素定位公式非常重要,这在对RefCOCO进行的消融实验中得到了证明,相对于其他的定位公式,它取得了3.7个百分点的提升。因此,PixelLLM在实现精准的视觉语言对齐和定位方面取得了成功。 团队总结了他们的主要贡献如下: 引入了一个名为PixelLLM的新的视觉语言模型,可以生成单词定位和图片标题。 该模型支持文本或可选的位置提示,除图片输入外。 使用了定位的叙述数据集进行每个单词定位的训练。 该模型能够适应各种视觉语言任务,包括分割、位置条件字幕、引用定位和密集字幕。 该模型在位置条件字幕、密集字幕、引用定位和分割方面展现出卓越的结果。

Leave a Comment

这篇AI论文提出了一种不需要已知摄像机参数的COLMAP-Free 3D高斯飞溅(CF3DGS)方法,用于新视角合成

神经渲染的进展在重建场景和生成新视点方面取得了显着突破。然而,其有效性很大程度上取决于相机姿态的精确预计算。为了减少这个问题,许多努力已经被做出来,以无需预计算相机姿态来训练神经辐射场(NeRFs)。然而,NeRFs的隐式表示使得同时优化3D结构和相机姿态变得困难。 来自UC San Diego、NVIDIA和UC Berkeley的研究人员引入了COLMAP-Free 3D Gaussian Splatting(CF-3DGS),它增强了两个关键要素:从视频中的时间连续性和显式的点云表示。CF-3DGS不是一次优化所有帧,而是以连续的形式构建场景的3D高斯,随着摄像机的移动,逐个“增长”一个结构。CF-3DGS为每个帧提取一个局部3D高斯集,并维护整个场景的全局3D高斯集。 https://arxiv.org/abs/2312.07504 使用不同的3D场景表示来生成真实的图像,包括平面、网格、点云和多平面图像。由于其出色的逼真渲染能力,NeRFs(神经辐射场)在该领域中备受关注。3DGS(三维高斯喷溅)方法利用纯显式表示和差分点基喷溅方法实现对视图的实时渲染。 CF-3DGS合成未知相机参数的视图。它同时优化3D高斯喷溅(3DGS)和相机姿态。它使用局部3DGS方法从附近帧中估计相对相机姿态,使用全局3DGS过程从未观察到的视图中逐步扩展3D高斯。CF-3DGS利用显式的点云来表示场景,并利用视频流中的连续性。它按顺序处理输入帧,逐步扩展3D高斯以重建场景。这种方法实现了快速训练和推理速度。 https://arxiv.org/abs/2312.07504 CF-3DGS方法在姿态估计和新视图合成的稳健性方面优于先前最先进的方法。该方法在CO3D视频上进行验证,这些视频呈现了更复杂和具有挑战性的相机移动,并且在视图合成质量方面胜过了Nope-NeRF方法。该方法在CO3D V2数据集上的相机姿态估计的所有指标上一直超过Nope-NeRFe,表明它在估计相机姿态方面的稳健性和准确性,尤其是在具有复杂相机移动的场景中。 综上所述,CF-3DGS是一种有效且稳健的方法,利用视频的时间连续性和显式点云表示合成视图,无需进行结构运动(SfM)预处理。它同时优化相机姿态和3DGS,主要适用于视频流或有序图像集合。它还具有未来扩展的潜力,以适应无序图像集合。

Leave a Comment

NTU研究人员发布尊尚视频:先导性的文本引导潜隐扩散技术,提升视频超分辨率

视频超分辨率旨在将低质量视频提升到高保真度,面临的挑战是解决现实世界场景中常见的多样化且复杂的退化问题。与以前关注合成或特定相机相关退化不同,该复杂性源于多个未知因素,如降采样、噪声、模糊、闪烁和视频压缩。虽然最近的基于CNN的模型在缓解这些问题方面显示出了希望,但由于有限的生成能力,它们在生成逼真纹理方面仍然存在局限性,导致过度平滑。本研究探讨了利用扩散模型来解决这些限制并增强视频超分辨率的方法。 现实世界视频增强的复杂性要求采用超越传统方法的解决方案,以应对多方面的退化问题。尽管基于CNN的模型在缓解多种退化形式方面展示出实力,但它们的局限性在于生成逼真纹理,往往导致过度平滑的输出结果。扩散模型已成为一个希望的象征,在生成高质量图像和视频方面展示出令人印象深刻的能力。然而,将这些模型应用于视频超分辨率仍然是一个艰巨的挑战,原因是扩散采样中存在固有的随机性,导致低级纹理的时间不连续性和闪烁。 为了应对这些挑战,本研究中的NTU研究人员采用了潜在扩散框架内的局部-全局时间一致性策略。在局部层面上,预训练的放大模型通过额外的时间层进行微调,整合了3D卷积和时间注意力层。这种微调显著提高了局部序列的结构稳定性,减少了纹理闪烁等问题。同时,一个新颖的流引导的循环潜在传播模块在全局层面上操作,通过逐帧传播和推断期间的潜在融合,确保了更长视频的整体稳定性。 图1:AI生成和现实世界视频的超分辨率对比。建议的Upscale-A-Video展示了出色的放大性能。通过使用正确的文本提示,它以更多的视觉逼真度和更精细的细节呈现惊人的效果。 本研究探索了创新的方向,通过引入文本提示来指导纹理生成,使模型能够产生更加逼真和高质量的细节。此外,将噪声注入输入可以增强模型对于重度或未知退化的鲁棒性,从而在恢复和生成之间实现控制。较低的噪声水平优先考虑恢复能力,而较高的噪声水平则鼓励更精细的细节生成,实现保真度和质量之间的权衡。 主要贡献在于制定了一种强大的实际视频超分辨率方法,将局部-全局时间策略结合到隐藏扩散框架中。通过整合时间一致性机制和对噪声水平和文本提示的创新控制,模型在基准测试上表现出卓越的视觉逼真度和时间连贯性,展示出了最新技术水平。

Leave a Comment

这篇AI论文介绍了一种突破性的方法,利用多视角视频对建模3D场景动态进行建模

NVFi致力于解决理解和预测3D场景在时间上演变的复杂挑战,这对增强现实、游戏和电影制作等应用至关重要。虽然人类轻而易举地理解此类场景的物理学和几何学,但现有的计算模型难以从多视点视频中明确学习这些属性。核心问题在于现有方法(包括神经辐射场及其衍生品)不能根据学习到的物理规律提取和预测未来的运动。 NVFi的雄心是通过纯粹从多视点视频帧中派生出的分解速度场,来填补这一差距,这在以前的框架中尚未研究过。 3D场景的动态性给计算带来了深远的挑战。虽然神经辐射场的最新进展在插值观察时间范围内的视图方面表现出了非凡的能力,但它们无法学习到显式的物理特征,如物体速度。这种限制阻碍了它们准确预测未来运动模式的能力。目前的研究将物理学与神经表示结合起来,在重建场景几何、外观、速度和黏度场方面表现出了希望。然而,这些学习的物理属性通常与特定场景元素交织在一起,或者需要补充的前景分割掩码,限制了它们在场景之间的可转移性。 NVFi的开创性目标是解开和理解整个3D场景内的速度场,进一步扩展训练观察之外的预测能力。 香港理工大学的研究人员引入了一个全面的框架NVFi,包括三个基本组成部分。首先,关键帧动态辐射场促进了对3D空间中每个点的时间相关体积密度和外观的学习。其次,帧间速度场捕获了每个点的时间相关3D速度。最后,由物理知识约束增强的关键帧和帧间元素的联合优化策略组织了训练过程。该框架采用现有的时间相关NeRF架构进行动态辐射场建模时具有灵活性,同时使用相对简单的神经网络(如MLP)进行速度场建模。其核心创新在于第三个组件,联合优化策略和特定的损失函数使得无需额外的物体特定信息或掩码,能够精确学习到分解速度场。 NVFi的创新之处在于它能够纯粹从多视角视频帧中对3D场景的动态进行建模,消除了对特定对象数据或掩码的需求。它精心关注于分解速度场,这是掌控场景运动动力学的关键,它为众多应用提供了关键。在多个数据集上,NVFi展示了它在推断未来帧、语义场景分解和不同场景之间速度传递方面的能力。这些实验验证证实了NVFi在各种实际应用场景中的适应性和优越性能表现。 主要贡献和要点: 引入NVFi,一种新颖的从多视角视频中建模动态3D场景的框架,无需先验对象信息。 设计和实现了一个神经速度场,并结合联合优化策略进行有效的网络训练。 成功展示了NVFi在各种数据集上的能力,展示了在未来帧预测、语义场景分解和场景间速度传递方面的优越性能。

Leave a Comment

CMU研究人员揭示了RoboTool:一种能够接受自然语言指令并输出可用于控制模拟和真实环境中机器人的可执行代码的AI系统

来自卡内基梅隆大学和Google DeepMind的研究人员合作开发了RoboTool,这是一个利用大型语言模型(LLM)的系统,赋予机器人在涉及隐性物理约束和长期规划的任务中创造性地使用工具的能力。该系统包括四个关键组成部分: 用于解释自然语言的分析器 用于生成策略的规划器 用于计算参数的计算器 用于将计划转化为可执行的Python代码的编码器 使用GPT-4,RoboTool旨在为复杂的机器人任务提供比传统的任务与动作规划方法更灵活、高效和用户友好的解决方案。 该研究解决了机器人创造性使用工具的挑战,类似于动物在使用工具方面展示智能的方式。它强调机器人不仅要为其预定目的使用工具,还要以创造性和非常规的方式使用工具,以提供灵活的解决方案。传统的任务与动作规划(TAMP)方法需要在处理具有隐性约束的任务时进行修订,并且往往计算代价高昂。大型语言模型(LLM)在编码有益于机器人任务的知识方面显示出潜力。 该研究引入了一个用于评估创造性工具使用能力的基准,包括工具选择、顺序工具使用和制造。所提出的RoboTool在模拟和真实环境中进行评估,展示了在没有创造性工具使用的情况下将会具有挑战性的任务处理能力。该系统的成功率超过了基准方法,展示了其在解决具有隐性约束的复杂、长期规划任务方面的效果。 通过计算3种类型的错误进行评估: 工具使用错误,指示是否使用了正确的工具 逻辑错误,关注规划错误,如按错误的顺序使用工具或忽略提供的约束 数值错误,包括计算错误的目标位置或添加错误的偏移量 没有分析器的RoboTool显示出使用分析器的工具使用错误较大,没有计算器的RoboTool在与RoboTool相比的情况下有较大的数值错误,展示了它们在模型中的作用。 该研究展示了RoboTool在各种任务中的成就,例如在沙发之间穿越间隙、到达放置在机器人工作区域外的物体以及创造性地使用工具超出其传统功能。该系统利用LLMs对对象属性和人类常识的知识来识别关键概念和推理三维物理世界。在与机械臂和四足机器人的实验中,RoboTool展示了创造性的工具使用行为,包括即兴创作、顺序工具使用和工具制造。尽管在模拟中实现了与或超过基准方法相当的成功率,但其在真实环境中的表现受到感知错误和执行错误的轻微影响。 总之,由LLMs驱动的RoboTool是一个具有创造性的机器人工具用户,能够解决长期规划问题并具有隐性物理约束。该系统能够识别关键概念、生成创造性计划、计算参数和生成可执行代码,有助于其在处理需要创造性工具使用的复杂机器人任务方面取得成功。

Leave a Comment

CMU和马克斯普朗克研究所的研究人员揭示了WHAM:一种突破性的人工智能方法,可以从视频中精确高效地估计3D人体动作

三维人体动作重建是一个复杂的过程,涉及准确捕捉和建模人体主体在三维空间中的动作。当处理由移动相机在现实世界环境中捕获的视频时,这项工作变得更加具有挑战性,因为它们经常出现脚滑等问题。然而,来自卡内基梅隆大学和马克斯普朗克智能系统研究所的研究人员开发了一种名为WHAM(基于世界的具有准确运动的人体)的方法来解决这些挑战,并实现精确的三维人体动作重建。 该研究审查了从图像中恢复三维人体姿态和形状的两种方法:无模型和基于模型。它强调了在模型化方法中使用深度学习技术来估计统计身体模型参数的重要性。现有基于视频的三维人体姿态估计方法通过各种神经网络架构引入时间信息。某些方法使用附加传感器(如惯性传感器),但它们可能会对使用者造成干扰。WHAM通过有效地结合三维人体运动和视频上下文、利用先验知识并在全局坐标中准确重建三维人体活动而脱颖而出。 该研究解决了从单目视频准确估计三维人体姿态和形状的挑战,强调全局坐标一致性、计算效率和真实脚地接触。利用AMASS动作捕捉和视频数据集,WHAM结合运动编码器-解码器网络将2D关键点提升到3D姿态,利用特征集成器处理时间线索,并利用考虑脚接触的全局运动估计的轨迹细化网络,提高在非平面表面上的准确性。 WHAM采用单向RNN进行在线推理和精确的三维动作重建,其中运动编码器用于上下文提取,运动解码器用于SMPL参数、相机平移和脚接触概率。利用包围盒标准化技术有助于提取运动上下文。图像编码器在预训练的人类网格恢复时捕捉和整合图像特征与运动特征。轨迹解码器预测全局方向,细化过程减小脚滑动。在合成的AMASS数据上进行训练,WHAM在评估中优于现有方法。 https://arxiv.org/abs/2312.07531 WHAM超越了当前最先进的方法,展现出在单帧和基于视频的三维人体姿态和形状估计方面的卓越准确性。WHAM通过利用运动上下文和脚接触信息实现精确的全局轨迹估计,减小脚滑动,增强国际协调性。该方法通过整合2D关键点和像素特征,提高了三维人体运动重建的准确性。对野外基准数据集的评估证明了WHAM在MPJPE、PA-MPJPE和PVE等指标上的卓越表现。轨迹细化技术进一步提升了全局轨迹估计的精度,减小了脚滑动,通过改进的错误指标得到了证明。 总之,该研究的要点可以总结为: WHAM引入了一种结合三维人体运动和视频上下文的先导性方法。 该技术提升了三维人体姿态和形状回归。 该过程使用了全局轨迹估计框架,包括运动上下文和脚接触。 该方法解决了脚滑动问题,确保在非平面表面上的准确三维跟踪。 WHAM的方法在多个基准数据集上表现出色,包括3DPW、RICH和EMDB。 该方法在全局坐标中优秀地完成了高效的人体姿态和形状估计。 该方法的特征集成和轨迹细化显著提高了运动和全局轨迹的准确性。 该方法的准确性通过深入的消融研究得到了验证。

Leave a Comment

本AI论文介绍了BioCLIP:利用TreeOfLife-10M数据集来改变生物学和保护中的计算机视觉

许多生物学的分支,包括生态学、进化生物学和生物多样性学,越来越多地将数字图像和计算机视觉作为研究工具。现代技术极大地提高了他们分析来自博物馆、相机陷阱和公民科学平台的大量图像的能力。这些数据随后可以用于物种划分、理解适应机制、估计种群结构和丰度,以及监测和保护生物多样性。 然而,当试图使用计算机视觉来解决生物学问题时,寻找和训练适合特定任务的合适模型,并手动标记足够的数据以用于特定物种和研究仍然是重大挑战。这需要大量的机器学习知识和时间。 来自俄亥俄州立大学、微软、加州大学欧文分校和伦斯勒理工学院的研究人员正在研究在该努力中构建“生命之树”基础视觉的模型。该模型必须满足以下要求,以便广泛适用于真实生物学任务。首先,它需要能够适应调查各种不同类群的研究人员,而不仅仅是一个类群,并且最好能够推广到整个生命之树。此外,它应该获取生物图像的细粒度表示,因为在生物学领域常常会遇到外观相似的生物体,例如同属或为了适应而模仿对方外观的近亲物种。由于生命之树将生物事物组织成广泛的群组(如动物、真菌和植物)和非常细粒度的群组,这种粒度水平是重要的。最后,在数据收集和标记在生物学中的高昂费用的情况下,具有低数据区域(即零样本或少样本)的优秀结果是至关重要的。 当前训练在数亿张图像上的通用领域视觉模型在应用于进化生物学和生态学时表现不佳,尽管这些目标对计算机视觉来说并不新鲜。研究人员确定了在生物学中创建视觉基础模型的两个主要障碍。首先,需要更好的预训练数据集,因为目前可用的数据集在规模、多样性或标签细粒度方面都不足。其次,由于当前的预训练算法不能很好地满足这三个主要目标,因此有必要找到更好的预训练方法,利用生物领域的独特特征。 考虑到这些目标和实现障碍,团队提出了以下内容: TREEOFLIFE-10M,一个庞大的ML准备生物学图片数据集 BIOCLIP是一个基于适当类群在TREEOFLIFE-10M中进行训练的生命之树的视觉模型。 TREEOFLIFE-10M是一个广泛而多样的生物图像数据集,适用于ML。研究人员已经策划和发布了迄今为止最大的ML准备生物学图像数据集,其中包含超过1000万张照片,涵盖了生命之树上的45.4万个类群,并附带有分类标签。仅有270万张照片代表10,000个类群的iNat21是最大的ML准备生物学图像集合。现有的高质量数据集,如iNat21和BIOSCAN-1M,已纳入TREEOFLIFE-10M中。TREEOFLIFE-10M中的大部分数据多样性来自生命百科全书(eol.org),其中包含了该来源的最新选定的照片。TREEOFLIFE-10M中的每张图像的分类层次和更高分类排名都进行了最大程度的注释。借助TREEOFLIFE-10M,可以培训BIOCLIP和其他生物学的未来模型。 BIOCLIP是基于视觉的生命之树的表示。在像TREEOFLIFE10M这样的大规模标记数据集上训练视觉模型的一个常见且简单的方法是使用监督分类目标,从图像中学习预测分类标志。ResNet50和Swin Transformer也使用了这种策略。然而,这种方法忽视并没有利用复杂的分类系统——类群不是孤立存在的,而是在一个完整的分类系统中相互关联。因此,使用基本的监督分类进行训练的模型可能无法对未知的类群进行零样本分类或对训练期间不存在的类群进行很好的泛化。相反,团队采用了一种新方法,将BIOCLIP的广泛生物分类与CLIP风格的多模式对比学习相结合。通过使用CLIP对比学习目标,他们可以在将分类系统从王国级别扁平化为代表分类名称的字符串之后,学习将图片与相应的分类名称关联起来。当使用不可见的类群的分类名称时,BIOCLIP还可以进行零样本分类。 团队还建议并展示了一种混合文本类型训练技术的益处;这意味着他们保留了分类学名称的概括性,但在测试时更具灵活性,通过结合多种文本类型(例如,科学名称与通用名称)进行训练。例如,下游用户仍然可以使用通用物种名称,而BIOCLIP将表现出色。他们对BIOCLIP进行了全面评估,涵盖了涉及植物、动物和昆虫的十个细粒度图片分类数据集,以及一个专门策划的罕见物种数据集,在训练过程中未使用。BIOCLIP显著超过了CLIP和OpenCLIP,在少样本和零样本情况下,分别取得了平均绝对提升17%和18%的成绩。此外,它的内在分析可以解释BIOCLIP更好的泛化能力,表明它已经学习到了符合生命之树的分层表示。 尽管团队使用了CLIP目标来有效地学习数十万个分类群的视觉表示,BIOCLIP的训练仍然专注于分类。为了使BIOCLIP能够提取细粒度的特征级表示,他们计划在未来的工作中加入来自inaturalist.org的研究级照片,该网站拥有1亿张照片或更多,并收集物种外观的更详细的文本描述。

Leave a Comment

卷积神经网络(CNNs)中的空洞卷积全面指南

介绍 在计算机视觉领域中,卷积神经网络(CNN)已经重新定义了图像分析和理解的领域。这些强大的网络已经在图像分类、物体检测和语义分割等任务中取得了突破。它们为医疗保健、自动驾驶等领域的各种应用奠定了基础。 然而,随着对更具上下文感知和稳健模型的需求不断增长,传统的卷积层在捕捉广泛的上下文信息方面面临限制。这导致了对能够提高网络理解更广泛上下文能力的创新技术的需求,而不会显著增加计算复杂性。 介绍扩张卷积(Atrous Convolution),这是一种颠覆卷积神经网络中常规规则的突破性方法。扩张卷积,也被称为空洞卷积,通过在深度学习领域引入新的维度,使网络能够在不显著增加计算成本或参数的情况下捕捉更广泛的上下文。 学习目标 了解卷积神经网络的基本知识,以及它们如何处理视觉数据来理解图像。 了解扩张卷积如何改进传统卷积方法,从而在图像中捕捉更大的上下文。 探索使用扩张卷积的知名CNN架构,例如DeepLab和WaveNet,以了解它如何提高它们的性能。 通过实际示例和代码片段,获得对扩张卷积在CNN中应用的实际理解。 本文是Data Science Blogathon的一部分。 理解卷积神经网络:它的工作原理 卷积神经网络(CNN)是一类主要用于分析图像和视频等视觉数据的深度神经网络。它们受到人类视觉系统的启发,在涉及视觉数据的模式识别任务中非常有效。以下是详情: 卷积层:CNN由多个层组成,其中卷积层是核心。这些层使用卷积运算将可学习的滤波器应用于输入数据,从图像中提取各种特征。 汇聚层:在卷积之后,通常会使用汇聚层来减小空间维度,压缩卷积层学到的信息。常见的汇聚操作包括最大汇聚或平均汇聚,它们减小表示的大小同时保留关键信息。 激活函数:在卷积和汇聚层之后使用非线性激活函数(例如ReLU)来引入非线性,让网络能够学习数据中的复杂模式和关系。 全连接层:在CNN末尾,通常使用全连接层。这些层整合前面层提取的特征,并执行分类或回归任务。 逐点卷积:逐点卷积,也被称为1×1卷积,是CNN中用于降低维度和特征组合的技术。它涉及将1×1滤波器应用于输入数据,有效减少输入通道数,并允许跨通道组合特征。逐点卷积通常与其他卷积操作一起使用,以增强网络捕捉数据中的复杂模式和关系的能力。 可学习参数:CNN依赖于在训练过程中更新的可学习参数(权重和偏置)。训练过程包括前向传播,其中输入数据通过网络,以及反向传播,根据网络的性能调整参数。 从扩张卷积开始 扩张卷积,也被称为空洞卷积,是一种引入了参数扩张率的卷积操作。与常规卷积将滤波器应用于相邻像素不同,扩张卷积通过在它们之间引入间隙来分散滤波器的参数,由扩张率来控制。这个过程扩大了滤波器的感受野,而不增加参数的数量。简单来说,它允许网络在不增加复杂性的情况下从输入数据中捕获更广泛的上下文。 扩张率决定了卷积的每一步之间跳过多少像素。1的扩张率表示常规卷积,而较高的扩张率跳过更多的像素。这个扩大的感受野能够捕获更大的上下文信息,而不增加计算成本,使网络能够高效地捕获局部细节和全局上下文。 本质上,扩张卷积有助于将更广泛的上下文信息整合到卷积神经网络中,从而更好地对数据中的大规模模式进行建模。它通常用于需要关注不同尺度上的背景信息的应用,例如计算机视觉中的语义分割或自然语言处理任务中处理序列。…

Leave a Comment

亚利桑那州立大学的这项人工智能研究揭示了ECLIPSE:一种新颖的对比学习策略,以改善文本到图像的非扩散先验

扩散模型在给定文本提示时已被证明在生成高质量照片方面非常成功。这种文本到图片(T2I)生成的范例已成功用于一些下游应用,包括深度驱动的图片生成以及主体/分割识别。两个受欢迎的基于文本条件的扩散模型,CLIP模型和潜在扩散模型(LDM),通常被称为稳定扩散,对这些进展至关重要。LDM在研究中以开源软件的形式免费提供,因此得到了广泛熟知。而对于未CLIP模型,却鲜有关注。这两种模型类型的基本目标都是根据文本提示训练扩散模型。 与未CLIP模型不同,LDM只有一个文本到图片扩散模型,而不需要文本到图片先验和扩散图片解码器。这两个模型家族都在图像的矢量量化潜空间内运作。因为未CLIP模型在多个组合基准测试中通常优于其他SOTA模型,如T2I-CompBench和HRS-Benchmark,所以研究团队在本文中将重点放在它们身上。这些T2I模型通常有很多参数,需要优秀的图像-文本对进行训练。与LDM相比,如DALL-E-2、卡洛和康定斯基等未CLIP模型由于它们的早期模块,其总模型大小要大得多(≥ 2B),约有10亿参数。 按照顺序,这些未CLIP模型的训练数据分别为250M、115M和177M个图像-文本对。因此,仍然存在两个重要问题:1)使用文本到图片先验能否提高文本组合的SOTA性能?2)或者模型大小的增加才是关键因素?通过增加参数和数据效率,研究团队旨在改善他们对T2I先验的认识,并在目前的公式上作出重大改进。先验的T2I目标是在扩散过程的每个时间步骤中直接估计无噪声图像嵌入,正如先前的研究所建议的那样,它们也是扩散模型。为了研究这个先前的传播过程,研究团队进行了实证调查。 图1比较了SOTA文本到图片模型在三个组合任务(颜色、形状和纹理)上的平均性能以及总参数数量。ECLIPSE只需要很少的训练数据,但却能产生更好的结果,并且使用较少的参数。所展示的ECLIPSE使用康定斯基解码器,通过仅使用500万个图像-文本对进行训练,使用约3300万个参数训练了一个T2I先验模型。 研究团队发现了扩散过程对性能的轻微负面影响,并且对产生正确图片没有影响。此外,由于扩散模型收敛速度较慢,训练它们需要显著的GPU小时或天数。因此,在本研究中,非扩散模型作为替代方法。由于缺乏无分类器引导,这种方法可能会限制组合性的可能性,但却大大提高了参数效率并减少了对数据的依赖。 在这项研究中,亚利桑那州立大学的研究团队提出了一种独特的对比学习技术,称为ECLIPSE,来增强T2I非扩散先验并克服上述缺点。研究团队优化了传统方法,即通过优化证据下界(ELBO)产生图像嵌入来从所提供的文本嵌入生成图片。研究团队建议使用预训练的视觉语言模型的语义对齐(文本和图片之间)特征来监督早期训练。研究团队使用相对较少的图像-文本对(0.34% – 8.69%)使用ECLIPSE训练紧凑的(97%更小)的非扩散先验模型(具有3300万个参数)。研究团队为未CLIP扩散图片解码器的变体(卡洛和康定斯基)引入了ECLIPSE训练的先验。ECLIPSE训练的先验模型优于拥有10亿参数的对应版本,并且优于基准先验学习算法。他们的研究结果表明了一条可能的T2I生成模型的路径,这种模型在不需要很多参数或数据的情况下提高了组合性。 如图1所示,它们的总参数和数据需求显著降低,并通过增加T2I在unCLIP家族之前取得了与相似参数模型相媲美的性能。贡献:1)在unCLIP框架下,研究团队提供了ECLIPSE,这是首个利用对比学习进行文本到图像先验的尝试。2)通过全面的实验,研究团队证明了ECLIPSE在资源受限环境中优于基线先验的优越性。3)值得注意的是,ECLIPSE先验仅需使用训练数据的2.8%和模型参数的3.3%即可获得与更大模型相当的性能。4)研究团队还研究了当前T2I扩散先验的缺点,并提供了实证观察结果。

Leave a Comment

这篇AI论文揭示了HiFi4G:照片级人物建模和高效渲染的突破性技术

以体积记录和真实表现4D(时空)人类表演来消除观众和表演者之间的障碍。它提供各种沉浸式的VR / AR体验,如远程呈现和远程教育。一些早期系统使用非刚性配准明确地从录制的镜头中重新创建纹理模型。然而,它们仍然容易受到遮挡和纹理缺陷的影响,从而导致重建输出中的缺口和噪音。最近的神经突破,如NeRF,通过优化基于坐标的多层感知器(MLP),而不是诉诸于显式重建,以实现照片级别的体积渲染。 某些动态NeRF变体旨在通过额外的隐式变形场保持一个规范的特征空间,用于在每帧中重现特征。然而,这样的规范设计对重要的拓扑变化或大规模运动敏感。通过平面因子化或哈希编码,最新的方法消除了变形场,并简洁地描述了4D特征网格。它们极大地加快了交互式程序渲染和训练的速度,但在运行时内存和存储问题上有待解决。最近,3D高斯点(3DGS)回归到了表示静态场景的显式范例。它基于GPU友好的3D高斯基元的光栅化,实现了以前无法实现的实时高质量辐射场渲染。一些正在进行的项目修改3DGS以适应动态设置。 一些集中在捕捉动态高斯的非刚性运动,但在过程中失去渲染质量。其他的失去了原始3DGS的明确和GPU友好的优雅,并且不能处理长期运动,因为它们使用额外的隐式变形场来填补运动信息。在本研究中,上海科技大学、NeuDim、字节跳动和DGene的研究团队介绍了HiFi4G,这是一种完全明确且紧凑的基于高斯的方法,用于从密集视频中重现高保真度的4D人类表演(参见图1)。他们的主要概念是将非刚性跟踪与3D高斯表示相结合,将运动和外观数据分离,以实现紧凑和压缩友好的表示。HiFi4G在当前隐式渲染技术的优化速度、渲染质量和存储开销方面表现出色。 图1展示了我们的高分辨率紧凑高斯点光栅。HiFi4G将经典的非刚性融合技术与多视角人类表演视频的可微光栅化进展相结合,有效生成紧凑的4D资产。 借助明确表示的帮助,他们的结果也可以轻松集成到基于GPU的光栅化流水线中,让用户在佩戴VR头盔时见证高保真度的虚拟现实人类表演。研究团队首先提供了一个由细粒度高斯和粗略变形图组成的双图技术,以自然地将高斯表示与非刚性跟踪连接起来。对于前者,研究团队使用NeuS2在使用嵌入式变形(ED)以关键帧的方式之前为每帧创建几何代理。这种明确的跟踪技术将序列分成若干部分,在每个片段内提供丰富的运动先验。类似于关键体积更新,研究团队通过使用3DGS从先前的片段减去错误的高斯并更新新的高斯来限制当前片段中的高斯数量。 接下来,研究团队构建了一个细粒度的高斯图,以通过从粗略的ED网络中插值每个高斯运动进一步初始化。通过简单地将高斯图与ED图弯曲并转换到屏幕空间,会导致严重的不自然扭曲;而持续优化而没有任何限制则会产生抖动的伪影。为了适当地平衡高斯特征的更新和非刚性运动先验,研究团队建议了一个4D高斯优化方法。研究团队使用时态正则化器确保每个高斯的外观属性的一致性,例如不透明度、缩放系数和球面谐波(SH)。研究团队建议对动态特性(位置和旋转)进行平滑处理,以在相邻高斯之间生成尽可能刚性的移动。 为了惩罚那些展示出小型、非刚性运动的区域上的闪烁瑕疵,这些正则化器添加了自适应加权机制。研究团队在优化后生成了时空紧凑的四维高斯模型。研究团队提出了一种伴随压缩技术,该技术采用了常规的残差校正、量化和熵编码,用于对高斯参数进行处理,以使其HiFi4G对消费者有用。每帧具有显著的压缩比约为25倍,并且仅需要不到2MB的存储空间,使其能够在各种设备上进行沉浸式观测,包括虚拟现实头显设备。 简而言之,他们的主要贡献包括以下几点: • 研究团队引入了一种紧凑的四维高斯模型,将高斯飞溅与非刚性跟踪相连接,用于人体表演渲染。 • 研究团队提供了一种双图结构方法,可以有效地恢复具有空间时间一致性的四维高斯模型,采用不同的正则化设计。 • 研究团队提供了一种互补的压缩方法,可以在多个平台上实现低存储的沉浸式人体表演体验。

Leave a Comment

字节跳动研究人员推出“ImageDream”:一种创新的图像提示和多视图扩散模型,用于三维物体生成

正如谚语所说,“一张图片胜过千言万语”,将图像作为3D制作的第二种方式相对于仅使用文本的系统具有重大优势。图像主要提供了详细、丰富的视觉信息,而语言可能只能部分或无法完全描述。例如,一张图片可以清晰、立即地表达细微的特征,如纹理、颜色和空间连接,但是词语描述可能需要帮助才能完全表示相同的细节级别或使用非常长的解释。因为系统可以直接参考实际的视觉线索,而不是解释各种复杂性和主观性的书面描述,这种视觉特定性有助于产生更准确、更详细的3D模型。 此外,用户可以更简单、直接地通过使用视觉方式来解释其预期结果,特别适用于那些难以用文字表达他们的想象的人。这种多模式方法可以满足更广泛的创意和实际应用需求,将文本的情境深度与视觉数据的丰富性结合起来,提供更可靠、用户友好和高效的3D制作过程。然而,使用照片作为3D物体开发的替代方式也存在一些困难。与文本相比,图像具有更多的元素,如颜色、纹理和空间连接,这使得它们更难以使用单一编码器(例如CLIP)进行正确分析和理解。 此外,物体在光线、形状或自遮挡方面的显著变化可能导致视图合成更精确、一致,从而提供不完整或模糊的3D模型。由于图像处理的复杂性,需要采用先进的、计算密集的技术有效解码视觉信息并确保在多个视角下外观一致。研究人员使用各种扩散模型方法将2D项目图像转化为3D模型,如Zero123和其他最新的努力。图像独立系统的一个缺点是,虽然合成视图看起来很好,但重建的模型有时需要更高的几何正确性和复杂的纹理,特别是关于物体的后向视角。这个问题的主要原因是生成或合成的视角之间存在较大的几何差异。 因此,在重建过程中,非匹配像素被平均在最终的3D模型中,导致纹理模糊和几何圆滑。从本质上讲,图像条件的3D生成是一个在文本条件的生成相比下具有更严格限制的优化问题。由于只有有限数量的3D数据可用,使用精确特征优化3D模型变得更加困难,因为优化过程往往会偏离训练分布。例如,如果训练数据集包含各种风格的马,仅通过文本描述创建一匹马可能会产生详细的模型。然而,当图像指定特定的毛发特征、形状和纹理时,新视角纹理的生成可能很容易偏离训练分布。 为了解决这些问题,字节跳动的研究团队在本研究中提出了ImageDream。研究团队提出了一个多级图像提示控制器,可以轻松地与当前架构整合在一起,同时考虑到不同对象实例之间的规范相机协调。特别是,根据规范相机协调,生成的图像必须呈现物体的居中前视图,并使用默认的相机设置(恒等旋转和零平移)。这使得将输入图像的差异转化为三维更加简单。通过提供分层控制,多级控制器通过将扩散模型从图像输入引导到每个架构块,简化了信息传递过程。 图1:凭借一张照片,创新框架ImageDream可以从任意角度生成高质量的3D模型。与先前的SoTA(如Magic123)相比,它显著提升了3D几何质量。更重要的是,与MVDream相比,它保留了从创建的图像提示中获得的优秀文本图像对齐。下方显示了使用不同技术创建的物品的八个视图,并显示了使用ImageDream生成的模型绘制的匹配法线图。 与仅基于文本条件的模型MVDream相比,ImageDream在从给定图像中生成具有正确几何形状的对象方面表现卓越,如图1所示。这使用户能够利用成熟的图像生成模型来改进图像与文本的对齐。在几何形状和纹理质量方面,ImageDream优于当前最先进的零射单图像3D模型生成器Magic123。ImageDream超越了先前的最先进技术,通过实验部分的全面评估,包括定量评估和用户测试中的定性比较,这一点得到了证明。

Leave a Comment

Meta AI推出可重新调光的高斯编码化身:一种建立高保真可重新调光头像的人工智能方法,可通过动画生成新颖表情

在一项具有突破性的举措中,Meta AI的研究人员解决了实现动态3D头像的高保真重照的长期挑战。传统方法常常需要在捕捉面部表情的复杂细节方面迎头赶上,尤其是在效率至上的实时应用中。Meta AI的研究团队通过推出可重光高斯编码人偶的方法回应了这一挑战,该方法有望重新定义人偶逼真度的领域。 研究团队致力于解决的核心问题是在动态面部序列中捕捉亚毫米细节(如头发和毛孔)更加清晰的需求。在高效建模人类头部的多种材料(包括眼睛、皮肤和头发)以及适应全频反射的同时,固有复杂性也引发了现有方法的局限性,迫切需要一种能够将逼真与实时性能无缝融合的创新解决方案。 对于可重光人偶的现有方法,实时性能和真实度之间一直没有找到平衡。一个持久存在的挑战是需要一种方法能够在实时应用中捕捉到动态面部细节。Meta AI的研究团队意识到了这一差距,并推出了“可重光高斯编码人偶”作为一种具有改变性的解决方案。 Meta AI的方法引入了基于3D高斯的几何模型,提供了亚毫米级精度的准确性。这是在捕捉动态面部序列方面的重大进步,确保人偶展现出生动的细节,包括头发和毛孔的微妙之处。可重光外观模型是这种创新方法的关键组成部分,其基于可学习辐射传输技术构建。 https://arxiv.org/abs/2312.03704 这些人偶的独特之处在于它们在人偶构建方面的综合方法。基于3D高斯的几何模型为人偶提供了骨干,使得可以使用高斯喷洒技术进行高效渲染。外观模型由可学习辐射传输驱动,结合了漫反射球谐和反射高斯球面。这种组合使人偶能够通过点光源和连续照明进行实时重照。 除了这些技术方面,该方法还引入了表情、凝视、视角和照明的可分解控制。借助潜在表情代码、凝视信息和目标视角方向,可以实现人偶的动态动画。这种控制水平在人偶动画方面迈出了重要的一步,提供了丰富多样的互动用户体验。 这些人偶不仅是理论上的进步,它们也带来了实际结果。该方法允许通过头戴摄像头实时驱动的视频动画来对各个方面进行可分解控制。这种能力创造了动态的、互动的内容,让实时视频输入能够无缝驱动人偶。 总之,Meta AI的“可重光高斯编码人偶”证明了创新在解决复杂问题中的力量。通过将基于3D高斯的几何模型与一种革命性的可学习辐射传输外观模型相结合,研究团队已经超越了现有方法的局限性,树立了人偶逼真度的新标准。

Leave a Comment

约翰霍普金斯大学和圣克鲁兹加利福尼亚大学的研究人员揭示了D-iGPT:图像AI学习方面的突破性进展

自然语言处理(NLP)已经进入了一个转型期,引入了大型语言模型(LLMs),例如GPT系列,为各种语言任务设置了新的性能标准。自回归预训练是这一惊人成就的主要因素之一,这种技术教会模型预测序列中最可能的标记。由于这种基本技术,模型能够吸收语法和语义之间的复杂交互,从而为他们理解语言的能力提供卓越的贡献,就像一个人一样。自回归预训练在NLP之外也在计算机视觉方面起到了重要作用。 在计算机视觉中,自回归预训练起初取得了成功,但随后的发展显示出明显的范式转变,更倾向于BERT风格的预训练。特别值得注意的是,从iGPT的首次结果可以看出,自回归和BERT风格的预训练在各种任务上的表现类似。然而,由于在视觉表示学习方面更加有效,后续的研究更偏向于BERT风格的预训练。例如,MAE表明,可扩展的视觉表示学习方法可能就是简单地预测随机屏蔽像素的值。 在这项研究中,约翰斯·霍普金斯大学和加州大学圣克鲁兹分校的研究团队重新审视了iGPT,并质疑自回归预训练是否能够产生高度熟练的视觉学习者,尤其是在广泛应用时。研究团队在其过程中融入了两个重要的改变。首先,研究团队使用BEiT将照片“分词”为语义标记,考虑到图像本身具有噪声和冗余。这个修改将自回归预测的重点从像素转移到语义标记上,从而更加复杂地理解各个图像区域之间的相互作用。其次,研究团队在生成解码器中添加了一个判别解码器,它自回归地预测下一个语义标记。 对于已看到的像素预测语义标记是这个额外组件的责任。此外,值得注意的是,像CLIP这样以判别方式训练的模型最适合该预训练路径的语义视觉标记。研究团队将这种改进方法称为D-iGPT。通过对各种数据集和任务进行广泛测试,证实了他们所提议的D-iGPT的效能。仅使用ImageNet-1K作为相关数据集,他们的基准模型在可达到86.2%的Top-1分类准确率上超越了之前的最先进技术的0.6%。 此外,他们的大规模模型在3600万个公开可用数据集上实现了89.5%的Top-1分类准确率。D-iGPT在公共数据集上达到了先前最先进的训练水平,尽管使用的训练数据更少,模型尺寸更小。研究团队还在相同的预训练和微调数据集上分析了D-iGPT在语义分割上的表现,发现其优于MAE相等的方法。

Leave a Comment

斯坦福大学和FAIR Meta的研究人员发布了CHOIS:一种具有突破性的AI方法,可通过语言引导合成逼真的三维人物-物体互动

斯坦福大学和FAIR Meta的研究人员引入了CHOIS来解决在3D场景中生成物体和人类的同步运动的问题。该系统基于稀疏的物体航点、物体和人类的初始状态以及文本描述来运作。它通过在指定的3D环境中为两者产生逼真且可控的动作来控制人类和物体之间的交互。 利用类似AMASS这样的大规模、高质量的动作捕捉数据集,人们对生成式人体运动建模的兴趣日益增加,包括有条件的动作和文本生成。之前的研究使用VAE公式来从文本生成多样化的人体运动,而CHOIS则专注于人体与物体的互动。与现有方法通常集中在手部动作合成不同,CHOIS考虑到在抓取物体之前的全身动作,并根据人体的动作预测物体的运动,为交互式3D场景模拟提供了综合解决方案。 CHOIS解决了在3D环境中合成逼真人类行为的关键需求,这对计算机图形学、具体化人工智能和机器人技术至关重要。CHOIS通过基于语言描述、初始状态和稀疏物体航点来生成同步的人类和物体运动来推动该领域的发展。它解决了现实运动生成、适应环境杂乱以及从语言描述中合成交互等挑战,为多样化的3D场景中可控人体与物体交互提供了综合系统。 该模型使用条件扩散方法根据语言描述、物体几何和初始状态生成同步的物体和人体运动。在采样过程中加入约束以确保逼真的人与物接触。训练阶段使用损失函数来引导模型预测物体变换而无需明确强制接触约束。 CHOIS系统经过与基准模型和消融实验的严格评估,展示了在条件匹配、接触准确性、减少手部与物体的穿透以及脚部漂浮等指标上表现出的卓越性能。在FullBodyManipulation数据集上,物体几何损失增强了模型的能力。CHOIS在3D-FUTURE数据集上的表现超过了基准模型和消融模型,展示了其对新物体的泛化能力。人类感知研究突出了CHOIS与基准模型相比,在与输入文本的对齐和交互质量方面表现更好。定量指标,包括位置和方向误差,衡量了生成结果与真实运动之间的偏差。 总之,CHOIS是一个基于语言描述和稀疏物体航点生成逼真的人与物体交互的系统。该过程在训练过程中考虑到物体几何损失,并在采样过程中使用有效的引导项来增强结果的逼真度。CHOIS学习到的交互模块可以集成到根据语言和3D场景合成长期交互的流水线中。CHOIS在生成与提供的语言描述相一致的逼真人与物体交互方面有显著改进。 未来的研究可以探索通过集成额外的监督,如物体几何损失,来提高生成的物体运动与输入航点的匹配度。研究如何使用更高级的引导项来强制接触约束,可能会得到更逼真的结果。将评估扩展到多样化的数据集和场景将测试CHOIS的泛化能力。进一步的人类感知研究可以提供对生成的交互更深入的洞察。将学习到的交互模块应用于根据3D场景的物体航点生成长期交互也将扩大CHOIS的适用性。

Leave a Comment

‘结识DeepCache:一种简单而有效的运行时压缩扩散模型的加速算法’

人工智能(AI)和深度学习的进步,彻底改变了人类与计算机互动的方式。通过引入扩散模型,生成建模在文本生成、图片生成、音频合成和视频制作等各个领域都展示出了卓越的能力。 尽管扩散模型表现出卓越的性能,但这些模型通常计算成本较高,主要与庞大的模型大小和顺序去噪过程有关。这些模型的推理速度非常慢,为解决这一问题,研究人员进行了一系列努力,包括减少样本步骤的数量,使用模型修剪、蒸馏和量化等技术降低每个步骤的模型推理开销。 传统的扩散模型压缩方法通常需要大量的重新训练,这带来了实践和资金上的困难。为了克服这些问题,研究人员团队推出了DeepCache,一种新颖的无训练范式,旨在优化扩散模型的体系结构以加速扩散过程。 DeepCache利用了扩散模型连续去噪阶段固有的时间冗余性。这种冗余性的原因在于某些特征在连续的去噪步骤中会重复出现。它通过引入针对这些特性的缓存和检索方法,大大减少了重复计算。团队表示,这种方法基于U-Net属性,可以在有效更新低级特征的同时重复使用高级特征。 DeepCache的创意方法有效提高了Stable Diffusion v1.5的速度2.3倍,仅降低0.05的CLIP评分。同时,在LDM-4-G上展示出了印象深刻的4.1倍速度提升,虽然在ImageNet上的FID损失为0.22。 研究人员对DeepCache进行了评估,实验比较结果显示,DeepCache的性能优于当前的修剪和蒸馏技术,而这些技术通常需要重新训练。它甚至展示了与现有采样方法相兼容的特点。在相同吞吐量下,它与DDIM或PLMS的性能相似或略优,最大限度地提高了效率而不损失产生的输出质量。 研究人员总结了DeepCache的主要贡献如下: DeepCache与当前快速采样器配合良好,展示了实现类似甚至更好生成能力的可能性。 它通过在运行时动态压缩扩散模型,提高了图像生成速度,无需额外训练。 利用可缓存特征,DeepCache通过使用高级特征的时间一致性,减少了重复计算。 DeepCache通过引入定制的扩展缓存间隔技术,提高了特征缓存的灵活性。 在CIFAR、LSUN-Bedroom/Churches、ImageNet、COCO2017和PartiPrompt上的实验表明,DeepCache在DDPM、LDM和Stable Diffusion模型上的效果更好。 与需要重新训练的修剪和蒸馏算法相比,DeepCache的性能更好,保持了更高的效能。 总之,DeepCache作为一种扩散模型加速器,显示出巨大的潜力,为传统的压缩技术提供了有用且经济实惠的替代方案。

Leave a Comment

腾讯研究员发布FaceStudio:一种创新的人工智能文本到图像生成方法,专注于保留身份

文本到图像扩散模型代表了人工智能研究中一个有趣的领域。它们旨在根据文本描述创建逼真的图像,利用扩散模型进行生成。该过程涉及从基本分布中逐步生成样本,逐渐转化为与目标图像相似,同时考虑文本描述。多个步骤参与其中,将逐步引入噪音来生成图像。 目前的文本到图像扩散模型面临一个现有的挑战:仅凭文本描述准确地描绘一个主题。当需要生成复杂细节,如人脸特征时,尤其明显。因此,在探索超越文本线索的保持身份的图像合成方面,人们越来越有兴趣。 腾讯的研究人员提出了一种新的方法,专注于人体图像的身份保持图像合成。他们的模型采用了直接向前传递的方法,绕过复杂的微调步骤,以便快速高效地生成图像。它利用文本提示并结合样式和身份影像的额外信息。 他们的方法涉及一种多身份跨注意机制,使模型能够将来自不同身份的特定引导细节与图像中的不同人体区域相关联。通过使用包含人体图像的数据集对模型进行训练,并以人脸特征作为身份输入,模型学会在强调身份特征的同时重建人体图像。 他们的模型展示了在保留主体身份的同时合成人体图像的出色能力。此外,它使用户能够将自己的面部特征投影到不同风格的图像(如卡通),使用户能够在不损害身份的前提下以不同的风格进行可视化。此外,当提供相应的参考照片时,它在混合多个身份的创意生成方面表现出色。 他们的模型在单镜头和多镜头场景中展示了出色的性能,凸显了其在保护身份方面的设计的有效性。尽管基线图像重建大致保持图像内容,但在细粒度身份信息方面存在困难。相反,他们的模型成功地从身份引导分支中提取身份信息,从而为面部区域实现了更好的结果。 然而,该模型复制人脸的能力引发了伦理关注,尤其是可能创建冒犯性或文化不恰当的图像。负责任地使用这项技术至关重要,需要制定准则以防止在敏感情境中滥用。

Leave a Comment

这篇来自谷歌和加利福尼亚大学伯克利分校的人工智能论文介绍了NeRFiller:一种通过2D修补扩散模型彻底改革3D场景重建的人工智能方法

如何有效地完成3D捕获的缺失部分?这篇来自Google Research和UC Berkeley的研究论文介绍了“NeRFiller”,一种新颖的3D修补方法,解决了由于重建失败或缺乏观察而经常缺失的不完整的3D场景或物体的重建问题。该方法通过参考示例控制修补过程,从而实现精确和可定制的场景修补。NeRFiller是一种3D生成修补方法,可以增强3D捕获中的场景或物体,是改善3D重建的有效解决方案。 该研究探讨了从传统的2D修补到像LaMa这样的大规模修补技术的不同方法,涉及概率和潜在扩散模型,考虑到涉及文本或图像的3D生成方法。强调了对象去除设置的相关性,并对3D修补的各种基准和数据集进行了评估。虽然涉及视频和场景编辑的相关作品,但重点主要是现有3D场景的场景完成。 该研究解决了3D场景补全和修补的挑战,强调了3D感知和多视角一致性方法的重要性。区分了场景补全和对象去除,重点是在3D场景中生成新的内容。讨论了2D生成修补模型在3D一致图像方面的限制。所提出的NeRFiller方法利用了从文本到图像扩散模型中的网格先验现象,以增强修补中的多视角一致性。还讨论了生成3D场景和对象去除方法的相关作品。 NeRFiller是一种利用生成的2D扩散模型作为修补的方法,用于完成3D场景中的缺失区域。它解决了各种修补估计和2D模型中缺乏3D一致性的挑战。NeRFiller引入了用于显著修补结果的整合机制,并鼓励3D特性。它利用迭代的3D场景优化,将网格修补扩展到大型图像集合。对比了Masked NeRF和LaMask等基准,证明了NeRFiller的有效性。评估包括比较、新视图度量、图像质量和几何度量。 NeRFiller在3D场景完成方面表现出色,填补了缺失区域并去除了不需要的遮挡物,在3D一致性和合理性方面表现出色。与对象去除基准相比,NeRFiller在完成缺失区域方面表现优异。评估指标包括NeRF、新视图、MUSIQ图像质量和几何度量,展示了它在生成连贯和逼真的3D场景方面的有效性。 总之,NeRFiller是一款强大的3D修补工具,可以准确完成3D场景中的缺失部分。它填充间隙并去除非理想元素的能力优于对象去除基准。引入联合多视角修补进一步增强其一致性,通过在多个图像上平均噪声预测。通过与最先进的基准进行比较,NeRFiller表现出了完成用户指定的3D场景的有效性。它为根据用户定义的规范修补3D捕获中的缺失区域提供了有价值的框架。

Leave a Comment

来自麻省理工学院和FAIR Meta的研究人员发布了RCG(Representation-Conditioned Image Generation):一种在无条件图像生成中开创性的人工智能框架

如何在不依赖人工标注的情况下生成高质量图像? MIT CSAIL和FAIR Meta的这篇论文解决了不依赖人工标注生成高质量图像的挑战。他们提出了一个名为Representation-Conditioned Image Generation(RCG)的新型框架,该框架利用从图像分布经过预训练编码器获得的自监督表示分布。这个框架在无条件生成图像方面取得了优秀的结果,并且在有条件生成图像方面与领先方法一直保持竞争力。 历史上,监督学习主导了计算机视觉,但是像对比学习这样的自监督学习方法缩小了差距。尽管先前的图像生成工作在使用人工标注进行有条件生成方面表现出色,但无条件生成面临挑战。引入的框架RCG通过在没有人工标注的情况下在类有条件和类无条件图像生成方面取得了卓越的成果。 RCG取得了最先进的结果,标志着自监督图像生成的重大进展。 使用自监督教育的Representation Diffusion Model(RDM)可以帮助弥合图像生成中监督学习和无监督学习之间的差距。RCG将RDM与像素生成器集成,从而实现了潜在优势的类无条件图像生成。 RCG框架将图像生成条件化为通过预训练编码器从图像分布获得的自监督表示分布。利用像素生成器对像素进行条件化,RCG通过通过去噪扩散隐式模型进行的表示空间采样来集成RDM的训练。 RCG集成了无需分类器的指导,以改善生成模型的性能,如MAGE所示。像Moco v3这样的预训练图像编码器将表达式规范化为输入到RDM中。 RCG框架在类无条件图像生成方面表现出色,实现了最先进的结果,并在类有条件图像生成方面与领先方法相媲美。在ImageNet 256×256数据集上,RCG达到了3.31的Frechet Inception Distance和253.4的Inception Score,表明生成了高质量的图像。通过对表示进行条件化,RCG显著改善了像ADM,LDM和MAGE等不同像素生成器的类无条件生成,并进一步改善了性能的训练周期。 RCG的自我条件化图像生成方法在各种现代生成模型中具有通用性,始终改善类无条件生成。 RCG框架借助自监督表示分布在类无条件图像生成方面取得了突破性成果。其与多样的生成模型的无缝集成显著改善了它们的类无条件性能,而其不依赖于人工标注的自我条件化方法有望超越有条件方法。RCG的轻量级设计和任务特定的训练适应性使其能够利用大型无标签数据集。 RCG已经被证明是一种非常有效和有前途的高质量图像合成方法。

Leave a Comment

来自CMU和Meta的新型AI研究介绍了PyNeRF:具有尺度感知和基于网格渲染的神经辐射场的重大飞跃

如何改进神经辐射场(NeRFs)以处理尺度变化并减少场景重建中的锯齿伪影?卡内基梅隆大学和Meta的一篇新研究论文通过提出金字塔神经辐射场(PyNeRF)来解决这个问题。它通过在不同的空间网格分辨率上训练模型头部,从而帮助减少在不同相机距离下重建场景时可能发生的视觉畸变。PyNeRF在不显著影响性能的情况下实现了这些改进,使其成为在加速NeRFs的同时保持高质量场景重建的有效解决方案。 受到NeRF的启发,该研究探索了基于网格的方法(NSVF、Plenoxels、DVGO、TensoRF、K-Planes、Instant-NGP),旨在使用体素网格和张量近似来增强渲染速度和内存效率。PyNeRF在不同尺度上结合了速度优势与质量保证,超越了Instant-NGP、Nerfacto等快速渲染方法,并在渲染质量和训练速度上表现出色。 近期在神经体积渲染方面的进展,特别是NeRFs,为实现逼真的视图合成提供了进展。然而,NeRFs由于其MLP表示和假设而导致速度较慢,容易出现锯齿现象。基于网格的方法如Mip-NeRF加速训练,但缺乏与位置编码的兼容性——PyNeRF受到分治NeRF扩展和经典技术的启发。PyNeRF的金字塔模型沿着光线采样,并采用分区方法来提高渲染质量,同时保持加速的NeRF实现的速度,为高效和高质量的新视图合成提供了一种多功能解决方案。 研究建议修改基于网格的模型,并在不同的空间网格分辨率下训练模型头部以渲染较大的体积样本。使用SUDS作为基础模型,他们逐步在更高的分辨率上进行训练。文中还讨论了各种基于网格加速方法,将学到的特征存储在体素网格或哈希表等结构中。研究人员对其方法进行了与LaplacianPyNeRF和其他插值方法的评估,考察了重用特征网格和使用2D像素区域的影响。其主要贡献是一种多功能的分区方法,可以提高可视保真度,同时在任何现有的网格渲染方法中保持渲染速度。 PyNeRF在合成和真实场景中大大提高了渲染质量,将误差率降低了20-90%,对性能的影响很小。与Mip-NeRF相比,它在训练速度上提高了60倍,并减少了20%的误差。PyNeRF在2小时内达到了SUDS的质量,各项指标优于基准,而SUDS需要4小时。对合成和多尺度Blender数据集的评估结果显示,与快速渲染方法相比,PyNeRF在合成和Multi-scale Blender数据集上展现出卓越的结果。通过对Argoverse 2 Sensor数据集的评估,验证了PyNeRF在众多视频帧中的高质量重建。 总而言之,PyNeRF在快速体积渲染器中改进了抗锯齿特性,展示出在各种数据集上的卓越成果。该方法倡导分享真实场景捕捉,以进一步研究神经体积渲染。然而,它也注意到高质量神经表示的潜在安全和隐私风险。 未来研究可以通过分享更多的真实场景捕捉和探索替代的映射函数来为层次结构分配积分体积。一个有价值的研究方向是在模型训练期间使用语义信息进行隐私过滤。有趣的未来研究方向包括进一步探索架构以提高在快速NeRF方法中可视保真度同时保持渲染速度。潜在的研究领域涉及将金字塔方法应用于其他加速的NeRF实现,并评估其性能。

Leave a Comment

遇见VideoSwap:一种通过交互式语义点对应来自定义视频主题交换的人工智能框架

最近,视频编辑领域取得了重要的进展,其中以使用人工智能(AI)进行编辑的技术为主导。新的众多技术涌现出来,其中以基于扩散的视频编辑为特别有前景的领域。它利用预训练的文本到图像/视频扩散模型来实现风格改变、背景替换等任务。然而,视频编辑最具挑战性的部分是将来自源视频的运动转移到编辑后的视频中,并在整个过程中确保时间上的一致性。 大多数视频编辑工具注重通过确保时间一致性和运动对齐来保留视频的结构。然而,在处理视频中形状的改变时,该过程变得无效。为了弥补这一差距,本文的作者(新加坡国立大学Show Lab和GenAI,Meta的研究人员)介绍了VideoSwap框架,该框架使用语义点对应来对齐主体的运动轨迹并改变其形状,而不是密集的点对应。 使用密集对应可以更好地保持时间上的一致性,但它限制了在编辑后的视频中主体形状的改变。虽然使用语义点对应是一种灵活的方法,但它在不同的开放世界设置中会有所变化,这使得难以训练一个通用条件模型。研究人员尝试仅使用有限数量的源视频帧来学习语义点控制。他们发现优化源视频帧上的点可以对齐主体的运动轨迹并改变主体的形状。此外,优化的语义点也可以在语义和低层次的更改之间进行传递。这些观察结果为使用语义点对应在视频编辑中提供了依据。 研究人员通过以下方式设计了该框架。他们将运动层集成到图像扩散模型中,以确保时间上的一致性。他们还在源视频中识别语义点并利用它们来传输运动轨迹。该方法仅关注高级语义对齐,从而防止过度学习低级细节,从而增强语义点对齐。此外,VideoSwap还具有用户点互动功能,例如删除或拖动多个语义点对应。 研究人员使用潜在扩散模型实施了该框架,并采用AnimateDiff中的运动层作为基础模型。他们发现,与先前的视频编辑方法相比,VideoSwap在同时对齐源运动轨迹、保留目标概念身份的基础上实现了显著的形状改变。研究人员还利用人工评估者验证了他们的结果,结果明确表明VideoSwap在主体身份、运动对齐和时间一致性等指标上优于其他比较方法。 总之,VideoSwap是一个多功能框架,可用于视频编辑,即使涉及复杂的形状也可以。它在过程中限制了人工干预,并使用语义点对应来实现更好的视频主体替换。该方法还允许在同时改变形状的同时将运动轨迹与源对象对齐,并在多个指标上优于先前的方法,展示了定制视频主体替换的最新成果。

Leave a Comment

这篇人工智能论文介绍了高质量的端对端区域分割方法(SANeRF-HQ),可以实现在给定场景中对任何物体进行高质量的三维分割

香港科技大学、卡内基梅隆大学和达特茅斯学院的研究人员开发了SANeRF-HQ(高质量中任意分割)方法,以实现复杂场景中准确的三维分割。以前基于NeRF的物体分割方法在准确性上有限。但是,SANeRF-HQ结合了“任意分割模型”(SAM)和“神经辐射场”(NeRF)以提高分割准确性,在复杂环境中提供高质量的三维分割。 NeRF在三维问题中很受欢迎,但在复杂场景中存在挑战。SANeRF-HQ通过使用由用户引导的SAM进行开放世界物体分割,以及使用NeRF进行信息聚合来克服这一挑战。它在分割对象定位和视图间一致的分割方面优于以前的NeRF方法。对NeRF数据集的定量评估突显了它对三维计算机视觉和分割的潜在贡献。 NeRF在使用多层感知器进行新视图合成方面表现出色。尽管NeRF内的三维物体分割取得了成功,但Semantic-NeRF和DFF等以往的方法依赖于受限的预训练模型。SAM允许使用多样的提示,对分割的零样本泛化表现出良好的适应性。SANeRF-HQ利用SAM进行开放世界分割和NeRF进行信息聚合,应对复杂场景的挑战,在分割质量上超越以前的NeRF分割方法。 SANeRF-HQ使用特征容器、掩码解码器和掩码聚合器实现高质量的三维分割。它对SAM特征进行编码,生成中间掩码,并使用NeRF的颜色和密度场将二维掩码整合到三维空间中。该系统结合了SAM和NeRF的开放世界分割和信息聚合。它可以使用NeRF渲染的视频和SAM的自动分割功能执行基于文本和自动的三维分割。 SANeRF-HQ在高质量的三维物体分割方面表现出色,超越以前的NeRF方法。它提供了对于物体定位和视图间分割的增强灵活性。在多个NeRF数据集上的定量评估证实了其有效性。SANeRF-HQ在动态NeRF方面表现出潜力,它可以根据文本提示进行分割,并实现自动三维分割。使用密度场、RGB相似度和Ray-Pair RGB损失能够提高分割准确性,填补缺失的内部和边界,从而改善视觉效果并获得更稳固的分割结果。 总之,SANeRF-HQ是一种高级的三维分割技术,它在多视角上超越了以前的NeRF方法,具有良好的灵活性和一致性。它在各种NeRF数据集上的出色表现表明,它有潜力为三维计算机视觉和分割技术做出重要贡献。将其扩展为四维动态NeRF物体分割,并利用密度场、RGB相似度和Ray-Pair RGB损失进一步提高其准确性和质量,以融入颜色和空间信息。 未来的研究可以探索SANeRF-HQ在四维动态NeRF物体分割方面的潜力。它可以通过在复杂和开放世界场景中的应用,结合语义分割和场景分解等先进技术的整合,提高其功能。对SANeRF-HQ在真实场景中的可用性和有效性进行用户研究可以提供有价值的反馈。对于大规模场景和数据集的可扩展性和效率的进一步研究对于优化实际应用中的性能至关重要。

Leave a Comment

中国最大、最繁忙的机场迎来视觉人工智能时代的腾飞

加拿大安大略省的多伦多皮尔逊国际机场是该国最大、最繁忙的机场,每年为约5000万名乘客提供服务。 为了提升旅客体验,机场于6月份部署了Zensors AI平台,该平台利用现有安全摄像头的匿名化镜头内容生成空间数据,以实时优化运营。 Zensors是NVIDIA Metropolis视觉AI合作伙伴生态系统的成员之一,帮助多伦多皮尔逊机场的运营团队大幅减少海关排队时间,将乘客在2022年高峰期从估计的30分钟减少到去年夏天不到6分钟。 公司联合创始人兼产品和技术负责人Anuraag Jain表示:“Zensors让所有人都能轻松使用视觉AI。” 对于大多数组织来说,扩展多模态、基于转换器的AI并不容易,Jain补充道,因此机场通常会按照传统的、效果较差的解决方案进行选择,基于硬件传感器、激光雷达、3D立体摄像头进行改进,或者通过翻新或建设新的航站楼来改善运营,这可能是耗资数十亿美元的项目。 Jain表示:“我们提供一个平台,让机场更像软件公司,利用现有摄像头和最新的AI技术,快速、廉价、准确地部署解决方案。” 加速机场运营 为了满足不断增长的旅行需求,多伦多皮尔逊需要一种方法,能在几周内改善运营,而不是通常需要数月或数年的时间来升级或建设新的航站楼基础设施。 Zensors AI平台在机场的两个航站楼监测了20多条海关通道,提供了这样一个解决方案。它将机场现有摄像系统的视频转换为结构化数据。 利用匿名化的镜头内容,该平台计算排队人数、识别拥堵区域、预测乘客等待时间等任务,并实时提醒员工以加快操作。 该平台还提供分析报告,帮助运营团队评估绩效、更有效地规划并重新部署人员以实现最佳效率。 除了为机场运营商提供数据驱动的见解外,Zensors AI的实时等待时间统计数据还会发布在多伦多皮尔逊的在线仪表板上,以及航站楼的电子显示屏上。这让乘客可以轻松获取有关海关或安检流程所需时间的准确信息,全面提升客户满意度,并减少对于能否及时乘上联程航班的担忧。 “我们从Zensors平台获得的分析结果证明非常准确,”多伦多皮尔逊机场的管理公司,大多伦多机场管理局的机场IT规划和发展主管Zeljko Cakic表示。“我们的目标是提高整体客户体验和减少等待时间,而通过Zensors平台收集的数据是推动这些结果的重要因素之一。” NVIDIA驱动的准确AI Zensor AI使用视觉转换器模型来提供准确的见解,其准确度与人工手动验证信息相比约为96%。这一切都由NVIDIA技术驱动。 Jain表示:“Zensors模型开发和推断运行时堆栈实际上就是NVIDIA AI堆栈。” 该公司使用NVIDIA的GPU和CUDA并行计算平台来训练其AI模型,还使用基于深度神经网络的加速库cuDNN和用于解码和增强图像和视频的NVIDIA…

Leave a Comment

这项人工智能研究揭示了照片SLAM:提升便携式设备上的实时逼真地图制作水平

在计算机视觉和机器人技术中,使用相机进行同时定位与地图构建(SLAM)是一个关键的主题,旨在使自主系统能够导航并理解其环境。传统SLAM系统主要强调几何映射,可以产生精确但审美基础的环境表示。然而,最近神经渲染的进步表明,可以将逼真的图像重建融入SLAM过程中,从而提高机器人系统的感知能力。 现有方法在很大程度上依赖于隐式表示,使其计算要求高,并且不适用于资源受限的设备上部署,尽管神经渲染与SLAM的融合产生了有希望的结果。例如,ESLAM使用多尺度紧凑的张量组件,而Nice-SLAM使用分层网格来保存反映环境的可学习特征。随后,它们合作估计相机位置并通过减少多条射线样本的重建损失来增加特征。优化过程非常耗时。因此,为了确保有效的收敛,它们必须集成来自多个源的相关深度信息,例如RGB-D相机、密集光流估计器或单目深度估计器。此外,由于多层感知器(MLP)解码隐式特征,通常需要精确指定边界区域以规范射线采样以取得最佳结果。这限制了系统的潜力扩展。这些限制表明,在使用便携式平台进行SLAM实时探索和未知区域的建图能力中,无法实现其中一个主要目标。 在本文中,香港科技大学和中山大学的研究团队提出了Photo-SLAM。这个新颖的框架在解决目前方法的可扩展性和计算资源限制的同时,执行在线逼真的建图和精确的定位。研究团队跟踪一张点云的超基本地图,其中包括旋转、缩放、密度、球谐系数和ORB特征。通过在原始图片和渲染图片之间反向传播损失,超基本地图使系统能够学习相应的映射并使用因子图求解器优化跟踪。而不是使用射线采样,采用三维高斯喷洒来生成图像。虽然引入三维高斯喷洒渲染器可以降低视角重建的成本,但在在线增量建图中无法产生高保真度的渲染,特别是在单目情况下。此外,研究团队提出了一种基于几何的加密技术和基于高斯金字塔(GP)的学习方法,以实现无需依赖密集深度信息的高质量建图。 图1:Photo-SLAM是一种革命性的实时框架,支持RGB-D、立体和单目相机进行同时定位和逼真地图构建。它的渲染速度高达每秒1000帧,可以重建高保真度的场景视图。 重要的是,GP学习使得多级特征逐渐获取变得更加容易,显著提高了系统的建图性能。研究团队在其漫长的试验中使用了各种由RGB-D、立体和单目相机拍摄的数据集来评估他们提出的方法的有效性。实验结果清楚地表明,PhotoSLAM在渲染速度、逼真地图质量和定位效率方面达到了最先进的性能。此外,Photo-SLAM系统在嵌入式设备上的实时操作展示了它在有用的机器人应用中的潜力。图1和图2显示了Photo-SLAM的操作概述。 图2:显示了Photo-SLAM的四个关键组成部分,它维护一个具有超基本元素的地图,包括定位、显式几何映射、隐式逼真映射和闭环组件。 本作品的主要成果如下: • 研究团队基于超原生地图和同时定位技术创建了首个逼真的测绘系统。这个新的框架适用于室内和室外的单目、双目和RGB-D相机。 • 研究团队提出了使用高斯金字塔学习的方法,使得模型能够有效快速地学习多层次的特征,从而实现高保真度的测绘。该系统即使在嵌入式系统上也能以实时速度运行,并通过完全的C++和CUDA实现实现了最先进的性能。代码将公开提供。

Leave a Comment

CMU研究人员揭示了扩散-TTA 通过生成反馈提升有区分性的人工智能模型,实现无与伦比的测试适应性

扩散模型用于从复杂的数据分布中生成高质量的样本。鉴别性扩散模型旨在利用扩散模型的原理来进行分类或回归等任务,其中目标是预测给定输入数据的标签或输出。通过利用扩散模型的原理,鉴别性扩散模型具有处理不确定性、对噪声的稳健性和捕捉数据之间复杂依赖关系的潜力等优势。 生成模型可以通过量化新数据点与学习到的数据分布的偏差来识别异常或异常值。它们可以区分正常和异常数据实例,有助于异常检测任务。在传统上,这些生成和鉴别模型被视为相互竞争的选择。卡内基梅隆大学的研究人员在推理阶段将这两个模型耦合起来,以利用生成反演的迭代推理和鉴别模型的拟合能力的好处。 该团队构建了一种基于扩散的测试时间适应(TTA)模型,通过使用图像分类器、分割器和深度预测器的输出来调节图像扩散模型的条件并最大化图像扩散,从而使其适应各个未标记图像。他们的模型类似于编码器解码器架构。一个预训练的鉴别模型将图像编码为假设,如对象类别标签、分割地图或深度地图。这被用作预训练的生成模型的条件生成图像。 扩散-TTA能够有效地适应图像分类器在ImageNet及其变体等已建立基准上的内部和外部分布示例。他们使用图像重构损失对模型进行微调。通过将扩散似然梯度反向传播到鉴别模型权重,对测试集中的每个实例进行适应性处理。他们表明他们的模型优于以前的最先进TTA方法,并且在多个鉴别性和生成性扩散模型变体中都有效。 研究人员还对各种设计选择进行了剖析分析,并研究了扩散-TTA与扩散时间步长、每个时间步长样本数和批量大小等超参数的变化情况。他们还学习了适应不同模型参数的效果。 研究人员表示,扩散-TTA始终优于扩散分类器。他们猜测鉴别模型不会过度拟合生成损失,因为(预训练的)鉴别模型的权重初始化防止其收敛到这个平凡解决方案。 总之,以前已经使用生成模型对图像分类器和分割进行测试时间适应;通过在联合鉴别任务损失和自监督图像重构损失下共同训练扩散-TTA模型,用户可以获得高效的结果。

Leave a Comment

人类活动识别中的深度学习:这项AI研究利用树莓派和LSTM引入了自适应方法,以提高地点无关的准确性

Translate this HTML (keep the HTML code in the result) to Chinese: 人体行为识别(HAR)是一项研究领域,专注于开发基于来自各种传感器收集的数据自动识别和分类人类活动的方法和技术。HAR旨在使智能手机、可穿戴设备或智能环境等机器能够实时理解和解读人类活动。 传统上,使用可穿戴传感器和基于摄像头的方法。可穿戴传感器对用户来说不舒适且不方便。基于摄像头的方法需要侵入性安装,引发隐私问题。现有的HAR技术面临位置依赖性、对噪声敏感性以及在各种应用中识别多样化活动时需要更多灵活性等挑战,从智能家居到医疗保健和物联网(IoT)等应用。UTeM采用的方法提供了精确、适应性强且与位置无关的解决方案。 马来西亚梅尔卡大学(UTeM)的研究人员制定了一种人体活动识别(HAR)方法,以应对传统限制。他们引入了一种利用信道状态信息(CSI)和先进深度学习技术的系统。 该系统结合了信道状态信息(CSI)和长短时记忆(LSTM)网络。该系统提取无线通信信道状态的重要指标,实现实时分类和绝对位置无关的感知。LSTM网络通过对活动特征进行顺序学习,简化识别过程并适应不同人和环境中的活动变化。 研究人员强调,首先使用树莓派4和专用固件进行数据收集和预处理,以获取原始信道状态信息(CSI)数据,然后使用MATLAB进行优化,以提高质量和应用。 长短时记忆(LSTM)网络被用于从CSI数据中提取关键特征,从而实现对复杂人类活动的准确识别。他们对LSTM模型和分类流程进行了严格的训练,其中包括用于模式识别的在线阶段和用于增强性能的离线阶段。 该系统引入了使用LSTM算法的信号分割方法,以准确确定人类活动的起点和终点。 研究人员测试了该系统,并发现它在人类活动识别方面达到了令人印象深刻的97%的准确率。它展示了在适应新环境方面的能力,标志着HAR技术的重大进步。 研究人员强调了他们系统的卓越适应性。它可以轻松融入不同的环境,而无需进行大量的重新训练或主要更改。这种灵活性使其成为各个领域的实用解决方案,有效应对各种实际需求。这种方法代表了HAR技术的重大进步,具有在智能家居、医疗保健和物联网等多个行业产生重大影响的潜力。

Leave a Comment

谷歌人工智能和特拉维夫大学研究人员展示了一个人工智能框架,将文本到图像扩散模型与专门的镜头几何图像渲染相结合

最近,在图像生成方面取得了重大进展,利用大规模扩散模型在配对的文本和图像数据上进行训练,加入多样化的条件方法以增强视觉控制。这些方法从明确的模型条件到修改预训练架构以适应新的模态。利用提取的图像特征如深度对文本条件的模型进行微调,可以实现图像重建。早些时候的研究人员引入了一种使用原始分辨率信息进行多分辨率和形状一致图像生成的GANs框架。 谷歌研究和特拉维夫大学的研究人员提出了一种AI框架(AnyLens),将文本到图像扩散模型与特殊的镜头几何结构相结合,用于图像渲染。这种整合使得对渲染几何的精确控制成为可能,通过一个单一的扩散模型可以生成鱼眼、全景视图和球面纹理等多样化的视觉效果。 该研究通过引入一种新的方法来解决将多样化光学控制融入文本到图像扩散模型的挑战。该方法使模型能够在局部镜头几何条件下进行条件附加,提高了模型复制精巧光学效果以生成逼真图像的能力。除了传统的画布变换外,该方法还允许通过逐像素坐标条件进行几乎任何栅格扭曲。这种创新支持各种应用,包括全景场景生成和球面纹理。它引入了一个度量张量条件的流形几何感知图像生成框架,扩大了对图像生成的控制和操作的可能性。 该研究通过逐像素坐标条件将文本到图像扩散模型与特定镜头几何相结合的框架。该方法通过使用随机变换场扭曲图像生成的数据对预训练潜扩散模型进行微调。采用了自注意力层的令牌重加权。该方法允许曲率特性的操作,产生鱼眼和全景视图等多样效果。它超越了固定分辨率的图像生成,采用度量张量条件以增强控制。该框架扩展了图像操作的可能性,解决了扩散模型中大型图像生成和自注意力尺度调整等挑战。 该框架成功地将文本到图像扩散模型与特定的镜头几何结合起来,以一个模型实现了鱼眼、全景视图和球面纹理等多样化的视觉效果。它可以精确控制曲率特性和渲染几何,生成逼真而细致的图像。该方法通过对大型文本注释数据集和逐像素变换场进行训练,生成任意变形的图像,并且结果与目标几何形状紧密对齐,无失真。它还便于创建具有逼真比例和最小伪影的球形全景图。 总之,新引入的框架在图像渲染中整合了各种镜头几何,提供了对曲率特性和视觉效果的增强控制。通过逐像素坐标和度量条件,该方法便于对渲染几何进行操纵,创造出具有精准曲率特性,引起几何操纵的高度逼真图像。该框架鼓励图像合成中的创造性和控制,使其成为生产高质量图像的有价值的工具。 未来的工作建议通过探索先进的条件技术来克服该方法的局限性,从而增强多样化图像生成。研究人员提出扩展该方法以达到捕捉不同场景的专用镜头类似结果的可能性。提及使用更先进的条件技术的潜在用途,预计将实现改进的图像生成和增强的能力。

Leave a Comment

稳定AI引入对抗扩散蒸馏(ADD):在最少步骤中进行高保真度、实时图像合成的突破性方法

在生成模型中,扩散模型(DMs)扮演了关键角色,促进了在生成高品质图片和视频合成方面的最新进展。可扩展性和迭代性是DMs的两个主要优势;它们使其能够完成诸如根据自由文本线索创建图片等复杂任务。不幸的是,目前迭代推理过程所需的许多样本步骤阻碍了DMs的实时使用。另一方面,生成对抗网络(GANs)的单步形式和固有速度使其独具特色。然而,就样本质量而言,尽管已经做出扩展到大数据集的努力,GANs通常仍然需要更多DMs。 在这项研究中,来自Stability AI的研究人员旨在将GANs的固有速度与DMs的较高样本质量相结合。他们的策略在概念上很简单:研究团队提出Adversarial Diffusion Distillation(ADD),这是一种保持对抽样保真度的通用技术,可以通过将预训练的扩散模型的推理步骤减少到1-4个抽样步骤来增强模型的整体性能。研究团队结合了两个训练目标:(i)等同于评分蒸馏抽样(SDS)的蒸馏损失和敌对损失。 在每次前向传播中,敌对损失鼓励模型直接生成位于实际图片流形上的样本,消除了其他蒸馏技术中常见的模糊等伪影。为了保留大型DMs中所见到的高度组合性并有效利用预训练DM的大量知识,蒸馏损失使用另一个预先训练的(且固定的)DM作为教师。他们的方法还通过在推理过程中不使用无分类器的指导来减少内存需求。与早期的单步GAN-based方法相比,研究团队可以继续迭代开发模型并改善结果。 图1:显示了通过单一操作生成的高保真度照片。使用Adversarial Diffusion Distillation(ADD)训练为每个样本创建了一个单一的U-Net评估。 以下是他们的贡献摘要: • 研究团队提出了ADD,一种仅需1-4个抽样步骤将预训练的扩散模型转换为高保真度、实时图片生成器的技术。研究团队针对他们独特的方法进行了几个设计决策,将敌对训练与评分蒸馏相结合。 • ADD-XL在使用四个抽样步骤时,在5122像素的分辨率下胜过其教师模型SDXL-Base。• ADD可以处理复杂的图像合成,同时仅使用一次推理步骤保持高度逼真。• ADD在性能上明显优于LCM、LCM-XL和单步GANs等强基准。 总之,本研究引入了一种将预训练的扩散模型蒸馏为快速、少步骤的图片生成模型的通用技术:Adversarial Diffusion Distillation。通过使用鉴别器获取真实数据并通过扩散教师获取结构知识,研究团队将敌对训练和评分蒸馏目标相结合,以蒸馏公共的Stable Diffusion和SDXL模型。他们的分析显示,他们的技术击败了所有现有方法,并且在一到两个步骤的超快抽样区间中表现得特别好。此外,研究团队还可以通过多个过程改进样本。与IF、SDXL和OpenMUSE等流行的多步生成器相比,他们的模型在使用四个样本步骤时表现更好。他们的方法为使用基础模型进行实时生成开辟了新的可能性,使得能够在单一步骤中开发高品质照片成为可能。

Leave a Comment

Google DeepMind 研究介绍了 SODA:一个自我监督扩散模型,用于表示学习

Google DeepMind的研究人员开发了SODA,这是一个解决将图像编码为高效潜在表示的人工智能模型。借助SODA,实现了图像和语义属性之间的无缝过渡,允许在不同图像类别之间进行插值和变形。 扩散模型已经在视觉合成方面取得了革命性的进展,在图像、视频、音频和文本合成、规划和药物发现等各种任务中表现出色。尽管先前的研究聚焦于扩散模型的生成能力,但这项研究探索了扩散模型的表征能力这一未加充分利用的领域。该研究全面评估了基于扩散的表征学习在各种数据集和任务上的效果,从图像中揭示出了它们的潜力。 该模型强调了合成在学习中的重要性,并突出了扩散模型的显著表征能力。SODA是一个自监督模型,通过信息瓶颈实现了解缠绕和信息丰富的表征。SODA在分类、重构和合成任务中展示了它的优势,包括高性能的少样本新视角生成和语义特质的可控性。 SODA模型利用信息瓶颈通过自监督扩散创建解缠绕的表征。该方法使用基于分布的预训练来改进表征学习,从而在分类和新视角合成任务中获得强大的性能。通过广泛评估包括ImageNet在内的多样数据集,验证了SODA的能力。 SODA在表示学习领域表现出杰出的结果,卓越地改进了分类、解缠度、重构和新视角合成等方面。与变分方法相比,它显著提高了解缠度度量。在ImageNet线性探测分类中,SODA超越了其他辨别模型,并展示了对数据增强的稳健性。SODA的多功能性体现在生成新视角和无缝属性转换方面。通过实证研究,SODA已经被证明是一种有效、强大和多功能的表征学习方法,该方法支持详细分析、评估指标和与其他模型的比较。 总之,SODA在表征学习方面表现出了出色的熟练度,为各种任务提供了强大的语义表征,包括分类、重构、编辑和合成。它利用信息瓶颈专注于关键的图像特性,并在解缠度度量方面超越了变分方法。SODA的多功能性体现在其生成新视角、转换语义属性和处理更丰富的条件信息(如相机视角)的能力。 作为未来的工作,深入探究SODA领域的价值在于对3D数据集的动态组合场景进行研究,并弥合新视角合成和自监督学习之间的差距。还需要进一步研究模型结构、实施和评估细节,例如扩散模型的基本知识、超参数、训练技术和采样方法。建议进行消融和变异研究,以更好地理解设计选择,并探索交叉注意力和层内调制等替代机制。这样可以提高诸如3D新视角合成、图像编辑、重构和表征学习等各种任务的性能。

Leave a Comment

北京大学和微软的研究人员推出COLE:一种有效的分层生成框架,可将简单的意图提示转化为高质量的图形设计

自然图片的制作质量现在与专业摄影相当,这要归功于最近在质量上有显著改进的成果。这一进步归因于DALL·E3、SDXL和Imagen等创建技术。推动这些发展的关键要素包括使用强大的大规模语言模型(LLM)作为文本编码器,扩大训练数据集,增加模型复杂度,改进采样策略设计以及提高数据质量。研究团队认为,现在是时候专注于开发更专业的图片,特别是在品牌设计、市场营销和广告中具有关键作用的图形设计。 作为一个专业领域,图形设计利用视觉传达的力量向特定社会群体清晰传递信息。这是一个需要想象力、独创性和快速思维的领域。在图形设计中,通常使用数字或手动方法将文字和视觉元素结合起来,创造出视觉上引人注目的故事。其主要目标是组织数据,为概念提供意义,并为记录人类体验的对象提供表达和情感。在图形设计中,对字体、文字排列、装饰和图像的创造性运用常常可以通过独立的想法、感受和态度来实现,这是单纯使用文字无法表达的。制作出顶级设计需要高度的想象力、独创性和侧面思考。 根据现有研究,具有突破性的DALL·E3在生成高质量设计图片方面具有显著的技能,如图1所示,其设计图片具有引人注目的布局和图形。然而,这些图片也存在着缺陷。它们持续面临的问题包括渲染视觉文本出现错误,经常会漏掉或添加额外的字符(这也是的情况)。此外,由于这些生成的图片基本上无法编辑,修改它们需要复杂的过程,例如分割、擦除和修复填充。用户需要提供全面的文本提示,这是另一个重要的限制。为视觉设计生产创建良好的提示通常需要高水准的专业技能。 图1 使用设计意图说明了DALL·E3(增强版GPT-4)生成的设计图片。 如图2所示,与DALL·E3不同,他们的COLE系统只需基本的用户需求就能生成优质的图形设计图片。根据研究团队的说法,这三个限制严重影响了图形设计图片的质量。高质量、可扩展的视觉设计生成系统理想情况下应该提供一个灵活的编辑区域,为各种用途生成准确、高质量的排版信息,并要求用户付出较低的努力。用户可以根据需要使用人工的技能进一步提升结果。这一努力旨在建立一个稳定有效的自主文本到设计系统,能够根据用户意图提示生成优秀的图形设计图片。 图2: 上图是COLE系统生成的图片的视觉呈现。有趣的是,我们的系统只接收一个文字意图描述作为输入。其余的元素包括文本、设计图形和相关的排版属性(如字体类型、大小和位置)都由智能系统独立生成。 微软亚洲研究院和北京大学的研究团队提出了一种名为COLE的分层生成方法,以简化创建图形设计图像的复杂过程。该过程涉及几个专门的生成模型,每个模型旨在处理不同的子任务。 首先,重点是创造性设计和解释,主要是理解意图。通过使用尖端的LLM(语言-物理模型),即Llama2-13B,并利用近10万个策划意图的JSON配对数据集进行优化来实现这一目标。设计相关的重要信息,包括文本说明、物品标题和背景标题,都包含在JSON文件中。研究团队还提供了用于其他目的的可选参数,如对象位置。 其次,他们着重于视觉的布局和改善,其中包括两个子任务:视觉构件和排版特征的生成。创建各种视觉特征需要对专门的级联扩散模型进行微调,例如DeepFloyd/IF。这些模型的构建方式保证了组件之间的平滑过渡,例如分层对象图像和装饰背景。然后,研究团队使用使用LLaVA-1.5-13B构建的装帧大型多模态模型(LMM)预测排版的JSON文件。该预测使用来自设计LLM的JSON文件,来自扩散模型的投影背景图片以及来自级联扩散模型的期望对象图像。然后,可视化渲染器使用预测的JSON文件中找到的布局组装这些组件。 第三阶段,为了提高设计的整体质量,提供了质量保证和评论。反映LMM必须进行仔细调整,并且必须使用GPT-4V(ision)进行全面而多方面的质量检查。这一最后阶段可以根据需要微调JSON文件,包括更改文本框的大小和位置。最后,研究团队创建了一个名为DESIGNERINTENTION的系统,其中包含大约200个专业图形设计意图提示,涵盖了各种类别和约20个创意类别,以评估系统的能力。然后,他们将他们的方法与目前使用的最先进的图像生成系统进行了比较,在各个子任务上进行了详尽的消融实验,对他们系统生成的图形设计进行了彻底的分析,并就图形设计图像生成的局限性和潜在未来发展方向进行了讨论。

Leave a Comment