Press "Enter" to skip to content

13 search results for "3D表示"

这篇人工智能论文介绍了MVControl:一种革命性的神经网络架构,改变了可控多视角图像生成和3D内容创作的方式

最近,在2D图片制作方面取得了显著的进展。输入文本提示使生成高保真度图形变得简单。因为需要3D训练数据,所以将文本到图像创建的成功很少转移到文本到3D领域。由于扩散模型和可微分3D表示的良好特性,最近基于分数蒸馏优化(SDS)的方法旨在从预训练的大型文本到图像生成模型中蒸馏3D知识,并取得了令人印象深刻的结果,而不是使用大量3D数据从头开始训练大型文本到3D生成模型。DreamFusion是一项引入了新方法的示范性工作,用于3D资产创建。 在过去的一年中,这些方法论已迅速发展,根据2D到3D蒸馏范式。通过应用多个优化阶段,同时优化扩散和3D表示,制定具有更高精度的分数蒸馏算法,或改进整个流程的细节,已提出了许多研究来提高生成质量。虽然上述方法可以产生细腻的纹理,但由于2D扩散先验不是依赖性的,确保生成的3D内容的视图一致性是困难的。因此,已经做出了一些努力,将多视图信息强制加入预训练的扩散模型中。 然后,将基本模型与控制网络集成,以实现受控的文本到多视图图片生成。同样,研究团队仅训练控制网络,MVDream的权重全部冻结。实验表明,相对于绝对世界坐标系中描述的相机姿态条件图片,相对于条件图片的相对姿态条件更好地控制文本到多视图生成,尽管MVDream是在训练时使用绝对世界坐标系中的相机姿态进行训练的。尽管如此,这与预训练的MVDream网络的描述相违背。此外,只有通过直接采用2D ControlNet的控制网络与基本模型交互时,才能轻松实现视图一致性,因为它的条件机制是为单一图像创建而构建的,需要考虑多视图情况。 为了解决这些问题,浙江大学、西湖大学和同济大学的研究团队基于原始的ControlNet架构创建了一种独特的调节技术,简单而成功地实现了受控的文本到多视图生成。他们联合使用了庞大的2D数据集LAION和3D数据集Objaverse来训练MVControl。在这项研究中,研究团队研究了将边缘图作为条件输入。然而,他们的网络在利用不同类型的输入情况(如深度图、草图图像等)方面是无限制的。一旦训练完成,研究团队可以使用MVControl为受控文本到3D资产生成提供3D先验。具体而言,研究团队使用基于MVControl网络和预训练的Stable-Diffusion模型的混合扩散先验。这是一个由粗到细的生成过程。当在粗阶段拥有良好的几何形状时,研究团队仅优化细化步骤中的贴图。他们的全面测试表明,他们提出的方法可以使用输入条件图像和书面描述生成高保真度、细粒度受控的多视图图像和3D内容。 总结起来,以下是他们的主要贡献。 • 在训练完成网络后,可将其用作混合扩散的组成部分,通过SDS优化实现对文本到3D内容合成的受控。 • 研究团队提出了一种独特的网络设计,以实现细粒度受控的文本到多视图图片生成。 • 他们的方法可以生成高保真度的多视图图像和3D资产,在输入条件图像和文本提示的精细控制下,如 extensive experimental results 所示。 • 除了通过 SDS 优化生成 3D 资产外,他们的 MVControl 网络还可以在 3D…

Leave a Comment

首尔国立大学研究人员引入了LucidDreamer:一种突破性的人工智能方法,利用扩散建模在虚拟现实中实现领域无关的3D场景生成

商业混合现实平台的发展和3D图形技术的快速进步使得高质量的3D场景的创建成为计算机视觉中的主要挑战之一。这需要将任何输入的文本、RGB和RGBD图片转换为各种逼真且多样的3D场景的能力。尽管已经尝试使用体素、点云和隐性神经表示等扩散模型直接构建3D对象和场景,但由于基于3D扫描的训练数据的限制,结果显示出有限的多样性和质量。使用预先训练的图像生成扩散模型(例如稳定扩散)生成各种优秀的3D场景是解决问题的一种方法。这样一个庞大的模型通过从大规模训练集中获得的数据驱动知识生成可信的图像,但无法确保生成的图像之间的多视点一致性。 首尔大学的研究团队在本文中提出了一种名为LucidDreamer的流水线,它使用3D高斯喷洒和稳定扩散从多种输入(包括文本、RGB和RGBD)生成各种高质量的3D场景。通过交替重复进行Dreaming和Alignment两个步骤,使用LucidDreamer流水线创建一个单一的大点云。在开始这两个过程之前,原始图像和匹配的深度图创建了一个初始点云。创建几何一致的图像并将其投影到三维空间中是梦境体验的两个方面。在将可见点云区域在新的相机坐标系上投影到新的相机平面之前,研究团队沿着预定义的相机轨迹移动相机。随后,投影的图像被送入基于稳定扩散的修补网络,该网络利用图像创建整个概念。通过将修补的图像和预测的深度图提升到3D空间中,创建了一组新的3D点。然后,通过轻微移动新点在3D空间中的位置,建议的对齐技术将其平滑地与当前点云连接起来。研究团队使用通过重复执行上述过程得到的大型点云作为初始SfM点来优化高斯喷洒。 与先前的表示相比,3D高斯喷洒的连续表示消除了点云中深度差异导致的间隙,使我们能够显示出更逼真的3D场景。图1展示了使用简单的LucidDreamer技术生成的3D生成结果。与当前模型相比,LucidDreamer显示出显著更逼真和令人震撼的结果。在研究团队比较基于ScanNet、NYUDepth和稳定扩散的图片条件下创建的3D场景时,所有数据集都显示出更好的视觉效果。 图1:研究人员创建了LucidDreamer,这是一个基本框架,用于从文本、RGB和RGBD输入类型生成高质量、多视点一致的3D场景。在将RGBD图像映射到第一个点云以生成后,LucidDreamer重复进行两个过程来扩大和保持其世界模型:对齐和梦境。通过优化高斯喷洒表示,完成了3D场景。 他们的模型可以创建各种风格的3D场景,包括逼真、动漫、乐高和室内/室外。他们的概念支持多个领域,并允许同时使用多个输入条件。例如,它根据文本创建一个3D场景并添加图片,将文本和图像条件在一起。这消除了完全从文本中创建预期场景的困难,并消除了大量生成样本的需求。此外,他们的方法允许在创建3D空间时修改输入条件。这些特点通过提供构建各种3D设置的机会来激发创造力。 他们总结了以下贡献。 • 研究团队推出了LucidDreamer,这是一个领域无关的高质量3D场景生成工具,它使用显式3D表示、深度估计和稳定扩散来改进3D场景合成中的领域泛化。 • 他们的Dreaming方法通过生成点云作为每个图片生成的几何指引,利用稳定扩散生成多视角图像。使用他们的对齐技术巧妙地将生成的照片整合在一起,创建一个连贯的3D场景。 • 他们的方法允许用户通过支持多种输入类型(文本、RGB和RGBD)以多种方式生成3D场景,同时允许在生成过程中更换输入。

Leave a Comment

供全世界看到:非营利组织采用 GPU 强化模拟器培训视力保护手术的医护人员

利用由GPU驅動的手術模擬設備,每年有超過2,000名醫生在低收入國家接受培訓,以治療白內障盲症,這是世界上最主要的致盲原因之一,感謝非營利組織HelpMeSee。 儘管白內障手術的成功率約為99%,但由於眼科醫生嚴重短缺,許多低收入和中等收入國家的患者缺乏接受常見手術的機會。據估計,受白內障相關視覺障礙或失明影響的1億人中,有90%位於這些地區。 通過培訓更多的醫療保健提供者—包括那些沒有眼科專業的人—以治療白內障,HelpMeSee改善了患者的生活質量,比如一位來自孟買附近比瓦迪的兩個年幼兒童的母親,她的雙眼被白內障致盲。 “手術後,她的視力顯著提高,她能夠找到工作,改變了她整個家庭的命運,”HelpMeSee在印度的首席教官和專業人士Dr. Chetan Ahiwalay表示。“她和她的丈夫現在幸福地養育他們的孩子,過著健康的生活。這些就是支持我們作為醫生的動力。” HelpMeSee的模擬器設備使用NVIDIA RTX GPU進行高質量視覺渲染,為醫生提供更真實的培訓環境,以磨練其手術技巧。為了進一步改善學員的體驗,NVIDIA的專家正在與HelpMeSee團隊合作,提高渲染性能,增加視覺逼真度,並結合實時光線追蹤和人工智能等下一代技術來改進模擬器。 通過可接觸的培訓解決可治療的失明問題 高收入國家每百萬居民擁有的眼科醫生數量比低收入國家多18倍。這種差距在某些國家更大,使得那些資源匱乏地區的人更難接受可避免的失明治療。 HelpMeSee的設備可以使用受航空業啟發的沉浸式工具培訓醫生進行多種眼科手術。該團隊在印度、中國、馬達加斯加、墨西哥和美國等國家培訓醫生,每年為新手術推出多語言培訓。 眼科手術模擬器提供逼真的3D視覺效果、觸覺反饋、性能評分和多次嘗試手術步驟的機會,直到學員達到熟練程度。像Dr. Ahiwalay這樣的合格教師會前往鄉村和城區進行結構化課程的培訓,并幫助外科醫生從模擬器過渡到實際手術。 培訓課程中醫生學習進行手動小切口白內障手術。 “我們正在降低醫療從業者學習這些具體技能的門檻,這將對患者產生深遠的影響,”位於紐約的HelpMeSee的首席執行官Dr. Bonnie An Henderson表示。“基於模擬的培訓將提高手術技能,同時保障患者的安全。” <b展望ai和高級渲染技術</b展望ai和高級渲染技術 HelpMeSee與位於瑞典哥德堡的醫療虛擬現實模擬器供應商Surgical Science合作,開發其設備的3D模型和實時渲染技術。其他合作夥伴,例如法國斯特拉斯堡的InSimo和印度普內的Harman Connected Services,則分別開發基於物理的模擬和用戶界面。 “由于在眼科手术中存在许多关键的视觉线索,模拟需要高度的真实性,”…

Leave a Comment

从2D到3D:通过对齐几何先验增强文本生成一致性

“`html 将2D图像转换为3D对象用于文本到3D生成是一项艰巨的任务。这主要是因为2D扩散模型仅学习了与视图无关的先验,并且在提取时没有对3D空间的理解。这个限制的结果是多视角不一致的问题,即从所有视角看,3D对象是不一致的。例如,如果我们将一个2D图像的立方体提取到3D空间中,模型可能会生成一个在一个视角上完美而在其他视角上失真的立方体。 为了解决几何不一致问题,一组研究人员提出了一种叫做SweetDreamer的新方法,该方法在提取过程中添加了明确定义的3D形状,并将扩散模型中的2D几何先验与之对齐。该模型通过微调2D扩散模型以具备视角感知能力(理解对象在不同视角下的变化)、生成具有规范方向的3D对象的特定视图坐标图来实现这一目标。这种方法非常有效地生成了从所有视角看一致的3D对象。 研究人员意识到3D不一致结果的主要原因是几何不一致,因此他们的目标是赋予2D先验生成从各个视角看时外观相同且具备通用性的3D对象的能力。 研究人员提出的方法利用了包含多样的规范方向和标准化的3D模型的全面3D数据集。从随机角度渲染深度图,并将其转换为规范坐标图。然后,他们微调2D扩散模型以生成与特定视图对齐的坐标图,最终将几何先验与2D扩散对齐。最后,对齐的几何先验可以平滑地集成到各种文本到3D系统中,有效减少不一致性问题并生成多样且高质量的3D内容。 DMTet和NeRF是文本到3D生成中常用的两种3D表示方法。在研究论文中,作者展示了他们的对齐几何先验可以集成到基于DMTet和NeRF的文本到3D流程中,以提高生成的3D对象的质量。这证明了他们方法的广泛适用性,以及提升多种文本到3D系统性能的潜力。 由于缺乏评价文本到3D过程结果的成熟指标,研究人员主要关注评估3D结果的多视角一致性。他们从DreamFusion画廊随机选择了80个提示,并使用每种方法进行文本到3D生成。随后对3D不一致性进行手动检查以报告成功率。研究人员发现,他们的方法显著优于其他方法。在两种流程(DMTet和NeRF)中,他们的成功率都超过85%,而其他方法的得分约为30%。 总之,SweetDreamers方法提供了一种实现文本到3D生成的最新技术的新颖方法。它可以从各种提示中生成不受多视角不一致问题困扰的结果。与其他先前方法相比,它具有更好的性能,研究人员认为他们的工作将开创使用有限的3D数据增强2D扩散先验以实现文本到3D生成的新方向。 “`

Leave a Comment

来自谷歌和康奈尔大学的研究人员推出DynIBaR:用人工智能彻底改变了动态场景重建

来自谷歌和康奈尔的研究人员的一项新论文介绍了DynlBaR,这是一种生成逼真自由视点渲染的新方法而且据团队表示,这一切都源于一段复杂而动态场景的单个视频近年来,计算机视觉领域见证了令人难以置信的进展…

Leave a Comment

“前十个创造性 AI 三维物体生成器”

通过强大的AI 3D对象生成器,创建和可视化3D模型变得更加准确、易于访问和高效。无论您是图形设计师还是游戏开发者,根据您的需求来选择最适合您的AI 3D对象生成器。您可以使用只有图片、文字或视频的3D模型进行革命性创作。让我们带您了解前10个AI 3D对象生成器。 什么是AI 3D对象生成? AI 3D对象生成是一种利用AI 3D对象生成器更准确地创建3D模型的过程。这些工具可以帮助您设计3D模型,并以三维方式将您的想法变为现实。您可以从文本到3D生成器、图片到3D对象以及视频到3D模型创建3D对象。每一种需求都有相应的工具。因此,通过这些工具,打开创意的新大门。 前十个AI 3D对象生成器 AI 3D对象生成器为您的所有3D模型设计需求提供了全方位的支持。利用这些工具的最佳功能,您可以创建3D模型,并为您的创意赋予生命。以下是我们为您推荐的前十个AI 3D对象生成器。 1. Spline Spline是AI 3D对象生成器之一,可让用户在其浏览器中塑造交互式网络体验。这是一个非常棒的团队项目工具,具有实时协作功能。 主要特点: 此工具提供广泛的动画和3D建模功能,例如材质层、3D雕刻、物理和游戏控制、3D建模和动画、互动体验以及视频纹理和组件。 您可以探索相机控制、3D矢量编辑、拖放功能和Web浏览器事件的工具。用户可以通过API或网站上传数字媒体,该媒体将自动分析成3D模型。 定价: 基础版:免费 超级版:每月7美元 超级团队版:每个团队编辑者每月9美元…

Leave a Comment

推进图像修复:通过这种新颖的AI修复神经辐射场,弥合了2D和3D操作之间的差距

对于图像的处理一直存在持久的兴趣,因为它在内容创作中有着广泛的应用。其中最广泛研究的处理之一是对象的移除和插入,通常被称为图像修复任务。虽然当前的修复模型能够生成与周围图像无缝融合的视觉上令人信服的内容,但它们的适用性传统上仅限于单个2D图像输入。然而,一些研究人员正在尝试将这些模型的应用推进到对完整3D场景的处理。 神经辐射场(NeRFs)的出现使将真实的2D照片转换为逼真的3D表示更加容易。随着算法的不断改进和计算需求的降低,这些3D表示可能会变得普遍。因此,该研究旨在实现对3D NeRF的类似处理,如同对2D图像的处理一样,并特别关注修复功能。 修复3D对象存在独特的挑战,包括3D数据的稀缺性以及必须同时考虑3D几何和外观。使用NeRF作为场景表示引入了额外的复杂性。神经表示的隐式性质使得基于几何理解直接修改底层数据结构变得不切实际。此外,由于NeRF是从图像训练的,对多个视角的一致性的保持带来了挑战。对各个组成图像的独立修复可能导致视角不一致和视觉上不真实的输出。 已经尝试了各种方法来解决这些挑战。例如,一些方法旨在事后解决不一致性,如NeRF-In,通过像素损失结合视角,或者SPIn-NeRF,利用感知损失。然而,当修复的视角存在显著的感知差异或涉及复杂外观时,这些方法可能会遇到困难。 另外,还探索了单参考修复方法,通过仅使用一个修复的视角避免视角不一致。然而,这种方法引入了一些挑战,包括非参考视角的视觉质量降低、缺乏视角相关效果以及不连续问题。 考虑到上述限制,已经开发了一种新方法,实现了对3D对象的修复。 系统的输入是N个来自不同视角的图像,以及它们的相应摄像机变换矩阵和蒙版,用于标记不需要的区域。此外,还需要一个与输入图像相关的修复参考视角,该视角提供了用户期望从3D场景的修复中获取的信息。这个参考视角可以是一个简单的替代蒙版的对象的文本描述。 https://ashmrz.github.io/reference-guided-3d/paper_lq.pdf 在上述示例中,可以通过使用单图像文本条件修复器来获得“橡皮鸭”或“花盆”参考。这样,任何用户都可以控制和驱动生成具有所需编辑的3D场景。 通过专注于视角相关效果(VDEs)的模块,作者试图考虑场景中的视角相关变化(例如镜面反射和非朗伯效应)。出于这个原因,他们通过将VDEs添加到非参考视角的蒙版区域,通过校正参考颜色以匹配其他视角的周围环境,来修复蒙版区域。 此外,他们引入了单目深度估计器,根据参考图像的深度来引导修复区域的几何形状。由于不是所有蒙版目标像素在参考图像中都是可见的,因此设计了一种方法来通过额外的修复来监督这些未遮挡的像素。 下面是所提出方法的新视角渲染与最先进的SPIn-NeRF-Lama的视觉比较。 https://ashmrz.github.io/reference-guided-3d/paper_lq.pdf 这是一个关于参考引导可控补全神经辐射场的新型AI框架的摘要。如果您对此感兴趣并且想要了解更多信息,请随时参考下面引用的链接。

Leave a Comment

这项人工智能研究提议使用技术从一张单一图像中重建出一个逼真的3D穿衣人体,包含详细的全身几何形状和高质量的纹理

高保真度 对于许多增强现实和虚拟现实应用,包括游戏、社交网络、教育、电子商务和沉浸式远程会议,3D数字人是必不可少的。许多方法专注于从一张照片中重建一个3D着装人物,以便更容易从现成的野外照片中创建数字人。然而,由于缺乏非可见位置的观测,这个问题似乎并不明确,尽管早期技术已经取得了一些进展。它未能使用明显的视觉线索(如颜色和法线估计)来预测不可见部分(如背面),这导致了模糊的纹理和平滑的几何形状。因此,从不同角度观察这些重建时,会出现差异。多视图监督是这个问题的一个可行解决方案。但是只用一张图像作为输入,这可能吗?在这里,他们提出了TeCH作为一种潜在的解决方案。Tech将从输入图片中获取的文本信息与定制的文本到图片扩散模型(即DreamBooth)相结合,以指导重建过程,与以往主要研究明显的前端信号与非可视区域之间的关系的研究不同。 他们特别将单个输入图像中的语义信息分离为主题的独特和精细的外观,这对于文字来准确描述是困难的: 1)使用服装解析模型(即SegFormer)和预训练的视觉语言VQA模型(即BLIP),对输入图像中的描述性语义提示进行明确的解析。这些提示包括对颜色、服装风格、发型和面部特征的具体描述。 2)定制的文本到图像(T2I)扩散模型将难以描述的外观信息隐式地确定为主题的独特外观和细粒度特征,并嵌入到特殊的标记”[V]”中。他们使用基于原始观测的多视图分数蒸馏采样(SDS)重建损失以及从现成的法线估计器获得的正则化来优化基于这些信息源的3D人体,以提高重建的3D人体模型的保真度,同时保持其原始身份。 图1显示了TeCH如何从一张照片中创建一个逼真的、3D着装的人物。 来自浙江大学、马克斯智能系统研究所、穆罕默德·本·扎耶德人工智能大学和北京大学的研究人员提出了一种基于DMTet的混合3D表示,以以合理的价格表达高分辨率的几何形状。为了准确地描绘身体的一般形状,我们的混合3D表示将显式四面体网格与隐式的RGB和有符号距离函数(SDF)场结合起来。他们首先优化这个四面体网格,提取以网格表示的几何形状,然后在两阶段优化过程中优化纹理。Tech使得可以使用统一的颜色方案和图案重新创建着装人物的准确3D模型,具有精确的全身几何形状和丰富的纹理。 因此,它使得包括角色动画、新视角渲染和形状和纹理操作在内的许多下游应用更容易实现。在涵盖各种姿势(CAPE)和服装(THuman2.0)的3D着装人类数据集上进行定量测试时,Tech在渲染质量方面表现出色,根据对真实世界照片和感知研究的定性评估,Tech优于SOTA方法。代码将公开供研究目的使用。

Leave a Comment

“生成式人工智能推动汽车行业新时代,从设计和工程到生产和销售”

生成内容和代码。创建图像和视频。使用合成数据测试算法。 生成式人工智能是一种增加生产力和创造力的力量,几乎适用于每个行业,特别是运输领域,在那里它正在简化工作流程并推动新业务。 整个汽车行业都在探索生成式人工智能,以改进车辆设计、工程和制造,以及市场营销和销售。 除了汽车产品生命周期,生成式人工智能还在自动驾驶汽车(AV)开发中实现了新的突破。这些研究领域包括使用神经辐射场(NeRF)技术将记录的传感器数据转化为完全交互式的3D模拟。这些数字孪生环境以及合成数据生成可以用于以极大规模开发、测试和验证AV。 前方合并:变革性用例 生成式人工智能、大型语言模型和推荐系统是现代经济的数字引擎,NVIDIA创始人兼CEO黄仁勋说。 像ChatGPT用于文本生成和稳定扩散用于图像生成等基础模型可以支持能够执行多个任务的人工智能系统。这打开了许多可能性。 就像早期iPhone应用程序开发人员开始使用GPS、加速度计和其他传感器创建移动应用程序一样,现在AI开发人员可以使用基础模型构建新的体验和功能。 生成式人工智能可以帮助将不同的数据流整合在一起,不仅可以将文本与文本或文本与图像进行关联,还可以与视频或3D等输入和输出进行关联。使用这种强大的新计算模型,一个文本提示可以返回一个物理准确的装配厂布局。 作为全球最大的汽车制造商之一,丰田已经开发了一种生成式人工智能技术,以确保早期设计草图融入工程参数。 与此同时,奔驰已经展示了一个使用ChatGPT的语音助手。 其他汽车行业参与者也在寻求生成式人工智能的帮助,以加快设计迭代并提供更好的结果。 设计师和艺术家的工作流程将受益 目前,设计师和艺术家通常需要数月的准备和设计审查才能从早期概念构思和草图发展到完整规模模型的开发。这通常受到不兼容的工具、孤立的数据和串行工作流程的阻碍。 艺术家通常通过寻找“废料”或视觉参考来开始设计过程,这些参考基于汽车造型的趋势。他们寻找设计线索的灵感,从基于关键词的图像库中获取。 这个过程涉及到查看整个行业的车辆,无论是现有的还是历史的。然后,在经过大量人工筛选的基础上,根据公司的风格出现了一些流行设计和新的灵感。这形成了艺术家的2D手绘草图的基础,然后将其重新创建为3D模型和粘土原型。 这些线性和耗时的设计概念过程用于外部零件,如进气格栅、发动机盖和车轮,以及内部方面,如仪表盘、座椅、人机工程学和用户界面。 为了开发这些3D模型,汽车造型团队与工程师一起使用Autodesk Alias或Maya等工具开发“NURBS”模型,即非均匀有理B样条。由此产生的3D几何形状的数学表示捕捉了2D草图中的形状。最终的交付成果是一个经过定制的造型、设计和工程工作的3D表示,可以用于计算机辅助设计应用程序来定义表面。 汽车行业现在有机会使用生成式人工智能将2D草图即时转化为NURBS模型,以提高生产力。这些工具不会取代设计师,而是让他们能够更快地探索各种选择。 生成式人工智能助力概念和造型 以设计为导向的企业可以利用视觉数据集和生成式人工智能在许多方面辅助他们的工作。在编码工具(如GitHub Copilot)已经实现了这一点,它在数十亿行代码上进行了训练,并承诺帮助缩短冗长的设计时间表。 特别是在寻找“废料”设计元素时,生成式人工智能模型可以根据汽车制造商的产品组合以及整个行业的车辆进行训练,从而帮助这个工作流程。这可能首先通过微调一小组图像数据集并进行迁移学习,然后利用NVIDIA TAO…

Leave a Comment

苹果和英属哥伦比亚大学的AI研究人员提出了FaceLit:一种用于神经网络3D可重塑人脸的新型AI框架

近年来,对于从2D图像中获取3D生成模型的任务引起了越来越多的兴趣。随着神经辐射场(NeRF)的出现,从3D模型产生的图像质量得到了显著提升,与2D模型实现的逼真程度相媲美。虽然一些特定的方法专注于3D表示,以确保第三维度的一致性,但这往往以降低图像逼真度为代价。然而,最近的研究表明,混合方法可以克服这个限制,从而增强图像逼真度。然而,这些模型的一个显著缺点在于场景元素的交织,包括几何、外观和光照,这妨碍了用户定义的控制。 已经提出了各种方法来解开这种复杂性。然而,它们要求有效实施时需要多视图图像的集合。不幸的是,当处理在真实世界条件下拍摄的图像时,这个要求带来了困难。虽然一些努力放宽了这个条件,包括来自不同场景的图片,但仍然需要多个视角的同一对象。此外,这些方法缺乏生成能力,并且需要对每个不同的对象进行单独训练,使它们无法创建新对象。在考虑生成方法时,几何和照明的交织特性仍然具有挑战性。 所提出的名为FaceLit的框架介绍了一种仅从图像中获取面部的解缠3D表示的方法。 下图展示了该架构的概述。 该方法的核心是构建一个渲染流水线,强制遵守已建立的物理光照模型,类似于以前的工作,以适应3D生成建模原则。此外,该框架利用现有的照明和姿势估计工具。 基于物理的照明模型被集成到最近开发的神经体积渲染流水线EG3D中,该流水线使用三平面组件从2D图像生成用于体积渲染的深度特征。这里使用了球谐函数。随后的训练侧重于逼真性,并利用该框架固有的物理遵循性来生成逼真图像。这种与物理原理的一致性自然地促进了对解缠3D生成模型的获取。 关键的要素是将基于物理的渲染原则与神经体积渲染结合起来。正如之前所述,该策略旨在与现有的可用照明估计器无缝集成,利用球谐函数。在这个框架中,场景的漫反射和高光方面由球谐系数来描述,这些系数与表面法线和反射矢量相关联。这些系数通过神经网络生成,包括漫反射反射、材料高光反射和法线向量。然而,这种看似简单的设置有效地解开了照明与渲染过程之间的关系。 所提出的方法在三个数据集FFHQ、CelebA-HQ和MetFaces上进行了实施和测试。根据作者的说法,这产生了最先进的FID分数,将该方法置于3D感知生成模型的前沿。下面报告了所讨论方法产生的一些结果。 这是FaceLit的摘要,它是一个新的人工智能框架,可以仅通过图像获取人脸的分离的3D表示。如果您感兴趣并希望了解更多信息,请随时参考下面引用的链接。

Leave a Comment

来自谷歌、康奈尔大学和加州大学伯克利分校的研究团队提出了OmniMotion:一种革命性的人工智能方法,用于视频中密集和长距离运动估计

稀疏特征跟踪或密集光流一直是运动估计算法中使用的两种主要方法。这两种方法在各自的应用中都取得了成功。然而,这两种方法都不能完全捕捉视频的运动情况:稀疏跟踪不能描述所有像素的运动。相反,成对光流不能捕捉跨越大时序帧的运动轨迹。为了缩小这种差距,许多方法已被用于预测视频中的密集和长程像素轨迹。这些方法从简单的两帧光流场链接技术到直接预测经过多个帧的每个像素轨迹的更高级算法。  然而,所有这些方法在计算速度时都忽略了当前时间或地理上下文的信息。这种本地化可能会导致运动估计在时空上存在不一致性,并在扩展轨迹上积累错误。即使以前的技术考虑了长程上下文,它们也是在2D域中这样做的,这导致了在遮挡情况下的跟踪丢失。创建密集和长程轨迹仍然存在一些问题,包括跟踪遮挡点,保持空间和时间的一致性以及在长时间内保持准确的跟踪。在这项研究中,康奈尔大学、谷歌研究和加州大学伯克利分校的研究人员提供了一种全面的方法,通过使用所有可用的视频数据,为电影中的每个像素估计全长运动轨迹。  他们的方法称为OmniMotion,使用准3D表示,其中一组本地-规范双射将规范3D体积映射到每个帧的本地体积。这些双射将相机和场景运动的组合描述为动态多视角几何的灵活松弛。它们可以监视所有像素,即使是被遮挡的像素,其表示确保周期一致性(“Everything, Everywhere”)。为了联合解决整个视频的运动,“All at Once”,他们为每个视频优化了他们的表示。优化后,电影中的任何连续坐标都可以查询其表示以获得跨越整个物体的运动轨迹。 总之,他们提供了一种可以处理任何相机和场景运动组合的野外电影的方法: 为整个视频中的所有点生成全局一致的全长运动轨迹。 可以跟踪穿过遮挡的点。 可以跟踪穿过遮挡的点。 他们在TAP视频跟踪基准测试中统计说明了这些优势,其中他们获得了最先进的性能,并大大超过了所有以前的技术。他们在其网站上发布了几个演示视频,并计划很快发布代码。 https://omnimotion.github.io/ 从上面的运动路线可以看出,他们提供了一种新颖的技术,用于计算电影中每个帧中每个像素的全长运动轨迹。尽管我们的技术计算了所有像素的运动,但他们仅显示前景对象的稀疏轨迹以保持清晰度。他们的方法即使对于快速移动的物体也能产生精确、连贯的长程运动,并可靠地跨越遮挡,例如狗和秋千的示例。移动物品在第二行中的不同时间点显示,以提供上下文。

Leave a Comment

Can't find what you're looking for? Try refining your search: