Press "Enter" to skip to content

“认识 CoDeF:一种人工智能(AI)模型,可以实现逼真的视频风格编辑,基于分割的跟踪和视频超分辨率”

“认识 CoDeF:一种人工智能(AI)模型,可以实现逼真的视频风格编辑,基于分割的跟踪和视频超分辨率” 四海 第1张“认识 CoDeF:一种人工智能(AI)模型,可以实现逼真的视频风格编辑,基于分割的跟踪和视频超分辨率” 四海 第2张

基于大型数据集训练的生成模型具有出色的质量和精度,使得图像处理领域取得了重大进展。然而,视频素材处理仍然没有取得重大进展。由于神经网络的固有不可预测性,保持高时态一致性可能会很困难。视频文件的特性也带来了另一个困难,因为它们通常比其图片等价物包含更低质量的纹理,并且需要更多的处理能力。因此,基于视频的算法远远不及基于照片的算法。这种差异引发了一个问题,即是否可能在保持高时态一致性的同时,轻松地应用成熟的图像算法到视频素材中。

在深度学习之前的时代,研究人员提出了从动态电影中创建视频镶嵌图,并在隐式神经表示的建议之后,使用神经层次图片图集来实现这一目标。然而,这些方法存在两个主要问题。首先,这些表示能力有限,特别是在准确重现视频中的微小元素时。重新构建的素材经常会错过微小的动作特征,如眨眼或紧绷的笑容。第二个缺点是计算出的图集通常存在失真,导致语义信息贫乏。

因此,当前的图像处理技术未能发挥出最佳效果,因为估计出的图集需要更多的自然性。他们提出了一种新的方法,将3D时间变形场与基于哈希的2D图片场结合起来表示视频。使用多分辨率哈希编码来表达时间变形,大大改善了常规电影的调节。这种方法使得监测水和烟雾等复杂对象的变形更加容易。然而,由于变形场的增强能力,计算一个自然的规范图片是困难的。一个忠实的重建也可以预测一个人工规范图片的相关变形场。他们建议在训练过程中使用退火哈希来克服这个障碍。

首先使用平滑变形网格寻找所有刚性运动的粗略解。然后逐渐引入高频特征。通过这种从粗到细的训练,使得表示在规范的真实性和重建的准确性之间达到了妥协。与早期的隐式层次表示相比,他们在重建质量方面取得了显著的改进。这种改进通过规范图片的真实性明显增加和PSNR约4.4的提高来衡量。他们的优化方法在大约300秒内估计出了带有变形场的规范图片,而早期的隐式层次表示需要超过10小时。

他们通过在他们提出的内容变形场上建立起来,将移动图像处理任务(如提示引导图像翻译、超分辨率和分割)转移到更动态的视频内容中。他们在参考图片上使用ControlNet进行提示引导的视频到视频翻译,通过观察到的变形将翻译材料传播开来。这种翻译过程通过在单个规范图片上操作,消除了对所有帧进行耗时的推断模型(如扩散模型)的要求。与使用生成模型进行最新的零样本视频翻译相比,他们展示了在时态一致性和纹理质量方面显著的提高。

与使用神经层次图集的Text2Live相比,他们的方法在处理更复杂的运动、创建更逼真的规范图片和提供更高的翻译结果方面更加出色。他们还将超分辨率、语义分割和关键点识别等图像技术扩展到规范图片中,使它们在视频环境中有了实际应用。这包括视频关键点跟踪、视频对象分割和视频超分辨率等。他们提出的表示方法始终产生具有高时态一致性的高保真合成帧,突显了其作为视频处理的一种具有改变游戏规则的工具的潜力。

基于大型数据集训练的生成模型具有出色的质量和精度,使得图像处理领域取得了重大进展。然而,视频素材处理仍然没有取得重大进展。由于神经网络的固有不可预测性,保持高时态一致性可能会很困难。视频文件的特性也带来了另一个困难,因为它们通常比其图片等价物包含更低质量的纹理,并且需要更多的处理能力。因此,基于视频的算法远远不及基于照片的算法。这种差异引发了一个问题,即是否可能在保持高时态一致性的同时,轻松地应用成熟的图像算法到视频素材中。

在深度学习之前的时代,研究人员提出了从动态电影中创建视频镶嵌图,并在隐式神经表示的建议之后,使用神经层次图片图集来实现这一目标。然而,这些方法存在两个主要问题。首先,这些表示能力有限,特别是在准确重现视频中的微小元素时。重新构建的素材经常会错过微小的动作特征,如眨眼或紧绷的笑容。第二个缺点是计算出的图集通常存在失真,导致语义信息贫乏。

香港科技大学、蚂蚁集团、CAD&CG和浙江大学的研究人员提出了一种将3D时间变形场与基于2D哈希的图像场结合表示视频的新方法。使用多分辨率哈希编码来表示时间变形可以显著改善通用电影的调控。这种方法使得监测水和烟雾等复杂物体的变形变得更容易。然而,由于变形场的增强能力,计算自然规范图像是困难的。忠实的重建也可以预测与人工规范图像相关的变形场。他们建议在训练过程中使用退火哈希来克服这个障碍。

首先使用平滑变形网格找到所有刚性运动的粗略解,然后逐渐引入高频特征。根据这种从粗到细的训练,该表示在规范的真实性和重建的准确性之间取得了折衷。与早期技术相比,他们观察到重建质量有了显著提高。这种改善表现为规范图像的自然性明显增加和约4.4的峰值信噪比提高。他们的优化方法可以在大约300秒内估计带有变形场的规范图像,而早期的隐式分层表示需要超过10小时。

他们通过基于他们建议的内容变形场来将运动图像处理任务(如提示引导的图像翻译、超分辨率和分割)扩展到更动态的视频内容领域。他们在参考图像上使用ControlNet进行提示引导的视频到视频翻译,在观察到的变形中传播翻译材料。该翻译过程通过在单个规范图像上操作,消除了需要在所有帧上进行耗时推理模型(如扩散模型)的要求。将他们的翻译输出与最新的使用生成模型进行零样本视频翻译的结果进行比较,他们展示了显著的时间一致性和纹理质量的提高。

与使用神经分层图的Text2Live相比,他们的方法在处理更复杂的运动、创建更逼真的规范图像以及在翻译结果方面更出色。他们还将超分辨率、语义分割和关键点识别等图像技术扩展到规范图像,使其在视频场景中得以有效使用。这包括视频关键点跟踪、视频物体分割和视频超分辨率等。他们建议的表示方法始终产生具有更高时间一致性的高保真度合成帧,凸显了其作为视频处理的改变游戏规则的工具的潜力。

Leave a Reply

Your email address will not be published. Required fields are marked *