在文本引导的图像和三维场景编辑中解锁精度：与“Watch Your Steps”相遇

在文本引导的图像和三维场景编辑中解锁精度：与“Watch Your Steps”相遇四海第1张

神经辐射场（NeRFs）因其能够创建准确而直观的可视化而越来越受欢迎。这导致了改变图像的NeRFs的想法。去噪扩散模型也能够从文本描述中产生出色的图像，并因其有效性而在图像编辑中流行起来。尽管扩散式图片编辑技术有着很大的潜力，但目前还明显缺乏一种自动化的方法来识别需要修改的区域。目前使用的方法要么依赖于用户提供的掩码，要么以嘈杂输入中找到的全局信息作为起点，要么依赖于输入数据来确定去噪过程的进行方式。

然而，这些方法通常有过度编辑的倾向。即使是NeRF编辑的IN2N应用程序也会遇到过度场景编辑的问题。与IP2P类似，DiffEdit使用由字幕引导的噪声预测来定位编辑区域，尽管这种方法较慢且效率较低。一组研究人员提出了一种独特的方法，可以根据特定的文本指令识别和定位图像中需要更改的精确区域。这种方法被称为Watch Your Steps，它支持通过文本指令进行本地图像和场景编辑。

该团队通过利用InstructPix2Pix (IP2P)的能力，揭示了IP2P在有指令和无指令情况下所做预测的关键区别。这种差异被称为相关性图。相关性图基本上充当了一张路线图，说明更改特定像素的重要性以达到所需的修改。它作为进行更改的指南，确保只更改必要的像素，而保留不必要的像素。

该团队还表示，相关性图不仅对基本图像编辑有用，而且在3D场景的文本引导修改方面，尤其是由神经辐射场建模的场景，它们甚至提高了准确性。为此，利用与不同训练视图相关的相关性图，训练了一个相关性场。通过这个相关性场有效地定义了应该改变的3D区域，因此，该过程涉及从建立的相关性场中渲染相关性图，以指导迭代地更新训练视图。

在评估中，发现这种方法在神经辐射场（NeRF）编辑作业以及图像编辑方面取得了无与伦比的性能水平。这展示了这种方法在克服图像和场景处理中遇到的困难方面的价值和优秀性。