谷歌人工智能和特拉维夫大学研究人员展示了一个人工智能框架，将文本到图像扩散模型与专门的镜头几何图像渲染相结合

最近，在图像生成方面取得了重大进展，利用大规模扩散模型在配对的文本和图像数据上进行训练，加入多样化的条件方法以增强视觉控制。这些方法从明确的模型条件到修改预训练架构以适应新的模态。利用提取的图像特征如深度对文本条件的模型进行微调，可以实现图像重建。早些时候的研究人员引入了一种使用原始分辨率信息进行多分辨率和形状一致图像生成的GANs框架。

谷歌研究和特拉维夫大学的研究人员提出了一种AI框架（AnyLens），将文本到图像扩散模型与特殊的镜头几何结构相结合，用于图像渲染。这种整合使得对渲染几何的精确控制成为可能，通过一个单一的扩散模型可以生成鱼眼、全景视图和球面纹理等多样化的视觉效果。

该研究通过引入一种新的方法来解决将多样化光学控制融入文本到图像扩散模型的挑战。该方法使模型能够在局部镜头几何条件下进行条件附加，提高了模型复制精巧光学效果以生成逼真图像的能力。除了传统的画布变换外，该方法还允许通过逐像素坐标条件进行几乎任何栅格扭曲。这种创新支持各种应用，包括全景场景生成和球面纹理。它引入了一个度量张量条件的流形几何感知图像生成框架，扩大了对图像生成的控制和操作的可能性。

该研究通过逐像素坐标条件将文本到图像扩散模型与特定镜头几何相结合的框架。该方法通过使用随机变换场扭曲图像生成的数据对预训练潜扩散模型进行微调。采用了自注意力层的令牌重加权。该方法允许曲率特性的操作，产生鱼眼和全景视图等多样效果。它超越了固定分辨率的图像生成，采用度量张量条件以增强控制。该框架扩展了图像操作的可能性，解决了扩散模型中大型图像生成和自注意力尺度调整等挑战。

该框架成功地将文本到图像扩散模型与特定的镜头几何结合起来，以一个模型实现了鱼眼、全景视图和球面纹理等多样化的视觉效果。它可以精确控制曲率特性和渲染几何，生成逼真而细致的图像。该方法通过对大型文本注释数据集和逐像素变换场进行训练，生成任意变形的图像，并且结果与目标几何形状紧密对齐，无失真。它还便于创建具有逼真比例和最小伪影的球形全景图。

总之，新引入的框架在图像渲染中整合了各种镜头几何，提供了对曲率特性和视觉效果的增强控制。通过逐像素坐标和度量条件，该方法便于对渲染几何进行操纵，创造出具有精准曲率特性，引起几何操纵的高度逼真图像。该框架鼓励图像合成中的创造性和控制，使其成为生产高质量图像的有价值的工具。

未来的工作建议通过探索先进的条件技术来克服该方法的局限性，从而增强多样化图像生成。研究人员提出扩展该方法以达到捕捉不同场景的专用镜头类似结果的可能性。提及使用更先进的条件技术的潜在用途，预计将实现改进的图像生成和增强的能力。