加州大学伯克利分校研究人员开发了ALIA：用于细粒度分类任务的自动语言引导图像增强的突破性技术

“`html

精细化图像分类是一项计算机视觉任务，旨在将图像分类为更大类别中的子类别。它涉及对特定的、往往是稀有的动物进行复杂的识别。然而，它们在需要更多广泛的训练数据方面存在问题，导致分类器在适应领域中的不同方面时遇到困难，比如天气条件或地理位置的改变。

数据增强是一种常用的方法，用于使训练数据多样化，在精细分类等专门任务中面临挑战。使用生成模型或传统的翻转或裁剪等方法的方法显示出一定的潜力，但通常需要进行大量的微调或生成对于此类任务不适当的图像。

尽管有各种各样的提出的方法试图解决这些挑战，但该领域仍面临着在创建增强数据集方面的困难，这些数据集代表了多样的变化，同时保持与原始训练数据的视觉一致性和相关性。

一种新颖的方法——自动语言引导图像增强（ALIA）应运而生，以克服这些持续存在的挑战。ALIA利用了与大型视觉模型结合使用的数据集领域的自然语言描述，通过语言引导的图像编辑以自动生成训练数据的多样化变化。与先前的方法不同，ALIA不依赖昂贵的微调或用户提供的提示。相反，它智能地过滤掉最小的编辑和可能破坏与分类相关信息的编辑，提供了一种有希望的解决方案，增强了数据集的多样性，并提高了专门任务（如精细化分类）分类器的泛化能力。

该过程包括：

生成领域描述：利用图像字幕生成和大型语言模型（LLM）将图像上下文总结为不超过十个领域描述。
使用语言引导对图像进行编辑：使用文本条件下的图像编辑技术，创建与这些描述相符的多样化图像。
过滤失败的编辑：使用CLIP进行语义过滤，并使用分类器进行基于置信度的过滤，以删除失败的编辑，确保任务相关信息和视觉一致性的保留。

据作者称，这种方法可以扩展数据集20-100％，同时保持视觉一致性并涵盖更广泛的领域范围。

研究团队进行了大量实验证明了ALIA数据增强方法在专门任务（领域泛化、精细化分类和鸟类分类中的上下文偏见）中的有效性。通过对ResNet50模型进行微调，并使用稳定扩散进行图像编辑，ALIA始终优于传统的增强技术，甚至优于实际数据增加在领域泛化任务中，显示出相对原始数据的17％的改进。在精细分类中，ALIA表现出了竞争性的性能，即使没有领域转移也能保持准确性。ALIA在涉及上下文偏见的功能中，在领域内外的准确性方面表现出色，尽管在图像编辑质量和纯文本修改方面面临挑战。这些实验证明了ALIA在增强数据集多样性和模型性能方面的潜力，尽管在一定程度上依赖于模型质量和图像编辑方法的选择。

总之，作者介绍了ALIA，一种基于大型语言模型和语言引导的图像编辑技术的数据增强先进策略，利用广泛的领域知识。对于已提供的训练集中的领域描述和增强数据，该方法展示了在领域适应、偏见减少甚至在缺乏领域转移的情况下的出色能力。

对于未来的研究，作者认为字幕、大型语言模型和图像编辑的进一步改进将极大地增强该方法的效果和适用性。使用从实际训练数据中得出的结构化提示可能在改善数据集多样性和解决当前方法中遇到的各种限制方面发挥关键作用。这为探索ALIA在更广泛的领域中的应用前景和潜在进展提供了有希望的途径。

“`