

文本到图像(T2I)模型的评估很难,通常依赖于生成和回答问题(QG/A)的方法来评估文本图像的忠实度。然而,当前的QG/A方法存在可靠性问题,如问题质量和答案的一致性。为此,研究人员引入了Davidsonian场景图(DSG),这是一种受形式语义启发的自动QG/A框架。DSG在依赖图中生成原子的、上下文相关的问题,以确保更好的语义覆盖和一致的答案。实验结果证明了DSG在各种模型配置上的有效性。
该研究聚焦于评估文本到图像模型面临的挑战,并强调了QG/A对于评估文本图像配对的忠实度的有效性。常用的评估方法包括文本图像嵌入相似度和基于图像字幕的文本相似度。还讨论了之前的QG/A方法,如TIFA和VQ2A。DSG强调了对于语义细微差别、主观性、领域知识以及超出当前VQA(视觉问答)模型能力的语义类别的进一步研究的需求。
文本到图像模型通过文本描述生成图像,引起了关注。传统的评估依赖于提示和图片之间的相似性得分。最近的方法提出了一个QG模块,从文本中创建验证问题和预期答案,然后通过一个VQA模块回答这些问题,基于生成的图像。这种被称为QGA框架的方法借鉴了机器学习中使用的基于问答的验证方法,如摘要质量评估。
DSG是一个受形式语义启发的自动图形QG/A评估框架。DSG在依赖图中生成独特的、上下文相关的问题,以确保语义覆盖和避免不一致的答案。它适用于多种QG/A模块和模型配置,并通过广泛的实验证明了其有效性。
作为评估文本到图像生成模型的框架,DSG解决了QG/A中的可靠性挑战。它在依赖图中生成上下文相关的问题,并在不同的模型配置上进行了实验验证。该方法提供了DSG-1k,一个包含1,060个不同语义类别的提示的开放式评估基准,同时还提供了相应的DSG问题,用于进一步的研究和评估。
总之,DSG框架是评估文本到图像模型和解决QG/A挑战的有效方法。通过使用不同的模型配置进行广泛的实验,证实了DSG的实用性。它提出了一个包含各种样本的DSG-1k开放基准。该研究强调了人类评估作为当前可靠性的黄金标准的重要性,同时承认在特定类别中语义细微差别和限制的进一步研究的必要性。
未来的研究可以解决主观性和领域知识相关的问题。这些问题可能导致模型与人类之间的不一致,以及不同的人类评估者之间的不一致。该研究还强调了当前VQA模型在准确表示文本方面的局限性,强调了在模型性能的这一领域改进的必要性。