Press "Enter" to skip to content

伦理与社会通讯 #4:文本到图像模型中的偏见

简介:我们需要更好的方法来评估文本到图像模型中的偏见

介绍

文本到图像(TTI)生成如今非常流行,数千个TTI模型正在上传到Hugging Face Hub。每种模态都可能受到不同来源的偏见影响,这引发了一个问题:我们如何发现这些模型中的偏见?在本博文中,我们将分享关于TTI系统中偏见来源的观点,以及解决这些偏见的工具和潜在解决方案,展示我们自己的项目和社区的其他项目。

图像生成中编码的价值观和偏见

偏见与价值观之间存在着非常密切的关系,特别是当它们嵌入到训练和查询给定文本到图像模型中使用的语言或图像中时;这种现象严重影响了我们在生成的图像中看到的结果。尽管在更广泛的人工智能研究领域中已经知道了这种关系,并且正在进行相当大的努力来解决这个问题,但是试图在单个模型中表示给定人群价值观的不断变化的本质的复杂性仍然存在。这对于发现和充分解决它们提出了持久性的伦理挑战。

例如,如果训练数据主要是英文,它们可能传达了相当西方的价值观。结果我们会得到对不同或遥远文化的刻板印象的表达。当我们比较ERNIE ViLG(左)和Stable Diffusion v2.1(右)对于相同提示“北京的一座房子”时,这种现象似乎很明显:

伦理与社会通讯 #4:文本到图像模型中的偏见 四海 第1张

偏见来源

近年来,在自然语言处理(Abid等人,2021年)以及计算机视觉(Buolamwini和Gebru,2018年)领域,对于单模态AI系统中的偏见检测进行了许多重要研究。在人类构建机器学习模型的范畴内,所有机器学习模型(实际上是所有技术)都存在偏见。这可能表现为图像中某些视觉特征的过度或不足表现(例如,所有办公室工作者都系领带),或者文化和地理刻板印象的存在(例如,所有新娘都穿着白色礼服和面纱,而不是更具代表性的世界各地的新娘形象,例如穿着红色纱丽的新娘)。鉴于AI系统正在广泛应用于不同行业和工具(例如Firefly,Shutterstock)的社会技术环境中,它们尤其有可能放大现有的社会偏见和不平等。我们的目标是在下面提供一个非详尽的偏见来源列表:

训练数据中的偏见:受欢迎的多模态数据集,如用于文本到图像的LAION-5B,用于图像字幕的MS-COCO,以及用于视觉问答的VQA v2.0,已被发现包含大量偏见和有害关联(Zhao等人,2017年;Prabhu和Birhane,2021年;Hirota等人,2022年),这些偏见可能渗透到这些数据集上训练的模型中。例如,Hugging Face Stable Bias项目的初步结果显示,图像生成中缺乏多样性,并且延续了对文化和身份群体的常见刻板印象。比较CEO(右)和经理(左)的Dall-E 2生成结果,我们可以看到两者都缺乏多样性:

伦理与社会通讯 #4:文本到图像模型中的偏见 四海 第2张

预训练数据过滤中的偏见:通常在用于训练模型之前对数据集进行某种形式的过滤;这引入了不同的偏见。例如,在Dall-E 2的博文中,作者发现过滤训练数据实际上可能放大偏见——他们假设这可能是由于现有数据集对于以更加性感背景呈现女性的偏见,或者由于他们使用的过滤方法本身的固有偏见。

推理中的偏见:用于指导文本到图像模型(如Stable Diffusion和Dall-E 2)的训练和推理的CLIP模型存在一些广为人知的偏见,例如将被标记为白人中年男性的图像视为默认情况。这可能会影响使用它进行提示编码的模型的生成结果,例如将未指定或未明确指定的性别和身份群体解释为白人和男性。

模型潜在空间中的偏见:在探索模型的潜在空间以及引导图像生成沿不同的轴线(如性别)进行生成以使生成结果更具代表性方面已经进行了初步工作(请参见下面的图像)。然而,我们需要更多的工作来更好地理解不同类型的扩散模型潜在空间的结构以及可能影响生成图像中反映的偏见的因素。

伦理与社会通讯 #4:文本到图像模型中的偏见 四海 第3张

事后过滤中的偏见:许多图像生成模型都带有内置的安全过滤器,旨在标记有问题的内容。然而,这些过滤器的作用程度以及对不同类型内容的稳健性尚待确定。例如,对Stable Diffusion安全过滤器进行的红队测试表明,它主要识别性内容,并未标记其他类型的暴力、血腥或令人不安的内容。

检测偏见

我们上述描述的大部分问题不能通过单一解决方案解决 – 实际上,偏见是一个复杂的主题,单靠技术无法有意义地解决。偏见与其存在的更广泛的社会、文化和历史背景紧密相连。因此,处理AI系统中的偏见不仅是技术上的挑战,也是一个社会技术问题,需要多学科的关注。然而,包括工具、红队测试和评估在内的一系列方法可以帮助提取重要的见解,为模型创建者和下游用户提供关于TTI和其他多模态模型中包含的偏见的信息。

我们在下面介绍一些这些方法:

用于探索偏见的工具:作为Stable Bias项目的一部分,我们创建了一系列工具,用于探索和比较不同文本到图像模型中偏见的视觉表现。例如,平均扩散面工具可让您比较不同职业和不同模型的平均表示 – 如下所示为“清洁工”的Stable Diffusion v1.4、v2和Dall-E 2:

伦理与社会通讯 #4:文本到图像模型中的偏见 四海 第4张

其他工具,如面部聚类工具和色彩职业探索工具,允许用户探索数据中的模式,识别相似之处和刻板印象,而无需赋予标签或身份特征。实际上,重要的是要记住,个体的生成图像并非真实的人,而是人工创造的东西,因此重要的是不要将其视为真实的人类。根据上下文和用例,这些工具可以用于叙事和审计。

红队测试:“红队测试”通过提示和分析结果来对AI模型进行潜在漏洞、偏见和弱点的压力测试。虽然红队测试已被应用于评估语言模型(包括我们参与的即将到来的DEFCON生成AI红队活动),但目前尚无建立和系统化的红队测试AI模型的方法,仍然相对临时。实际上,AI模型中存在许多潜在的失效模式和偏见,很难预测所有这些模式,而生成模型的随机性使得很难重现失效案例。红队测试为模型限制提供了可操作的见解,并可用于添加防护措施和记录模型限制。目前尚无红队测试基准或排行榜,突显了开源红队测试资源需要更多工作的需求。Anthropic的红队测试数据集是唯一的开源红队测试提示资源,但仅限于英文自然语言文本。

评估和记录偏见:在Hugging Face,我们非常支持模型卡和其他形式的文档(例如数据表,自述文件等)。在文本到图像(和其他多模态)模型的情况下,使用探索工具和上述红队测试等努力进行的探索结果可以与模型检查点和权重一起共享。其中的一个问题是,目前我们还没有用于衡量多模态模型(特别是文本到图像生成系统)中偏见的标准基准或数据集,但随着社区在这个方向上的更多工作开展,可以在模型文档中同时报告不同的偏见度量。

价值观和偏见

上述所有方法都是检测和理解嵌入图像生成模型中的偏见的一部分。但我们如何积极参与其中呢?

一种方法是开发新的模型,代表我们希望的社会。这意味着创建不仅仅模仿我们数据中的模式,而且积极推动更公平、更公正的观点的AI系统。然而,这种方法提出了一个关键问题:我们将谁的价值观编程到这些模型中?不同的文化、社会和个人之间存在价值观的差异,这使得在AI模型中定义一个“理想”的社会是一个复杂的任务。这个问题确实是复杂而多面的。如果我们避免在我们的AI模型中重复现有的社会偏见,我们将面临一个定义社会“理想”表达的挑战。社会不是一个静态的实体,而是一个动态和不断变化的构造。那么,AI模型应该适应社会规范和价值观的变化吗?如果是这样,我们如何确保这些变化真正代表社会中的所有群体,特别是那些经常被忽视的群体?

此外,正如我们在之前的通讯中提到的,开发机器学习系统没有一种单一的方法,开发和部署过程中的任何步骤都可以提供解决偏见的机会,从最初的参与者选择,到定义任务,到策划数据集,训练模型等等。这也适用于多模态模型以及它们在社会中的最终部署或生产化的方式,因为多模态模型中的偏见后果将取决于它们的下游使用。例如,如果一个模型在人机协作的图形设计环境中使用(例如RunwayML创建的模型),用户有很多机会检测和纠正偏见,例如通过更改提示或生成选项。然而,如果一个模型被用作帮助法医艺术家为潜在嫌疑人绘制警方素描的工具(如下图所示),那么风险就会更高,因为这可能强化刻板印象和种族偏见。

伦理与社会通讯 #4:文本到图像模型中的偏见 四海 第5张

其他更新

我们还在伦理和社会的其他方面继续工作,包括:

  • 内容审核:
    • 我们对我们的内容政策进行了重大更新。距离上次更新已经过去了近一年,Hugging Face社区的规模也大幅增长,因此我们觉得是时候进行更新了。在这次更新中,我们强调同意作为Hugging Face核心价值观之一。想要了解更多关于我们的思考过程,请查看我们的公告博客
  • AI问责政策:
    • 我们对NTIA关于AI问责政策的意见征求做出了回应,强调了文档和透明机制的重要性,以及利用开放协作和促进外部利益相关者的访问的必要性。您可以在我们的博客文章中找到我们回应的摘要和完整文档的链接!

结束语

从上面的讨论中可以看出,检测和应对多模态模型(如文本到图像模型)中的偏见和价值观是一个非常开放的问题。除了上述的工作,我们还与社区进行广泛的讨论 – 我们最近在FAccT会议上共同主持了一个关于这个主题的CRAFT研讨会,并继续在数据和模型中心的研究上进行探索。我们特别期待探索更深入地调查文本到图像模型中灌输的价值观以及它们所代表的方向(敬请关注!)。

Leave a Reply

Your email address will not be published. Required fields are marked *