AI偏见：挑战与解决方案

当将包含偏见的训练数据输入到人工智能模型中时，结果也会受到偏见的影响。 ¶ 来源：thenextweb.com

人工智能（AI）中的偏见并不是一个新问题。1988年，英国种族平等委员会（现为平等和人权委员会）发现伦敦的圣乔治医学院在1982年至1986年期间通过一项计算机程序进行了种族和性别歧视。这个算法旨在自动化招生过程，对“非白人姓名”和女性申请者的负权重进行了设置。

几十年来，AI偏见主要是研究人员和开发人员讨论的棘手技术问题。现在，多亏了生成式AI的惊人普及，关于偏见的讨论已经进入了公众领域。这个领域非常活跃：大量数据被用来训练模型，一些技术是开源的，其他技术则是黑盒的，社会分歧和动荡的“文化战争”为对话增加了紧张氛围。

政策制定者已经开始采取行动——欧盟提出的AI法案中的透明度和可解释性等方面可能会影响偏见，在美国，国家标准和技术研究所已经发布了“为识别和管理AI偏见制定详细社会技术指南的路线图的第一步。”

然而，目前还不存在针对解决AI偏见的普遍标准。

从一开始就内置

AI中的偏见是指“嵌入到算法、机器学习系统和计算系统中的人类偏见”，这是Data for Black Lives（D4BL）的创始人兼首席执行官Yeshimabeit Milner解释的。Data for Black Lives自称为“一群活动家、组织者和科学家，致力于利用数据为黑人创造具体和可衡量的变革。”当将包含偏见的训练数据输入到人工智能模型中时，结果也会受到偏见的影响。Milner说：“用以前的计算机科学格言来说，垃圾进，垃圾出。”

Milner说，偏见不仅仅涉及感知，还涉及融入政策并“内置到代码”中的叙述。她指出，美国在1989年引入的FICO信用评分中使用的美国邮政编码在机器学习的信用评分中的应用就是一个例子，这种做法给黑人社区带来了不利。尽管信用评分中没有种族变量，但邮政编码系统可以代表种族，因为它反映了上世纪30年代的红线政策和种族隔离政策，Milner解释说：“邮政编码已经成为种族的替代。如果你问一个人住在哪里，他们的邮政编码，你可以毫无疑问地预测到他们是什么种族。”

乔治·梅森大学人机合作中心的联合主任兼ACM人工智能特别兴趣小组（ACM SIGAI）主席Sanmay Das也将机器学习信用评分作为偏见的陷阱之一，并补充说随着人工智能在社会中的日益融入，数据缺口加剧了问题。这些缺口在数据收集过程中忽视或排除了一些群体（通常是边缘化社区），或者简单地没有关于特定群体的数据。基于这些数据训练的模型很可能会产生有偏见或偏斜的结果。

Das说，AI研究人员在考虑样本方面“不如”社会科学家，并且经常为了速度和便利性而使用Web抓取。他解释说：“如果我去爬取网络上发生的一切来训练一个聊天机器人，我得到的东西会与整个人类社会非常不同。”他说，英语内容或在Das所称的“有害聊天室”中生成的内容由于在线上的大量存在而可能被过度代表。

英国伦敦大学学院创意计算学院的艺术家和AI研究人员Phoenix Perry将偏见比作准备一顿“被污染的食材”的饭菜，即数据，这些数据充满了在线上普遍存在的偏见，如种族主义、性别歧视和恐跨情绪。Perry说：“如果数据或‘食材’有缺陷，无论计算能力或先进的机器学习有多强，都无法纠正由此产生的产品。这种有缺陷的输出反映了有害的社会偏见并延续了它们的存在。”

即使训练数据没有偏见，由于模型训练者自身的偏见，问题可能会出现，而由于从事人工智能工作的女性比例较低，这个问题更加严重，东京大学未来倡议研究所和RIKEN先进智能项目中心的Arisa Ema说道：“我们社会结构中的这种偏见已经在设计师社区、算法和数据选择中产生了偏见。”

好的数据和基层

如果“内在”存在偏见，该如何解决？

一些解决方案采取了以行业为重点的方法。英国伯明翰大学医院信托基金和伯明翰大学领导的STANDING Together项目团队正在开发用于人工智能医疗的多样化数据集标准，以更好地代表社会。

在法律背景下，希腊的研究机构Centre for Research and Technology Hellas (CERTH)、比利时的Centre for IT and IP Law以及英国的道德人工智能专家Trilateral Research在ACM的2022 FAccT会议上提出了一种新的公平感知机器学习方法，以减轻执法中的算法偏见。研究人员使用合成生成的样本来创建“更平衡的数据集”，以减轻他们在现有数据分析过程中发现的关于种族的偏见。

对于Milner来说，解决方案在于社区参与和重新思考数据收集，这些是D4BL在引发变革方面有记录的领域。在大流行期间，该团队主导了要求按种族发布州级数据以调查COVID-19对黑人的不成比例影响的需求，并与志愿数据科学家合作构建了相应的代码库。她说：“每个公开数据门户网站发布的COVID-19数据都会自动提供有关各州黑人社区的实时死亡和感染率更新；这是一个非常有力的工具。”

Milner对AI的潜力带来“巨大的进步”持乐观态度。然而，为了让每个人都受益，数据的权力需要“回到人民手中”，她说。她说，有关AI的讨论往往是精英主导的；解决方案意味着与基层组织进行合作，并“改变决策的角色阵容”。Milner说：“这是通过建立一个科学活动家、黑人社区和科学界的运动来将人们带到桌子旁的过程。”

作为一名艺术家，Perry带来了一种新颖的观点，主张使用小规模数据集来解决偏见问题，并在创意环境中更多地影响生成式人工智能，他说：“这些数据集的独特优势在于它们的高度个性化。”Perry还支持正式的监管措施，以限制利用偏见“为了牟利而在数据集中引入偏见，这种做法在社交媒体中已经明显存在。”

稳定AI创始人兼首席执行官Emad Mostaque也提到了小规模数据集的优势。最近在英国广播公司的《星期日与劳拉·昆斯伯格》节目上，Mostaque表示：“不要使用整个被爬取的互联网，而应使用高度策划且反映人类多样性的国家数据集。这些模型更有可能稳定；它们更有可能与人类保持一致。”

Das赞同Perry的观点，认为现在是时候进行监管了。他说：“公司必须面对某种形式的审查，审查他们正在做和推出的事情。”他指出了药物开发和基因工程等领域已经存在的监管体系作为例子。他说：“我们需要考虑建立一个有一定实权的机构，可以激励适当的安全措施。”

新的数据收集和模型训练方法以及对AI偏见的增加监管似乎是可能的；开发人员和决策者是否能跟上进展的速度则不确定。

Karen Emslie 是一位独立于地点的自由记者和散文家。