Press "Enter" to skip to content

苹果的这项人工智能研究调查了LLM在性别刻板印象方面的行为问题

苹果的这项人工智能研究调查了LLM在性别刻板印象方面的行为问题 四海 第1张苹果的这项人工智能研究调查了LLM在性别刻板印象方面的行为问题 四海 第2张

大型语言模型(LLMs)在过去几个月取得了巨大的进展,在许多不同领域击败了最先进的基准。人们在使用和研究大型语言模型(LLMs)方面有了明显的增长,特别是在自然语言处理(NLP)领域。除了在SAT、LSAT、医学院考试和智商测试等方面通过甚至超越,这些模型在各种自然语言任务中也显著超过了最先进技术(SOTA)。这些显著的发展引发了关于在日常任务中采用和依赖这些模型的广泛讨论,从医疗建议到安全应用再到分类工作项。

由苹果研究人员提出的一种新的测试范式之一,使用了当前LLMs正在使用的训练数据中可能被排除的表达式。他们表明,LLMs广泛使用了有性别偏见的假设。他们研究了LLMs对其决策的理由,并发现LLMs经常对刻板印象本身进行明确陈述,除了使用关于句子结构和语法的主张,这些主张在更详细的调查中并不成立。LLM的行为与西方文明的集体智慧相一致,至少在用于训练LLMs的数据中编码。找到这种行为模式、分离其原因并提出解决方案至关重要。

语言习得算法的性别偏见

关于语言模型中的性别偏见已经有了广泛的研究和记录。根据研究,无约束的语言模型反映并加剧了所处文化中的偏见。除了自动字幕、情感分析、毒性检测、机器翻译和其他NLP任务,性别偏见还在各种模型中得到了证明。性别不是唯一一个受到这种偏见影响的社会类别;宗教、肤色、国籍、残疾和职业都包括在内。

句子理解中的无意识偏见

人类句子处理文献还广泛记录了使用几种实验方法来证明性别偏见。总之,研究表明,了解文本中名词的有性别类别可以帮助理解,代词通常被认为是指主语而不是宾语。因此,在不太可能的情况下,句子得分可能会下降,阅读速度可能会降低,并且眼动实验中的回归等意外效应可能会发生。

社会对女性的偏见

鉴于性别成见和偏见在当今文化中的存在和普遍性,也许不应该奇怪语言模型的输出也会表现出偏见。从医学和经济学到教育和法律等各个领域都已经记录了性别偏见,但是这些发现的完整调查超出了本研究的范围。例如,研究发现各种学科和教育环境中存在偏见。即使是学前儿童也容易受到刻板印象的负面影响,这可能对自我认知、学业和职业选择以及其他发展领域产生持久影响。

设计

科学家们设计了一个类似于但与WinoBias不同的框架来研究性别偏见。每个研究项目都包括一对描述职业的名词,一个与男性刻板印象相关,另一个与女性刻板印象相关,以及一个男性化或女性化的代词。根据战术的不同,他们预期会有各种不同的反应。此外,根据与句子的词汇成分相关的假设和世界知识,该技术可能会从句子到句子不断变化。

由于研究人员认为WinoBias句子现在已成为多个LLMs的训练数据的一部分,他们在工作中避免使用这些句子。相反,他们按照上述模式构建了15个句子模式。此外,与WinoBias不同,他们不是根据美国劳工部的数据选择名词,而是根据衡量英语使用者对特定表示男性或女性倾向的职业名词看法的研究进行选择。

2023年,研究人员检查了四个对公众开放的LLMs。在模型有许多配置选项时,他们使用了工厂默认设置。他们提供了关于代词和职业选择之间关系的对比结果和解释。

研究人员没有考虑LLMs的行为,例如使用(和不使用)诸如单数they和新代词等性别中立代词,如何反映和影响跨性别个体的现实。鉴于这些二元范式的发现和以往研究的数据缺失,他们推测包含更多性别将对LLM的性能产生更加沉重的影响。在这里,他们承认接受这些假设可能会伤害那些不符合这些简单性别观念的边缘化群体,并且他们对未来研究专注于这些微妙关系并为其带来新的启示表示乐观。

总结

为了确定现有的大型语言模型是否存在性别偏见,研究人员设计了一个简单的场景。WinoBias是一个流行的性别偏见数据集,预计已包含在现有LLM的训练数据中,而这个范式扩展了但又有所区别于该数据集。研究人员检查了2023年第一季度发布的四个LLM。他们发现不同模型之间存在一致的结果,表明他们的发现可能适用于当前市场上的其他LLM。他们显示LLM对男性和女性存在性别偏见的假设,特别是那些符合人们对男性和女性职业的观念,而不是基于来自美国劳工局的数据揭示的情况的观念。其中一个关键发现是:

(a) LLM在决定哪个代词最有可能指代哪个性别时使用了性别刻板印象;例如,LLM使用代词“他”指代男性,“她”指代女性。

(b) LLM倾向于放大关于女性的性别偏见观念,而不是男性。虽然LLM在特定提示下普遍观察到这一点,但在自由发挥时很少这样做。

(d) LLM对其决策给出似乎有权威性的理由,但这些理由往往是错误的,可能掩盖了其预测背后的真正动机。

这些模型的另一个重要特征因此被揭示出来:由于LLM是在有偏见的数据上进行训练的,即使在使用人类反馈进行强化学习时,它们也倾向于反映和加剧这些偏见。研究人员坚持认为,就像其他形式的社会偏见一样, marginalized people and groups的保护和公平待遇必须放在LLM的开发和教育的前沿。

Leave a Reply

Your email address will not be published. Required fields are marked *