Press "Enter" to skip to content

伦理和社会通讯第三期:Hugging Face的道德开放

使命:开放和良好的机器学习

在我们追求民主化良好的机器学习(ML)的使命中,我们研究如何支持ML社区工作,同时也赋予人们审查和预防可能的危害的能力。开放的发展和科学使权力分散,使许多人能够共同从事反映他们需求和价值的人工智能工作。尽管开放性使广泛的观点能够为研究和整体人工智能做出贡献,但也面临着较少风险控制的紧张局势。

由于这些系统的动态和迅速发展的特性,对ML构件的调节提出了独特的挑战。事实上,随着ML模型变得越来越先进并能够生成越来越多样化的内容,有害或意外输出的潜力增加,需要制定强大的调节和评估策略。此外,ML模型的复杂性和它们处理的大量数据加剧了识别和解决潜在偏见和道德问题的挑战。

作为主办方,我们意识到我们可能会加剧对用户和整个世界的伤害的责任。通常情况下,这些伤害对少数群体的影响是不平等的,具体取决于上下文。我们采取的方法是分析每个上下文中存在的紧张局势,并对公司和Hugging Face社区展开讨论。虽然许多模型可能会加剧伤害,尤其是歧视性内容,但我们正在采取一系列措施来识别风险最高的模型以及采取何种行动。重要的是,来自不同背景的积极观点对于理解、衡量和减轻影响不同人群的潜在危害至关重要。

我们正在开发工具和安全措施,除了改善我们的文档实践,以确保开源科学能够赋予个人力量,同时继续将潜在危害降至最低。

伦理类别

我们推动良好开放ML工作的第一个主要方面是推广那些优先考虑价值观和利益相关方的ML开发工具和积极实例。这有助于用户采取具体步骤解决未解决的问题,并提出可行的替代方案,以摒弃ML开发中的有害实践。

为了帮助用户发现和参与与伦理相关的ML工作,我们编制了一组标签。这6个高级类别是基于社区成员贡献的空间的分析而确定的。它们旨在为您提供一种无专业术语的思考伦理技术的方式:

  • 严谨的工作特别关注以最佳实践为导向的开发。在ML中,这可能意味着研究失败案例(包括进行偏见和公平性审计),通过安全措施保护隐私,并确保潜在用户(技术和非技术人员)了解项目的限制。
  • 同意的工作支持使用和受这些技术影响的人的自主权。
  • 有社会意识的工作向我们展示了技术如何支持社会、环境和科学努力。
  • 可持续的工作强调并探索使机器学习在生态上可持续的技术。
  • 包容性的工作扩大了机器学习世界中谁进行构建和受益的范围。
  • 好奇的工作揭示了挑战社区对技术与其关系的重新思考的不平等和权力结构。

了解更多信息,请访问https://huggingface.co/ethics

请留意这些术语,因为我们将在Hub上的一些新项目中使用这些标签,并根据社区贡献进行更新!

保障措施

将开放发布视为“全有或全无”的观点忽视了决定ML构件正面或负面影响的广泛背景。对ML系统共享和重复使用具有更多控制杠杆支持协作开发和分析,减少了促进有害使用或滥用的风险;为了实现更多的开放和创新参与,以共享利益为目的。

我们直接与贡献者互动,并解决紧迫的问题。为了将其提升到下一个层次,我们正在建立基于社区的流程。这种方法赋予Hugging Face贡献者和受贡献者影响的人权力,以确定限制、共享和额外机制,以确保在我们的平台上提供的模型和数据。我们将关注的三个主要方面是:构件的起源、构件的处理方式以及构件的使用情况。在这方面,我们:

  • 为我们的社区推出了标记功能,以确定ML构件或社区内容(模型、数据集、空间或讨论)是否违反我们的内容准则,
  • 监控我们的社区讨论板,以确保Hub用户遵守行为守则,
  • 以详细介绍社会影响、偏见和预期使用案例以及超出范围使用案例的模型卡的方式充实我们下载量最多的模型的文档,
  • 创建面向受众的标签,例如“不适合所有受众”的标签,可添加到存储库的卡片元数据中,以避免未经请求的暴力和性内容,
  • 推广使用Open Responsible AI Licenses(RAIL)的模型,例如LLMs(BLOOM,BigCode),
  • 开展研究,分析哪些模型和数据集具有最高的潜在误用和恶意使用的可能性。

如何使用标记功能: 在任何模型、数据集、空间或讨论上点击旗标图标:

伦理和社会通讯第三期:Hugging Face的道德开放 四海 第1张 登录后,您可以点击“三个点”按钮以报告(或标记)一个存储库。这将在存储库的社区标签中打开一个对话。

请分享您为何标记此项目:

伦理和社会通讯第三期:Hugging Face的道德开放 四海 第2张 请在您的报告中尽可能提供相关背景信息!这将使存储库所有者和HF团队更容易采取行动。

在优先考虑开放科学时,我们会逐案检查潜在的危害,并提供协作学习和共同责任的机会。当用户标记一个系统时,开发者可以直接透明地回应关注点。在这种精神下,我们要求存储库所有者尽力解决报告,特别是当报告人花时间提供问题描述时。我们还强调报告和讨论与平台其余部分的沟通规范相同。如果行为变得令人讨厌和/或滥用(请参阅行为准则),版主有权退出或关闭讨论。

如果我们的社区将特定模型标记为高风险,我们会考虑:

  • 降低ML工件在Hub的热门选项卡和订阅中的可见性,
  • 请求启用分组功能以管理对ML工件的访问权限(请参阅模型和数据集的文档),
  • 请求将模型设为私有,
  • 禁用访问权限。

如何添加“不适合所有受众”标签:

编辑模型/数据卡→在标签部分添加not-for-all-audiences→打开PR并等待作者合并。合并后,该存储库上将显示以下标签:

伦理和社会通讯第三期:Hugging Face的道德开放 四海 第3张

任何被标记为not-for-all-audiences的存储库在访问时将显示以下弹出窗口:

伦理和社会通讯第三期:Hugging Face的道德开放 四海 第4张

点击“查看内容”将允许您正常查看该存储库。如果您希望始终查看标记为not-for-all-audiences的存储库而不显示弹出窗口,请在用户的内容首选项中更改此设置。

伦理和社会通讯第三期:Hugging Face的道德开放 四海 第5张

开放科学需要保障,我们的目标之一是创建一个根据不同价值观进行权衡的环境。提供主机和访问模型,并培育社区和讨论,使各种群体能够评估社会影响并引导良好的机器学习。

您正在努力保障吗?请在Hugging Face Hub上分享!

Hugging Face最重要的部分是我们的社区。如果您是一位致力于使机器学习更安全,特别是开放科学的研究人员,我们希望支持和展示您的工作!

以下是Hugging Face社区研究人员最近的一些演示和工具:

  • John Kirchenbauer、Jonas Geiping、Yuxin Wen、Jonathan Katz、Ian Miers、Tom Goldstein等人的LLMs水印(论文)
  • Hugging Face团队的生成模型卡工具
  • Ram Ananth的Photoguard,用于保护图像免受篡改

感谢您的阅读!🤗

~ Irene、Nima、Giada、Yacine和Elizabeth,代表伦理和社会固定成员

如果您想引用此博客文章,请使用以下引用(按贡献降序):

@misc{hf_ethics_soc_blog_3,
  author    = {Irene Solaiman and
               Giada Pistilli and
               Nima Boscarino and
               Yacine Jernite and
               Elizabeth Allendorf and
               Margaret Mitchell and
               Carlos Muñoz Ferrandis and
               Nathan Lambert and
               Alexandra Sasha Luccioni
               },
  title     = {Hugging Face Ethics and Society Newsletter 3: Ethical Openness at Hugging Face},
  booktitle = {Hugging Face Blog},
  year      = {2023},
  url       = {https://doi.org/10.57967/hf/0487},
  doi       = {10.57967/hf/0487}
}
Leave a Reply

Your email address will not be published. Required fields are marked *