Press "Enter" to skip to content

评估生成AI的社会和伦理风险

引入一种基于上下文的框架,全面评估人工智能系统的社会和伦理风险

生成式人工智能系统已经被用于写作、创作图形设计、协助医疗从业人员等,其能力越来越强大。确保这些系统以负责任的方式开发和部署需要仔细评估它们可能带来的伦理和社会风险。

在我们的新论文中,我们提出了一个三层的框架,用于评估人工智能系统的社会和伦理风险。这个框架包括对人工智能系统能力、人机交互和系统影响的评估。

我们还对当前的安全评估进行了梳理,并找到了三个主要的缺口:上下文、具体风险和多模态。为了填补这些缺口,我们呼吁重新利用现有的生成式人工智能评估方法,并实施一种全面的评估方法,就像我们在虚假信息案例研究中所做的那样。这种方法整合了诸如人工智能系统是否可能提供错误信息等发现,并结合了人们在何种上下文中使用该系统及其影响的洞察力。多层次的评估可以得出超越模型能力的结论,指示出是否发生和传播危害——在本例中即虚假信息。

要使任何技术按预期工作,社会和技术挑战必须得到解决。因此,为了更好地评估人工智能系统的安全性,必须考虑到这些不同层次的上下文。在这里,我们在以前的研究基础上进行了扩展,确定了大规模语言模型的潜在风险,如隐私泄露、工作自动化、虚假信息等,并引入了一种全面评估这些风险的方法。

上下文对于评估人工智能风险至关重要

人工智能系统的能力是一种重要的指标,可以说明可能出现的更广泛风险的类型。例如,更有可能产生事实不准确或误导性输出的人工智能系统可能更容易带来虚假信息的风险,导致公众信任缺失等问题。

衡量这些能力是人工智能安全评估的核心,但单靠这些评估无法确保人工智能系统的安全。是否产生下游危害——例如,人们是否基于不准确模型输出形成了错误信念——取决于上下文。更具体地说,谁在使用该人工智能系统以及目的是什么?人工智能系统是否按预期工作?它是否会产生意外的外部性?所有这些问题都会对人工智能系统的安全性进行整体评估。

除了评估能力,我们提出的评估还可以评估下游风险体现的其他两个点:使用过程中的人机交互和作为人工智能系统嵌入更广泛系统和广泛部署的系统影响。在这些层面上综合评估给定风险的危害可以提供对人工智能系统安全性的全面评估。

人机交互评估着眼于使用人工智能系统的人员的体验。人们如何使用这个人工智能系统?系统在使用过程中是否按预期工作,并且不同人群和用户组之间的体验有何不同?我们是否可以观察到使用这项技术或接触其输出产生的意外副作用?

系统影响评估侧重于人工智能系统嵌入更广泛体系结构的方面,例如社会机构、劳动市场和自然环境。在这个层面上的评估可以揭示出仅在人工智能系统被大规模采用后才能显现的危害风险。

我们的三层评估框架,包括能力、人机交互和系统影响。上下文对评估人工智能系统的安全性至关重要。

安全评估是共同责任

人工智能开发者需要确保他们的技术以负责任的方式开发和发布。公共行为者,如政府,负责维护公共安全。随着生成式人工智能系统的广泛应用和部署,确保它们的安全性是多方共同的责任:

  • AI开发人员有能力审查他们所生产系统的功能。
  • 应用开发人员和指定的公共机构有能力评估不同特性和应用程序的功能,并评估对不同用户群体的潜在影响。
  • 更广泛的公众利益相关者独特地具备预测和评估新技术(如生成式人工智能)对社会、经济和环境的影响的能力。

我们提出的框架中的三个评估层次是相对而非明确划分的。虽然没有一个层次完全由单一参与者负责,但主要责任取决于最适合在每个层次上进行评估的人员。

AI开发人员和其他组织在责任分配上的相对比重。

生成式多模态AI当前安全评估的不足之处

考虑到这种额外背景对于评估AI系统安全性的重要性,了解此类测试的可用性就显得重要。为了更好地了解整体情况,我们进行了广泛的努力,尽可能全面地汇总了已应用于生成式AI系统的评估。

基于广泛评估综述,生成式AI系统的社会技术安全评估状况,按风险类别、评估层次和输出模态划分。

通过绘制生成式AI安全评估的当前状况,我们发现了三个主要的安全评估不足之处:

  1. 背景:大部分安全评估都仅考虑生成式AI系统的能力本身。相对较少的工作已经对人类交互点和系统影响可能存在的风险进行评估。
  2. 特定风险评估:对生成式AI系统的能力进行评估时,涵盖的风险领域有限。对于许多风险领域,存在较少的评估。即使存在评估,评估通常只以狭义的方式具体化了有害行为。例如,代表性风险通常被定义为将不同职业与不同性别相关联的陈规定势观念,忽略了其他类型的伤害和风险领域。
  3. 多模态性:现有的大多数生成式AI系统安全评估仅关注文本输出,对于图像、音频或视频模态的伤害风险评估仍存在巨大的缺口。随着单一模型中引入多种模态的AI系统,这一缺口只会扩大,这些系统可以接受图像输入或产生融合音频、文本和视频的输出。虽然一些基于文本的评估方法也可应用于其他模态,但新的模态引入了风险可能出现的新方式。例如,对于动物的描述并不具有伤害性,但如果将描述应用到一个人的图像上,则会产生伤害。

我们正在通过此存储库制作链接列表,其中详细描述了公开可访问的生成式AI系统安全评估的出版物。如果您想做出贡献,请通过填写此表格进行评估添加。

将更全面的评估实施到实践中

生成式AI系统正推动着新应用和创新的浪潮。为了确保对这些系统潜在风险的了解和缓解,我们迫切需要对AI系统安全性进行严格和全面的评估,考虑到这些系统可能被如何使用和嵌入到社会中。

一个实际的首要步骤是重新利用现有评估,并利用大型模型本身进行评估,虽然这存在重要的限制。为了进行更全面的评估,我们还需要开发评估人类交互点和其系统影响的方法。例如,虽然通过生成式AI传播错误信息是一个最近的问题,但我们展示了许多现有的评估公众信任和可信度的方法可以重新利用。

确保广泛使用的生成式人工智能系统的安全是一个共同的责任和优先事项。人工智能开发人员、公共行为者和其他方必须合作,共同建立一个繁荣和健壮的评估生态系统,以确保人工智能系统的安全。

阅读我们在arXiv上的论文:https://arxiv.org/abs/2310.11986

访问社会技术评估知识库:https://dpmd.ai/46CPd58

为社会技术评估知识库做出贡献:https://docs.google.com/forms/d/e/1FAIpQLSddpgbOQusru0Kvhq7eAXR0yWnBVioE0SUPX-C_RMwclldOrw/viewform?resourcekey=0-aLrlwk9nVVurJPmtncsC2g

Leave a Reply

Your email address will not be published. Required fields are marked *