Press "Enter" to skip to content

生成AI伦理

在自主内容时代的关键考虑因素

照片由作者David E. Sweenor提供

随着生成式人工智能(AI)引起的轰动,关于如何负责任地实施这一变革性技术的问题越来越多。本文将回顾欧盟(EU)的AI伦理指南,并讨论在使用大型语言模型(LLMs)时实施AI伦理框架的关键考虑因素。

值得信赖的AI伦理指南

2019年4月8日,欧盟实施了人工智能(AI)的伦理和负责任使用框架。该报告定义了构建值得信赖的AI的三个指导原则:

  1. 合法:AI应遵守法律和地区规定。
  2. 伦理:AI系统应具备伦理并遵守伦理原则和价值观。
  3. 健壮:由于AI能够在短时间内对大量人群造成重大伤害,因此需要在技术和社会层面上具备健壮性。

对于跨国公司来说,这引发了一个有趣的问题,即他们应如何在地缘政治边界上应用这一框架,因为在世界的某个地区被认为是合法和伦理的可能在另一个地区并非如此。许多公司会采取最严格的法规,并将其在所有地理区域上一致应用。然而,“一刀切”的方法可能不适当或不可接受。

欧盟的框架如下图1.1所示。

图1.1:欧盟的AI伦理框架

图表由作者David E. Sweenor提供,TinyTechGuides创始人

基于这三个基本原则,得出了四个伦理原则和七个关键要求。这些伦理原则包括:

  1. 尊重人类自主权:这一原则强调人类应在与AI的互动中保持控制和自由。“AI系统不应无故地使人类附属、强迫、欺骗、操纵、限制或驱使。”[1] 从根本上说,AI应支持人类参与民主进程。我们已经看到一些国家对其公民实施“社会评分”,这应该引起关注。
  2. 预防伤害:AI系统不应造成身体、心理或情感上的伤害。鉴于AI的普及程度和快速影响力,重要的是密切监控AI的输出,以防止对公民、员工、企业、消费者和政府的意外操纵“由于权力或信息的不对称。”[2] 我们已经看到自动驾驶汽车制造商在所谓的AI车辆问题上苦苦挣扎。当然,这不仅限于机器人系统;人们依赖ChatGPT提供医疗建议,但鉴于它喜欢凭空捏造事实,我们需要小心。
  3. 公正:AI系统应无偏见和非歧视性,力求“公平分配利益和成本。”[3] 公正意味着人类的选择不应受到破坏,“AI从业者应在利益和目标之间取得平衡,尊重手段和目的之间的比例原则。”[4]表面上看,这似乎很简单,但您知道有二十多个公正的数学定义吗?[5]
  4. 可解释性:AI系统需要透明、可审计、可复现和可解释。如果AI被用来决定对您产生影响的事情,您有权了解算法是如何做出该决策的。例如,如果您被拒绝了信用,该AI系统的操作员应能够向您提供导致该决策的所有因素。当使用“黑盒”模型时,如神经网络和生成对抗网络(GANs),这可能会带来问题,而这些模型是许多LLMs的基础。

这使我们得出了七个要求:

  1. 人类代理权和监督:基本上,这个要求表示AI系统应该尊重人权,不能完全自主运行。AI应该增强而不是取代人类的决策。应该有一个挑战AI决策的过程,并且人类应该能够在必要时覆盖AI决策。这听起来不错,但是当成百上千的决策被自动做出时,你如何有效地跟踪所有这些决策,以确保事情不会出错呢?
  2. 技术的稳健性和安全性:AI系统需要对恶意行为者和网络攻击具有安全、稳健和弹性。它们应该提供可靠和可复现的准确预测。组织必须将网络安全置于优先位置,并制定应对攻击和系统离线情况下如何运作的应急计划。他们需要特别关注对抗性数据污染,即恶意行为者通过修改训练数据来引起错误预测。
  3. 隐私和治理:“AI系统必须在整个系统生命周期中保障隐私和数据保护。”[6] AI系统的开发者需要采取措施防止恶意数据或代码进入系统。该指南还强调,只有授权用户才能访问个人数据,这些数据必须公平、无偏见,并遵守其整个生命周期的所有隐私法规。组织需要考虑的一个问题是什么构成“授权用户”?你是否看到过Roomba拍摄一名女子上厕所的案例,结果照片出现在Facebook上?
  4. 透明度:组织必须能够追溯数据的来源、收集方式、转换方式和使用方式。这个过程应该是可审计的,AI的输出应该是可解释的。这对数据科学家来说是一个挑战,因为通常情况下,可解释的模型往往比“黑盒”算法不准确。这个要求还指出,与AI交互的人应该意识到他们正在与机器人交互,也就是说,AI不应该假装是人类,我们应该清楚我们正在与机器人交互。
  5. 多样性、非歧视性和公平性:AI应该平等对待所有群体,这可能说起来容易做起来难。该要求建议设计者应该包括来自不同文化、经验和背景的人,以帮助减轻许多文化中普遍存在的历史偏见。AI应该对所有人都可访问,无论是否有残疾或其他因素。这引出了一个问题,什么定义了一个“群体”?有明显的受保护类别,如年龄、种族、肤色、地区/信仰、国籍、性别、年龄、身体或精神残疾或退伍军人身份。还有其他应该考虑的因素吗?如果我是一家保险公司,我可以对那些被认为是“不健康”的人收取比那些有“健康”习惯的人更少的费用吗?
  6. 社会和环境福祉:AI系统应该致力于改善社会,促进民主,并创建环境友好和可持续的系统。能做某件事并不意味着应该做某件事。企业领导者需要对AI的潜在社会影响进行审慎考虑。培训AI模型的成本是多少?它们是否与您的环境、社会和公司治理(ESG)政策相抵触?我们已经看到一些社交媒体平台如TikTok向孩子们推送有害内容的例子。
  7. 问责制:AI系统的设计者应该对其系统负责,这些系统应该是可审计的,并为受决策影响的人们提供纠正和更正任何不公平决策的途径。设计者可能会对对个人或群体造成的任何损害负责。这引出了一个有趣的问题,如果系统出现故障,谁应该负责?是提供基础模型的供应商还是使用生成性AI的公司?

虽然这些原则在表面上看起来很直观,但在“这些原则在解释上存在实质性分歧;为什么它们被认为重要;它们适用于什么问题、领域或参与者;以及如何实施它们。”[7]

LLM的AI伦理考虑

现在我们了解了欧盟AI伦理指南,让我们深入研究LLM的独特考虑因素。

在之前的一篇博文中,我提到了生成性AI和LLM的三个关键能力,包括:

内容生成:生成性AI可以生成类似人类质量的内容,包括文本、音频、图像/视频甚至软件代码。现在,应该注意到生成的内容可能不准确,最终用户有责任确保生成的内容是真实的而不是误导性的。开发者需要确保生成的代码没有错误和病毒。

内容摘要和个性化:筛选大量文件并快速概括内容是生成式人工智能的一大优势。除了能快速创建文件、电子邮件和Slack消息的摘要外,生成式人工智能还可以为特定个人或角色个性化这些摘要。

内容发现和问答:许多组织在其组织中有大量的内容和数据散落在不同的数据孤岛中。许多数据和分析供应商正在使用LLM和生成式人工智能来自动发现和连接不同的数据源。最终用户可以使用自然语言查询这些数据,以理解关键要点并深入了解更详细的内容。

考虑到这些不同的能力,我们在制定人工智能伦理框架时需要考虑哪些因素?

人类代理和监督

由于生成式人工智能基本上可以自主产生内容,存在着人类参与和监督可能会减少的风险。想想看,你每天收到多少电子邮件垃圾邮件?市场团队创建这些电子邮件,将它们加载到市场自动化系统中,然后按下“发送”按钮。这些邮件自动运行,往往被遗忘并持续运行。

鉴于生成式人工智能可以以极快的速度生成文本、图像、音频、视频和软件代码,我们应该采取什么措施来确保有人参与其中,特别是在关键应用中?如果我们自动化了医疗建议、法律建议和其他更“敏感”的内容,组织需要深思熟虑如何保持对这些系统的代理和监督。公司需要制定保障措施,确保所做的决策符合人类的价值观和意图。

技术稳健性和安全性

众所周知,生成式人工智能模型可以创建出意想不到甚至有害的内容。公司需要严格测试和验证其生成式人工智能模型,确保其可靠和安全。此外,如果生成的内容有错误,我们需要有机制来处理和纠正输出。互联网上充满了恶劣和分裂性的内容,一些公司已经雇佣内容审核员来审查可疑内容,但这似乎是一项不可能的任务。最近有报道称,这些内容对人们的心理健康造成了很大的伤害(AP新闻-​​​​Facebook在肯尼亚的内容审核员称工作是“折磨”。他们的诉讼可能会在全球蔓延)。

隐私和治理

生成式人工智能模型是基于从互联网上收集的数据进行训练的。许多LLM制造商实际上并没有透露训练模型所使用的详细数据。现在,这些模型可能已经在不应公开的敏感或私人数据上进行了训练。只需看看不经意间泄露了专有数据的三星(TechCrunch-三星在四月意外泄露内部数据后禁止使用ChatGPT等生成式人工智能工具)。如果生成式人工智能生成的输出包含或类似于真实的私人数据怎么办?据Bloomberg Law报道,OpenAI最近因ChatGPT的幻觉而被起诉。

我们可以肯定地说,公司需要详细了解用于训练生成式人工智能模型的数据来源。在使用自己的数据对模型进行微调和适应时,您有权删除或匿名化该数据。然而,如果基础模型提供者使用了不适合模型训练的数据,那么谁应该承担责任?

透明度

从本质上讲,“黑盒子”模型很难解释。事实上,许多这些LLM具有数十亿个参数,所以我认为它们是不可解释的。公司应该追求透明度,并创建关于模型工作原理、限制、风险和用于训练模型的数据的文档。不过,这说起来容易做起来难。

多样性、非歧视和公平性

与上述问题相关的是,如果没有经过适当的培训和考虑,生成式人工智能可能会产生有偏见或具有歧视性的输出。公司可以尽力确保数据多样且具有代表性,但这是一项艰巨的任务,因为许多LLM提供者并不公开用于训练的数据。除了在理解培训数据的风险和限制方面采取一切可能的预防措施之外,公司还需要建立一个监测系统来检测有害内容,并采取相应措施来标记、阻止其分发并进行必要的纠正。

社会和环境福祉

对于拥有ESG倡议的公司,训练LLM(语言模型)会消耗大量的计算资源,即使用了相当多的电力。在开始部署生成式人工智能能力时,组织需要注意环境足迹,并寻求减少它的方法。有几位研究人员正在寻找减小模型大小和加速训练过程的方法。随着这一进展,公司至少应在其年度报告中考虑环境影响。

问责制

这将是未来几年诉讼的活跃领域。如果生成式人工智能产生有害或误导性内容,谁应该承担责任?谁在法律上负有责任?在美国法院系统中有几起未决的诉讼案件,这将为其他诉讼案件奠定基础。除了有害内容,如果您的LLM产生了一个派生作品,那么您的LLM是在受版权保护或合法保护的材料上进行训练的吗?如果它生成了一个数据派生物,法院将如何处理这个问题?在公司实施生成式人工智能能力时,应该制定控制措施和反馈机制,以便采取行动来解决问题。

总结

生成式人工智能在改变世界的工作方式方面具有巨大的潜力,但其快速发展也带来了许多伦理困境。当公司涉足生成式人工智能领域时,必须深入了解已建立的伦理准则,并在其实施中导航。通过这样做,组织可以利用人工智能的变革力量,同时确保他们遵守伦理标准,防范潜在的陷阱和危害。

[1] 欧洲委员会。2021。“诚信人工智能的伦理指南|塑造欧洲的数字未来。” Digital-Strategy.ec.europa.eu。2021年3月8日。https://digital-strategy.ec.europa.eu/en/library/ethics-guidelines-trustworthy-ai。

[2] 欧洲委员会。2021。“诚信人工智能的伦理指南|塑造欧洲的数字未来。” Digital-Strategy.ec.europa.eu。2021年3月8日。https://digital-strategy.ec.europa.eu/en/library/ethics-guidelines-trustworthy-ai。

[3] 欧洲委员会。2021。“诚信人工智能的伦理指南|塑造欧洲的数字未来。” Digital-Strategy.ec.europa.eu。2021年3月8日。https://digital-strategy.ec.europa.eu/en/library/ethics-guidelines-trustworthy-ai。

[4] 欧洲委员会。2021。“诚信人工智能的伦理指南|塑造欧洲的数字未来。” Digital-Strategy.ec.europa.eu。2021年3月8日。https://digital-strategy.ec.europa.eu/en/library/ethics-guidelines-trustworthy-ai。

[5] Verma, Sahil, and Julia Rubin. 2018. “公平定义解释。” 国际软件公平研讨会论文集 – FairWare’18。https://doi.org/10.1145/3194770.3194776。

[6] 欧洲委员会。2021。“诚信人工智能的伦理指南|塑造欧洲的数字未来。” Digital-Strategy.ec.europa.eu。2021年3月8日。https://digital-strategy.ec.europa.eu/en/library/ethics-guidelines-trustworthy-ai。

[7] Jobin, Anna, Marcello Ienca, and Effy Vayena. 2019. “全球人工智能伦理指南的现状。” 自然机器智能 1(9):389-99。https://doi.org/10.1038/s42256-019-0088-2。

Leave a Reply

Your email address will not be published. Required fields are marked *