负责任生成式人工智能的三种新兴实践

谷歌在人工智能领域的持续工作为数十亿人每天使用的工具提供支持，包括谷歌搜索、翻译、地图等。我们最为兴奋的一些工作涉及使用人工智能来解决重大社会问题，包括预测洪水、减少碳排放和改善医疗保健。我们已经了解到，人工智能有潜力对全球面临的危机产生深远影响，同时还能将现有创新的好处扩展到全球各地的人们。

这就是为什么人工智能必须以负责任的方式进行开发，解决可识别的问题，如公平性、隐私和安全，并在人工智能生态系统中进行合作。这也是为什么在2017年宣布我们是一个“以人工智能为先”的公司后，我们分享了我们的人工智能原则，并且建立了一个广泛的人工智能原则治理结构和可扩展的和可重复的伦理审查流程。为了帮助其他人负责任地开发人工智能，我们还开发了一个日益壮大的负责任人工智能工具包。

每年，我们都会在公开的年度更新报告中详细介绍我们的风险评估、伦理审查和技术改进过程，包括2019年、2020年、2021年和2022年。此外，我们还会在年中发布简短的进展报告，介绍我们在整个行业中的观察结果。

今年，生成式人工智能比我们有生以来的任何新兴技术都受到更多公众关注、讨论和合作兴趣。这是一件好事。这种合作精神只会有利于人工智能负责任发展的目标，从帮助小型企业创建更具吸引力的广告活动，到让更多人能够原型化新的人工智能应用，甚至无需编写任何代码。

就我们而言，我们已经将人工智能原则和伦理审查流程应用到我们产品中的人工智能开发中，生成式人工智能也不例外。在过去的六个月中，我们发现有明确的方法可以促进生成式人工智能关注的安全、社会利益实践，如不公平偏见和事实性问题。我们会在设计和开发过程的早期积极整合伦理考虑，并大幅扩展我们对早期人工智能项目的审查，重点关注生成式人工智能项目的指导。

在我们的年中更新中，我们愿意根据这些指导和我们在预发布设计、审查和生成式人工智能开发中所做的工作，分享我们的三个最佳实践：负责任的设计、进行对抗性测试和提供简单、有帮助的解释。

1. 负责任的设计。

首先要识别和记录潜在的危害，并在生成式人工智能产品开发过程中使用负责任的数据集、分类器和过滤器主动解决这些危害。在此基础上，我们还会：

参与与研究社区一起的研讨会，寻找建立可信赖人工智能的全面方法。最近，我们支持并推动了一些论坛，如计算机视觉创意应用的伦理考虑和自然语言处理的跨文化考虑。
在发布之前制定禁止使用政策，该政策基于早期研究、开发和伦理审查过程中确定的危害。
使用分类器和其他工具等技术方法来标记和过滤违反政策的输出，并使用负责任人工智能工具包中的其他方法。最近，我们在工具包中新增了一个新版本的学习可解释性工具（LIT），用于模型调试和理解，以及Monk肤色示例（MST-E）数据集，帮助人工智能从业者使用包容性的Monk肤色（MST）标度。
召集来自法律和教育等各个领域的外部专家团队，进行关于公平的产品结果的深入讨论。我们持续进行的公平人工智能研究圆桌会议（EARR），例如，继续与代表在人工智能领导职位上历史上代表性不足的社区的思想领袖会面，重点关注生成式人工智能主题。
向可信任的测试人员提供试验性的渐进式发布，以获得反馈。
与决策者、隐私监管机构和全球专业人士进行持续的积极交流，为更广泛的发布提供信息，就像我们在将Bard扩展到40种语言和国际受众之前所做的那样。

2. 进行对抗性测试。

开发人员可以在发布和持续发布之前对生成式人工智能模型进行内部的压力测试，以识别和减轻潜在风险。例如，在Bard中，我们的实验项目，允许人们与生成式人工智能进行协作，我们测试了可能被解释为类似人的输出，这可能导致潜在的有害误解，然后通过限制Bard使用“I”语句的方式创建了一种保护机制，以限制在测试中发现的不适当拟人化风险。我们还会：

在研究和开发过程的早期阶段寻求社区的意见，以了解社会背景。这可以帮助全面压力测试。例如，我们最近与MLCommons和Kaggle合作，创建了一个名为Adversarial Nibbler的公开人工智能竞赛，以众包方式获取对抗性提示，对文本到图像模型进行压力测试，目标是识别图像生成模型评估中的未知缺口或“未知未知”。
在内部进行全面的测试。在发布Bard之前，我们从数百名谷歌员工中挑选了一组具有各种背景和文化经验的人，他们自愿违反我们的政策来测试该服务。我们继续进行这些内部的对抗性测试，以指导Bard的持续扩展和功能发布。
调整和应用对抗性安全测试来解决生成式人工智能特定的问题。例如，我们已经发展了我们的持续“红队”测试方法，即通过压力测试来识别攻击漏洞，以“道德黑客”我们的人工智能系统，并支持我们的新安全人工智能框架。我们将进一步扩展道德黑客方法，以生成式人工智能为重点，在今年的DEFCON大会上共享一个大型语言模型供公众进行红队测试。

负责任生成式人工智能的三种新兴实践四海第1张

谷歌的AI红队：道德黑客使AI更安全

今天，我们首次发布有关谷歌AI红队的信息。

阅读文章

3. 沟通简单、有帮助的解释。

在发布时，我们致力于提供关于生成式人工智能何时以及如何使用的清晰沟通。我们努力展示人们如何提供反馈意见，并保持他们的控制。例如，对于巴德（Bard），我们的解释性实践包括：

“Google搜索”按钮提供相关的搜索查询，以帮助用户验证基于事实的问题
拇指向上和向下的图标作为反馈渠道
报告问题和提供操作支持的链接，以确保对用户反馈的快速响应
用户对存储或删除巴德活动的控制

我们还努力在用户与实验阶段的新生成式人工智能技术互动时向用户明确表达。例如，实验室发布的NotebookLM等产品明显标有“实验”，并提供了有关早期访问期间可用功能的具体详细信息。

另一种解释性实践是对生成式AI服务或产品的工作原理进行全面的文档化。对于巴德来说，这包括提供详细概述，以明确交互数量的上限，以确保质量、准确性，并防止潜在的拟人化等安全问题，并提供隐私通知，以帮助用户了解巴德如何处理他们的数据。

保持透明度也是关键。我们发布了一份关于目前为巴德提供动力的PaLM-2模型的详细技术报告，其中包括基于我们内部评估细节的内部文档信息，以及关于如何负责任地使用该模型的AI研究人员和开发人员的指南。

除了以上三点观察，我们在解决诸如图像来源等问题时，广泛关注确保新的生成式人工智能技术同样具有创新的防护措施。我们的努力包括为谷歌AI工具生成的图像添加水印（例如虚拟试穿或达芬奇便签），并为发布者提供图像标记，以指示图像是否由AI生成。

勇于创新和负责任并不矛盾，事实上，它们在促进新技术的接受、采用和有益性方面是相辅相成的。本月早些时候，我们发起了一场公开讨论，邀请网络发布者、民间社会、学术界和AI社区就在生成式人工智能时代支持未来互联网发展的协议方法提出看法。在我们继续前进的过程中，我们将继续分享我们如何应用新兴的负责任的生成式人工智能开发实践以及与年度末的AI原则进展更新一起进行的持续透明度。