如何使用护栏来设计安全可靠的AI

如何使用护栏来设计安全可靠的AI 四海第1张

如果您对设计、构建或实施AI非常认真，那么防护栏的概念可能是您听说过的。虽然用于减轻AI风险的防护栏的概念并不新鲜，但最近的生成式AI应用浪潮使得这些讨论对每个人都变得相关，而不仅仅是数据工程师和学者。

作为AI构建者，教育利益相关者了解防护栏的重要性至关重要。作为AI用户，您应该向供应商提出正确的问题，以确保在为组织设计ML模型时设置了防护栏。

在本文中，您将更好地了解本文内容的背景下的防护栏以及如何在AI设计和开发的各个阶段设置它们。

AI中的防护栏是什么？

防护栏是一组过滤器、规则和工具，它们位于输入、模型和输出之间，以降低错误/有毒输出和意外格式的可能性，同时确保您符合您对值和正确性的期望。您可以这样模糊地将它们描绘在此图中。

如何使用护栏来设计安全可靠的AI 四海第2张

简而言之，防护栏是保持过程符合期望的一种方法。它们允许我们在模型中建立更多的安全性，并为最终用户提供更可靠的结果。如今，许多防护栏提醒到生成式AI应用程序所使用的防护栏；然而，许多技术也适用于其他AI应用程序。

在AI设计中设置防护栏

无论应用程序如何，在AI设计和开发过程的每个环节都可以设置防护栏：在训练中，用于提示和输入，以及输出。

训练过程中的防护栏

在ODSC期间，我听到来自NVIDIA IT AI副总裁 Rama Akkiraju的一个有趣的引文，这个引文让我印象深刻：“我们过去是通过模糊来获得安全性。”

过去，企业在驱动器中有隐藏的文档和PDF，其中可能散落着受保护和敏感信息。这些信息过去是安全的，因为组织没有大规模使用它们。现在突然之间，我们正在构建可能需要对每一次客户对话进行完全导出的语言模型。很可能有人已经提供了个人信息，如电话号码或（希望不是，但你永远不知道）社会安全号码。

如果我们在未先扫描并识别培训数据中可能存在的敏感信息来源的情况下导出这些数据，我们可能会将这些信息传递给模型。为训练数据建立防护栏给了我们将任何风险信息与初始数据分离的机会。

在软件开发领域，我们也理解“单元测试”这个概念。这包括设计一系列的“代码测试”，以确保代码片段及其任何更新仍按预期运行。就像标准的单元测试一样，人们仍然必须设计场景和示例来针对模型进行测试。我们甚至开始看到团队巧妙地利用大型语言模型生成更多用于此类单元测试的示例。

现实世界的例子：假设您是一家零售商，希望通过启用自然语言处理的客户服务聊天机器人改进退货流程。在将其连接到客户购买记录、先前的聊天历史和产品信息之前，您将希望混淆训练数据。如果您正在训练模型使用您的客户和过去的互动，确保真实姓名或其他PII（可识别个人信息）不会传递给模型。

活动-ODSC东部2024

线下和线上会议

2024年4月23日至25日

加入我们，深入探讨最新的数据科学和AI趋势、工具和技术，从LLMs到数据分析，从机器学习到负责任的AI。

提示和输入的防护栏

在设置提示和输入的防护栏时，我们可以对数据进行筛选，以确定数据输入是否可能导致模型失控或超出已验证的条件。

这在提示污染尝试方面尤为重要，它是一种新的网络漏洞形式，攻击者寻找特殊和奇怪的方式，如引入奇怪的令牌序列，以使LLM（语言模型）失控。

通过大量的压力测试和精细调整，我们可以观察模型并功能性地确定什么使其表现出奇异的方式。一种简单的做法是数学计算出任何提示或输入与以前的示例相似（或不相似）的程度。

现实世界的例子：在我们以客户服务聊天机器人为例中，客户可能会以请求退货特定产品的对话开始。输入的防护栏可以帮助确定请求信息的个人是否有权触发模型并检索该信息。

输出的防护栏

这些是应用于现场解决方案（AI 模型和最终用户之间）的一套安全措施。在设计输出的防护栏时，确定什么会对模型造成声誉伤害或不信任。可能的情况包括品牌风格不符、非功能性结果、偏见或有害语言、毒性等。通常，在这一点上我们要寻找以下几个不同的事情：

输出是否与预期输出匹配？例如，如果你期望特定的格式或响应长度或结构？
结果是否事实正确？或在可能产生代码的应用程序中，输出是否真正可运行？
输出中是否包含任何有害偏见？语气是否安全并适合目标受众？
用户是否有权访问和了解输出中包含的所有信息？

这些防护栏对于防止低质量或潜在有害结果进入用户环境至关重要。与其提供错误的输出，不如默认为“无法回答”或一组预填充的响应，以引导进一步行动。

现实世界的例子：当客户向您的聊天机器人要求退款时，是否有规定每次交易中可以退款的最大金额？这是输出的一种防护栏实例。另一个例子是设置一个过滤器，以使所有输出都具有一定程度的积极情绪，以匹配您的品牌语音。

AI 中的防护栏可能并不新鲜，但现在是我们了解它们的时候了。作为 AI 开发者，您如何确保您的 ML 模型拥有正确的筛选器和规则，以避免意外后果？作为 AI 用户，您是否与您可以信任的供应商合作构建具有适当防护栏的模型？将这些假设记录下来并明确告知最终用户可以在用户和利益相关者之间树立起无价的信任。

关于作者：Cal Al-Dhubaib 是一位全球知名的数据科学家和可信人工智能战略家，也是 Pandata 的创始人兼首席执行官，Pandata 是一家位于克利夫兰的人工智能咨询、设计和开发公司。