对于数据科学家来说,真实数据是圣杯。如果我们将人工智能视为通过示例教授的软件,而不是指示,那么选择正确的示例对于构建性能良好的系统至关重要。
这是反映正确结果的已验证示例的数据记录。真实数据的假设如下:
- 给定示例只有一条记录。
- 我们有一个定义或标准,普遍适用。例如,当图像被标记为猫时,我们对如何处理边界情况如“老虎”或卡通猫画清楚的指导。
- 我们有一种形式的保证它的准确性。例如,没有拼写错误、测量误差,且生成的方法是可靠的。
真实数据在使用电子表格(表格)数据确定起来已经很复杂了,但随着您的数据和目标变得更加主观,它变得更加具有挑战性。
随着我们设计更复杂的人工智能模型,“正确性”变得更加主观。例如,如果我让您用三个句子概括这篇文章,可能会得到很多不同但都正确的回答,可能还有一些错误的回答。正因如此,我们在建立利益相关者和模型之间建立信任方面也面临着更大的困难。继续阅读,我将具体探讨真实数据的挑战以及利益相关者需要了解的内容,以成为与数据科学团队有效合作的合作伙伴。
复杂性和真实数据的挑战
对于数据科学家来说,真实数据是衡量模型性能的基准。
对于相对简单的目标,例如预测患者是否在30天内再次住院,我们可以观察实际发生的情况,即30天后的情况。然而,随着目标变得更加复杂,例如在一组项目中进行推荐或总结临床笔记,定义真实数据就变得非常主观,因为可能观察到很多同样正确的答案。
下图描述了数据复杂性、目标复杂性和真实数据之间的关系。一个轴上是数据类型,包括电子表格、文档、照片、音频和视频,另一个轴上是常见的人工智能目标,包括测量、预测、推荐和创造。随着数据变得更加复杂,查询变得更加困难。
注意:我的橙色线是个比喻,它在数学上不正确,但希望你明白我的意思。
当模型超越橙色弧线时,风险增加,确定真实数据变得更加复杂。当数据规模扩大(数据集的大小和进行的预测数量)时,这种情况进一步加剧。
我们正在看到许多生成型人工智能属于这个范畴。例如,在一个例子中,一个亚裔美国的麻省理工学院学生请AI将她的证件照变得更专业。它生成了一张几乎与她原始自拍相同的图片,但皮肤更白,眼睛更蓝——使她看起来像白人。
当决定专业和非专业外观时,该模型的基准是什么?它是正确的吗?它代表我们生活的世界吗?它代表我们想要生活的世界吗?
这些都是我们面临的问题,在确定我们设计的机器学习模型中的真实数据时,特别是在面对更加主观的真实数据时,很难检测到意外的输出,从而导致对模型的信任度降低。
>> 相关资源:如何在AI构建者和AI用户之间建立信任
当数据和目标变得更加复杂时应该做些什么
了解数据和目标复杂性的级别以及两者对真实情况的影响是很有帮助的,但是当我们发现自己的模型位于上图右上象限时,我们该怎么办呢?
以下是数据科学家和业务领导者可以采用的一些策略,以确定可靠的真实情况,并在更复杂的机器学习模型中建立信任。
培养人工智能素养
如果我们希望利益相关者更直观地理解为什么他们需要参与示例选择,他们需要知道真实情况是什么样的。人工智能素养是建立这种直觉的工具。
人工智能素养指的是个人对人工智能概念、技术及其影响的了解和熟悉程度。这是理解和信任机器学习模型的关键组成部分,然而研究表明,不到25%的员工具备数据素养。
通过组织内的教育研讨会(比如Cassie Kozyrkov的与机器学习交朋友系列和她新推出的课程决策智能)或具有深度见解的文章,培养组织中的数据和人工智能素养将显著提高人工智能采用率和员工对基于人工智能的项目的信任。
采用包括压力测试的风险管理过程
随着模型的复杂性不断提高,采用包括压力测试的风险管理过程有助于我们发现模型可能会出现的意外破解方式。
就像航空航天工程师在极端情况下测试飞机机翼一样,AI构建者必须花时间设计合适的压力测试或情景,以了解AI模型可能出现故障的地方,然后清楚地向利益相关者传达这些潜在风险。
NIST的AI风险管理框架就是一个很好的组织风险评估的例子。框架中包括对目标和基础数据复杂性的评分,以便团队可以主动了解在确定真实情况时他们必须付出的努力。
建立可观察性实践
当我们处理简单的决策和简单的数据时,我们可以很快地验证模型的表现。例如,如果我们构建一个预测网络客户是否会在会话结束时点击“购买”按钮的模型,我们在几分钟内就可以得到答案。他们要么点击了,要么没有点击,我们几乎可以立即验证发生了什么。
然而,随着预测的复杂性增加,即使是稍微验证答案也变得更加困难。例如,如果我们想预测患者是否会被再次收治*,我们必须等待30天,才能得到他们是否实际被再次收治的已验证答案,这意味着我们还必须等待30天才能选择我们用于建模的再次收治患者的示例。
现在,如果患者在这30天的时间窗口内搬到了我们无法观测到的地方呢?60天或几个月的时间段还会有什么其他后果?
一旦您在生产中运行并产生预测的模型,可观测性实践对比模型的预测与实际结果至关重要有两个原因。
- 继续构建一个更多良好记录示例数据集的数据集(你好,真实情况,我们来找你)。
- 衡量模型实际表现得有多好。
*患者再次收治是指患者在住院访问后30天内再次被医院接收的可能性。
沉迷于设计更复杂的机器学习模型很容易,但是当涉及建立利益相关者和人工智能之间的信任时,有时简单的解决方案才是更好的选择。如果问题确实需要更复杂的模型,要准备好投入时间和资源来仔细定义您的真实情况。
关于作者: Cal Al-Dhubaib是一位全球知名的数据科学家和可信人工智能战略家,同时也是位于克利夫兰的人工智能咨询、设计和开发公司Pandata的创始人兼首席执行官。