人工智能如何颠覆数据治理？

数据治理与人工智能的共生关系

生成式人工智能已经开始动摇数据治理的世界，而且它还将继续这样做。

ChatGPT发布才过去6个月，但感觉我们已经需要回顾了。在这篇文章中，我将探讨生成式人工智能如何影响数据治理，以及它在不久的将来可能带给我们的变化。让我强调一下不久的将来，因为事物发展迅速，可能会有很多不同的方式。本文不是关于预测未来100年的数据治理，而是对现在正在发生的变化和即将到来的变化的实际观察。

在深入研究之前，让我们先回顾一下数据治理涉及到的内容。

简单地说，数据治理是组织遵循的一套规则或流程，以确保数据的可信度。它涉及5个关键领域：

元数据和文档
搜索和发现
策略和标准
数据隐私和安全
数据质量

在本文中，我们将看看在将生成式人工智能纳入其中之后，这些领域将如何发展。

我们开始吧！

1. 元数据和文档

元数据和文档可能是数据治理中最重要的部分，其他部分都严重依赖于正确完成这一部分。人工智能已经开始并将继续改变我们创建数据上下文的方式。但我不想让你对此抱有太高的期望。在文档编写方面，我们仍然需要人类的参与。

生成数据的上下文，或者对数据进行文档化，有两个部分。第一个元素占了工作的大约70%，涉及常见于许多公司的一般信息的文档化。一个非常基本的例子是“电子邮件”的定义，这是所有公司共同的。第二部分是记录特定于您公司的专业知识。

这就是令人兴奋的部分：AI可以为前70%的工作提供很多帮助。因为第一个元素涉及一般知识，而生成式人工智能在处理这方面非常出色。

那么，对于特定于您公司的知识呢？每个组织都是独特的，这种独特性产生了您自己特定的公司语言。这种语言是您的指标、关键绩效指标和业务定义。而且它不是可以从外部导入的。它是由最了解业务的人员创造的。

在与数据领导者的交谈中，我经常讨论如何共同理解这些业务概念。许多领导者分享说，为了实现这种一致性，他们将领域团队集中在同一个会议室，进行讨论，并就最适合他们业务模型的定义达成一致。

举个例子，对于一个订阅型业务来说，一个“客户”可能是当前订阅其服务的人。但对于零售业务来说，一个“客户”可能是在过去12个月内有购买行为的人。每个公司对“客户”的定义都是最适合自己的，这种理解通常是从组织内部产生的。

当涉及到这种特殊知识时，智能如AI也还无法做到。它无法参加您的会议，参与讨论，或者帮助新概念的形成。对于Andreessen Horowitz来说，当第二波人工智能到来时，这可能会变得可能。目前，我们还处于第一波。

我还想回答Benn Stancil提出的一个问题。Benn问道：如果机器人可以根据我们的需求编写数据文档，那么写下来有什么意义呢？

这是有一定道理的：如果生成式人工智能可以按需生成内容，为什么不在需要时生成，而不必费心记录一切呢？不幸的是，它并不是这样工作的，原因有两点。

首先，正如我之前解释过的，一部分文档涵盖了人工智能尚不能捕捉到的公司独特方面。这需要人类的专业知识。它不能由人工智能即时生成。

其次，虽然人工智能很先进，但并非无敌的。它生成的数据并不总是准确的。您需要确保人类检查和确认所有由人工智能生成的内容。

2. 搜索和发现

生成式人工智能不仅改变了我们创建文档的方式，也改变了我们使用文档的方式。事实上，我们正在目睹搜索和发现方法的范式转变。传统方法中，分析员通过搜索数据目录来查找相关信息，这种方法正在迅速过时。

真正的游戏变革在于人工智能能够成为公司中每个人的个人数据助手。在某些数据目录中，您已经可以向人工智能提出特定的数据查询。您可以问诸如“是否可以使用数据执行操作X？”、“为什么无法使用数据实现目标Y？”或“我们是否拥有说明Z的数据？”等问题。如果您的数据具有正确的上下文，人工智能将帮助在整个公司范围内传播这种上下文。

我们预计的另一个发展是，人工智能将把数据目录从被动实体转变为主动助手。想象一下：如果您使用错误的公式，人工智能助手可以提醒您。同样，如果您即将编写一个已存在的查询，人工智能可以提醒您并引导您找到现有的工作。

过去，数据目录只是静静地等待您筛选出答案。但是有了人工智能，目录可以开始主动帮助您，在您意识到自己需要之前，提供见解和解决方案。这将完全改变我们与数据互动的方式，而且这可能很快就会发生。

然而，人工智能助手能够有效工作的一个条件是：您的数据目录必须得到维护。为了确保人工智能助手为利益相关者提供可靠的指导，底层文档必须是100%可信的。如果目录没有得到适当维护，或者政策没有明确定义，那么人工智能助手将向整个公司传播不正确的信息。这比根本没有信息更有害，因为它可能导致基于错误上下文的糟糕决策。

您可能已经理解了：人工智能和数据治理是相互依存的。人工智能可以增强数据治理，但反过来，强大的数据治理也是推动人工智能能力的必要条件。这导致了一个良性循环，其中每个组成部分都推动着其他组成部分。但是您需要记住的是，没有任何一个元素能够取代其他元素。

3. 数据政策和标准

数据治理的另一个关键组成部分是制定和实施治理规则。

这通常涉及定义组织内的数据所有权和领域。目前，人工智能在制定这些政策和标准方面还无能为力。人工智能在执行规则或标记违规方面表现出色，但在制定规则方面却不足。

这是一个简单的原因。确定所有权和领域涉及到人类政治。例如，所有权意味着决定组织内哪些人对特定数据集具有授权。这可能包括决定如何以及何时使用数据，谁可以访问数据以及如何维护和保护数据。做出这些决策通常涉及各方的协商，包括个人、团队或部门，每个人都有自己的利益和观点。而出于明显的原因，人类政治无法被人工智能取代。

因此，我们预计在不久的将来，人类将继续在治理的这个方面发挥重要作用。生成式人工智能可以在起草所有权框架或提供数据领域方面发挥作用。然而，让人类参与仍然是必须的。

4. 数据隐私和安全

然而，生成式人工智能（AI）将在治理的隐私部门中引起一场震动。管理隐私权是治理中一直被担心的方面。没有人喜欢它。它涉及手动创建复杂的权限架构，以确保敏感数据得到保护。

好消息是：AI可以自动化这个过程的很大部分。给定用户数量和各自的角色等参数，AI可以创建访问权限的规则。访问权限的架构方面基本上是基于代码的，与AI的能力很好地契合。AI系统可以处理这些参数，生成相关代码，并应用它以高效地管理数据访问。

AI还可以在个人可识别信息（PII）的管理中发挥重要作用。目前，PII标记通常是手动完成的，这对负责人来说是一种负担。这是AI可以完全自动化的事情。通过利用AI的模式识别能力，PII标记可以比由人类完成时更准确地进行。从这个意义上说，使用AI实际上可以改善我们管理隐私保护的方式。

这并不意味着AI将完全取代人类参与。尽管AI有能力，但我们仍然需要人类监督来处理意外情况，并在需要时作出判断。

5. 数据质量

我们不能忘记数据质量，这是治理的一个重要支柱。数据质量确保公司使用的信息准确、一致和可靠。维护数据质量一直是一项复杂的工作，但随着生成式AI的出现，情况已经在发生变化。

如上所述，AI在应用规则和标记违规方面表现出色。这使得算法可以轻松识别数据中的异常。您可以在本文中找到关于AI如何影响数据质量不同方面的详细说明。

AI还可以降低数据质量的技术门槛。这是SODA已经在实施的一项工作。他们的新工具SodaGPT提供了一种无代码的方法来表达数据质量检查，使用户可以仅使用自然语言进行质量检查。这使得数据质量维护变得更加直观和易于访问。

结论

我们已经看到，AI可以以一种触发范式转变的方式加速数据治理。许多变化已经在发生，它们是不可逆转的。

然而，AI只能在一个已经稳固的基础上构建。要使AI改变公司的搜索和发现体验，您必须已经在维护您的文档。AI是强大的，但它不能奇迹般地修复一个有缺陷的系统。

第二点要记住的是，即使AI可以用于生成数据周围的大部分上下文，它也不能完全取代人类因素。我们仍然需要人类来进行验证，并记录每个公司独特的知识。因此，我们对治理未来的一个预测是：由AI加速，以人类的洞察和认知为基础。

关于我们

在CastorDoc，我们正在构建一款适用于Notion、Figma和Slack一代的数据文档工具。

想要查看吗？联系我们，我们将向您展示演示。