Press "Enter" to skip to content

数据文档化101:为什么?怎么做?为谁做?

数据管理

在组织内建立完整可靠的数据文档的最佳实践

Photo by Maksym Kaharlytskyi on Unsplash

我记得每次作为数据团队成员来到一个新公司时,我的主要关注点之一是:

我能找到完整可靠的数据文档吗?如果可以,它在哪里?

与其他公司的同行和非数据团队成员交流后,我实际上发现许多利益相关者依赖某种数据文档,并希望找到一个一个地方,所有公司的与数据相关的知识都可以获得

在这个梦幻般的愿景中,数据文档将是完整可靠的,可以让正确的人在正确的位置访问。想象一下这会是什么感觉!

作为我目前雇主的数据策略师,我的优先事项之一是使所有部门都可以访问数据。这意味着要与公司的数据团队进行沟通,让我的每个同事(以及可能的外部利益相关者)知道我们作为一个组织拥有哪些数据资产。

为此,我建立了一个集中的数据文档位置,但也适应了每个利益相关者类别的派生文档。为了让您了解它的外观,这是我为每个人提供的中央数据文档页面的前几行:

Central data documentation page (image by author)

您在以前或目前的公司遇到过类似的问题吗?您想开始或继续建立公司的数据文档吗?在本文中,我想与您分享我遵循的主要步骤,从创建数据文档的想法到具体实施。我希望您会发现这个内容有用且适用。

现在让我们深入探讨您应采取的必要步骤,以为自己和利益相关者创建完整可靠的数据文档

什么是数据文档?

它是有关公司数据资产的相关信息集。它包括各种元素,例如度量标准定义、数据源描述、数据模式、有关数据模型的说明、将访问权限映射到数据工具等。

没有创建数据文档的通用模板。最重要的是数据文档为您的组织服务。将其视为一份全面的手册,使利益相关者可以自信和清晰地浏览数据景观

为什么数据文档至关重要?

对于任何类型的文档,数据文档都为您的公司提供了过去事件的一种记忆。编写文档不仅告诉当前情况,还允许任何成员掌握数据管理的历史,无论他们在组织中待了多长时间。通过写下随着时间推移放置的定义、规则和流程的集合,您为任何对使用您组织的数据感兴趣的人提供了清晰的上下文

至于现在,建立和维护最新的数据文档可以将概念层面上的决策和技术层面上的实施确定下来。将所有这些元素聚集在一个中央文档位置肯定会将利益相关者聚集在一起:在他们就数据管理达成一致之后,写下来可以增加其可靠性的价值

那么,您应该从哪里开始?

正如我们之后会看到的,您的数据文档格式可能会根据目标受众而有所不同。首先不要关注您的文档将采取的形式,而是关注其意图。然后,您将从构建数据文档的意图推导出您的文档内容和形式

您可以从自己问以下问题开始:

  • 我的受众是谁?他们的技术背景是什么?
  • 他们对数据文档有什么期望?
  • 我希望我的受众了解哪些数据方面的内容?
  • 在深入细节之前,我的受众应该了解哪些基础知识?
  • 当深入了解更多细节时,我应该在多深的细节中停下来,以使我的受众了解而不会迷失方向?

你的目标受众是谁?

一般来说,我将数据文档的受众分为三类。

第一个受众是最接近您作为数据负责人的人:它是您的数据团队。在这个可能是异质的团队中,我们可以区分新手和初级聘用人员,以及您团队中的更高级成员。因此,您的文档应该包括基本概念和更高级的元素,如指标的详细计算方法。

第二个是业务用户。首先,您要服务于每天使用数据的用户。他们的需求可能与另一组业务用户的需求略有不同:他们偶尔会有与数据相关的问题,并且不会与您密切合作。您的文档应该使这两个类型的业务用户能够访问。

最后,其他利益相关者可能需要与您公司的数据资产相关的特定文档。在这个类别中,我包括管理委员会、其他部门的同事(您不一定会与之互动),以及外部利益相关者。他们对数据文档的需求可能较小,但需要简明准确。

不同类型受众的地图(作者提供的图像)

你的数据文档应该包含哪些内容(或不包含)?

您的数据文档的内容将根据您的目标受众而异。

共同的元素可供所有类型的受众使用,包括有关数据团队的一般知识,例如:

  • 数据团队的联系方式
  • 数据团队的概述以及它如何与组织的其他部分进行交互
  • 数据团队负责的数据资产

除了这些元素之外,业务用户需要与其职责范围相关的文档,以及数据如何支持他们的日常工作。这些元素包括:

  • 常用术语表
  • 具有度量标准定义和计算方法的数据字典(可能简化)
  • 数据源列表以及它们在您的数据中心中的使用方式
  • 可用的数据工具列表以及谁应该访问它们
  • 最常用的仪表板列表,其内容,其所有者
  • 如何使用数据工具的教程(如果相关)

最后,数据团队成员需要更加具体的文档,包括技术元素,如:

  • 关于数据架构和数据模型的模式
  • 具有度量标准定义和计算方法的数据字典
  • 在所有数据工具中使用的命名惯例
  • 您的数据工具样式指南
  • 您的仪表板设计系统(颜色,字体等)
  • 任何成员都应使用的模板(用于共享数据分析结果,用于向受众展示关键数字等)
  • 关于编程语言(SQL,Python,R等)的最佳实践

简而言之,最好只包括每种类型受众所需的相关元素,以便他们获得详尽的文档视野,而不会被不必要的文档元素所压倒。

基于目标受众的数据文档内容的概述(作者提供的图像)

如何以及在哪里提供数据文档?

关于表单,你应该适应目标受众使用的工具。他们是否将知识库集中在像 Notion 或 Confluence 这样的工具中?那么这就是你的数据文档应该放置的地方。他们是否更喜欢在 Google Drive 或 SharePoint 服务器上共享幻灯片?那么这就是你应该展示数据文档元素的地方。

除了将文档的形式和位置适应于受众的习惯之外,你还可以在你的数据工具中直接包含关于你的数据的一些信息(例如在你的数据仓库或数据转换工具中)。最近的数据目录和支持(元)数据管理的软件就可以帮助你实现这一点。

总之

要建立完整可靠的数据文档,请记住遵循以下步骤:

  1. 确保你知道为什么数据文档是必不可少的
  2. 问问自己,你的目标受众是谁 —— 可能有不同需求的几个受众
  3. 决定要包含哪些数据文档元素
  4. 选择正确的工具和正确的位置来创建和维护你的数据文档

然后你就准备好了!

你喜欢阅读这篇文章吗?成为会员,加入一个不断成长的好奇心社区吧!

嘿!想要支持 Marie 和更多的作家吗?+ 获取完整的小猪AI访问权限?每月5美元(或每年50美元)直接…

marielefevre.medium.com

Leave a Reply

Your email address will not be published. Required fields are marked *