我昨天去了一家餐馆,名叫“Anthera”。在吃了第四或第五块胡椒鸡之后,顺便说一下,真是美味,我开始对我们消化和品味食物的能力感到惊讶。我们用口腔品味、咀嚼、剁碎然后吞咽食物,随后我们的身体转化它,帮助我们消化食物,并通过肾脏过滤废物 – 这是一个如此明确的过程,每个部分都有重要的功能。这让我想到在宇宙中,一切都是经过设计而不是选择的;
就像我们的身体有一个明确的过程,数据项目需要一个清晰的流程 – 这就是数据血统的作用。设计和架构在数据项目中起着重要的作用。在一个实时数据流项目上工作,即使减少30秒的延迟也可以为公司创造数百万的利润。这一切都将通过正确的数据血统(DL)实现 – 通过从开始到结束理解和设计流程,让我们开始,了解更多关于数据血统的信息。
什么是数据血统?
数据血统是了解、记录和可视化数据从开始到结束流动的过程。从数据源到数据消费,它旨在展示完整的数据流。这包括数据在途中经历的所有转换以及数据的存储方式。数据血统有助于保持数据的质量、可靠性和一致性。
- 数据质量:数据血统有助于识别和纠正数据流中可能出现的不一致性、错误或不准确性,确保数据的质量。
- 可靠性:它减少了由数据转换引起的持续过程变化的风险和干扰,并帮助减少数据转换带来的连锁效应。
- 一致性:通过了解数据从表中的上游和下游的移动,数据血统提供了数据随时间在系统中的移动方式的清晰映射,增强了一致性。
此外,它还通过识别瓶颈、冗余或低效路径来帮助优化流程。数据血统共同在开发阶段帮助适当的决策制定。

数据血统技术和例子
虽然数据血统可以简单地通过适当的文档或可视化流程图来完成,但还有一些先进的技术可以在流程中实施:
- 基于模式的血统:根据数据转换或输入数据流中可识别的模式,可以使用这些模式执行数据血统。例如,识别参与人口相关操作的数据转换。
- 数据标记:将元数据标签应用于数据集、列或个别数据元素,以对其进行分类和跟踪,贯穿整个数据生命周期。例如,可以将客户数据标记为“PII”(个人可识别信息)或“敏感”以确保适当处理和合规性。
- 基于规则的血统:明确定义数据如何转换或使用的规则。例如,在整个系统中使用客户电话号码前,规范化客户电话号码的规则。
- 数据依赖图:将数据血统表示为图,其中节点表示数据实体,边表示它们之间的转换或关系。
如何开始进行数据血统?
《一般数据保护条例》(GDPR)于2018年5月生效,建议组织关注数据血统。具有许多优势和许多技术可用于血统的起点,以下是开始数据血统的准备:
- 识别数据元素:与业务用户联系,全面理解整个流程,以识别业务功能的关键点。
- 追踪来源:追踪数据的起源或流程的起源,并对其进行清楚了解。
- 记录来源和链接:创建一个可视化流程,表示数据源和可以组合的链接元素。
- 创建一个地图:为每个系统构建地图,并创建整体流程的主要地图。
今天,市场上有综合的数据质量解决方案,其中包括数据血缘。这些工具可以轻松地对数据进行排序和组织,节省时间和金钱,带来明显的利润。
数据血缘 vs. 数据溯源 vs. 数据治理
数据血缘是记录数据如何从源头到终点转化和迁移的过程,而数据溯源是数据元素的起源、访问、所有权、修改和历史的文档记录。这个过程有助于证明数据的完整性和准确性。数据治理则涵盖了管理数据质量、隐私和合规性的完整政策和流程。
数据血缘和溯源确保您始终知道数据的来源以及它是如何迁移和转化到目标位置的。与此同时,数据治理确保数据的收集和存储标准化,并遵循预定义的一系列流程和最佳实践。
最后的话:随着组织中员工的变动、裁员和重组的发生,数据血缘可以像监督员一样解释项目的故事。此外,当数据血缘、溯源和治理以正确的方式一起使用时,它对确保数据的可靠性和一致性非常有帮助…
如果您的工作尚未实施,请务必实施这些措施…
快乐学习… Muttineni Sai Rohith 签出..