Press "Enter" to skip to content

数据管理中的ETL演进:跳过转换如何提升数据管理

数据管理中的ETL演进:跳过转换如何提升数据管理 四海 第1张

很少有数据概念比ETL(抽取-转换-加载)更具争议性,这是主导企业运营数十年的准备技术。ETL在20世纪70年代开发,大规模数据仓库和存储库的时代,它表现出色。企业数据团队将数据集中,通过在其上层建筑报告系统和数据科学模型,并为商业智能(BI)工具提供自助访问。然而,在云服务、数据模型和数字流程时代,ETL已经显示出其年龄。

在谷歌上搜索“ETL仍然相关/需求/过时/已死?”会得到各种结果。其原因是企业数据团队为在员工角色和业务职能间广泛使用而准备数据的负担越来越重。ETL很难扩展以处理存储在云中的大量历史数据。它也无法提供快速高效的实时数据供高管决策。此外,构建定制的API以提供应用程序的数据会带来重要的管理复杂性。现代企业通常在转换数据并为用户提供自助访问BI工具的过程中部署500至1,000个管道。然而,当这些API获取的数据发生变化时,它们必须不断重新编程。对于许多现代的边缘应用案例来说,这个过程显然太脆弱了。

此外,应用程序的能力已经发展。源系统提供业务逻辑和数据质量工具,而消费应用程序则实现数据转换和提供强大的语义层。因此,团队不再被激励去构建用于大规模数据传输、转换和加载到数据仓库的点对点接口。

两种创新技术为实现数据民主化并最小化转换负担指明了方向。零ETL使数据在不移动的情况下可用,而反向ETL则在数据可用时向需要它的应用程序推送数据,而不是拉取数据。

零ETL减少数据移动和转换要求

零ETL优化小型数据集的移动。通过数据复制,数据以其当前状态移动到云中,供数据查询或实验使用。

但是,如果团队根本不想移动数据呢?

数据虚拟化将服务器与终端用户分离。当用户从单一源查询数据时,输出将被推送回给他们。而且通过查询联邦,用户可以查询多个数据源。该工具将结果合并并向用户呈现集成的数据结果。

这些技术被称为零ETL,因为无需构建管道或转换数据。用户可以根据需要处理数据质量和聚合需求。

零ETL非常适合对近期数据进行特定的实时分析,因为在历史数据上执行大查询可能会影响操作性能并增加数据存储成本。例如,许多零售和消费品公司高管会在节假日等需求高峰期使用零ETL查询每日交易数据,以便专注于营销和销售策略。

Google Cortex提供加速器,可在SAP企业资源规划系统数据上实现零ETL。其他公司,例如全球最大的零售商和全球食品饮料公司,也采用了零ETL过程。

零ETL的优点包括:

  • 快速访问:使用零ETL过程为自助查询提供数据,与传统ETL过程相比节省了40-50%的时间,因为无需构建管道。
  • 减少数据存储需求:使用数据虚拟化或查询联邦时,数据不会移动。用户只存储查询结果,减少了存储要求。
  • 节约成本:使用零ETL过程的团队与传统ETL相比,可以节省30-40%的数据准备和存储成本。
  • 提高数据性能:由于用户只查询他们想要的数据,结果的交付速度更快25%。

要开始使用零ETL,团队应评估哪些用例最适合此技术,并确定执行所需的数据元素。他们还应配置零ETL工具以指向所需的数据源。然后,团队提取数据,创建数据资产,并向下游用户公开它们。

 

使用逆向ETL为应用程序提供按需数据

 

逆向ETL技术简化了向下游应用程序的数据流。团队不再使用REST API或端点和编写脚本来提取数据,而是利用逆向ETL工具按时全量推送数据到业务流程中。

使用逆向ETL提供以下好处:

  • 减少时间和精力:使用逆向ETL减少重要用例的数据访问时间和精力,减少20-25%。领先的邮轮公司利用逆向ETL进行数字营销倡议。
  • 提高数据可用性:团队更加有把握能够按时获取所需数据,因为目标数据90-95%按时交付。
  • 降低成本:逆向ETL过程减少了对API的需求,API需要专业的编程技能,增加了管理复杂性。因此,团队通过逆向ETL减少了20-25%的数据成本。

要开始使用逆向ETL,数据团队应该评估需要按需数据的用例。接下来,他们确定要交付的数据频率和量,并选择适当的工具处理这些数据量。然后,他们将数据仓库中的数据资产指向其目标消费系统。团队应该通过一次数据加载进行原型测试以衡量效率并扩展流程。

 

要成功处理数据,使用多种准备技术

 

零ETL和逆向ETL工具为团队提供了向用户和应用程序提供数据的新选择。他们可以分析用例要求、数据量、交付时间和成本驱动因素等因素,选择最佳选项来交付数据,无论是传统ETL、零ETL还是逆向ETL。

合作伙伴通过提供有关最佳技术和工具以满足功能和非功能要求的洞察力,提供加权评分卡,进行赢得工具的实证验证(POV),然后为更多用例操作化该工具来支持这些努力。

通过零ETL和逆向ETL,数据团队实现了他们通过提供所需数据的方式、地点和时间来赋予用户和应用程序权力的目标,从而实现成本和性能的提升,同时避免了转换方面的问题。

[Arnab Sen](https://www.linkedin.com/in/arnab-sen-60b92624/)是一位在科技和决策科学行业拥有超过16年职业经验的资深专业人员。他目前担任知名数据分析公司Tredence的副总裁-数据工程,帮助组织设计AI-ML/云/大数据战略。凭借对数据变现的专业知识,Arnab 揭示了数据潜力在不同行业的B2B和B2C客户驱动业务转型。Arnab 对团队建设的热情和能力有助于他成功管理电信、零售和BFSI等各个垂直领域的数百万美元投资组合。他先前曾在Mu Sigma和IGate担任职位,通过开发创新解决方案在解决客户问题方面发挥了关键作用。Arnab 异于常人的领导才能和深厚的领域知识使他获得了入选 Forbes 技术理事会的机会。

Leave a Reply

Your email address will not be published. Required fields are marked *