Press "Enter" to skip to content

被数据淹没了吗?数据湖可能是你的救命稻草

被数据淹没了吗?数据湖可能是你的救命稻草 四海 第1张

在当今数字化世界中,数据是王者。能够捕捉、存储、格式化和分析数据,并将通过分析获得的商业智能应用于其产品或服务的组织,可以享受到重大的竞争优势。

但是,企业必须管理的数据量正以惊人的速度增长。研究分析公司Statista预测,到2025年,全球数据的创建量将达到180泽字节。这种增长使得许多企业很难利用大数据;他们最终会花费宝贵的时间和资源来管理数据,而不是分析数据。麦肯锡(McKinsey)在2019年针对全球数据转型的调查显示,企业IT团队花费的总时间中有30%是花在与数据质量和可用性有关的无价值任务上。数据管理问题还可能导致数据孤岛;这是指不相互通信的数据库集合,导致基于不完整或不正确数据集的错误分析。

解决这个问题的一种方法是实施数据湖(data lake):它是一个大而复杂的数据库,其中包含各种原始格式的数据集。数据湖可以对这些数据进行精炼、丰富、索引和分析。所有这些操作都在数据湖环境中进行,以产生一致的结果,并消除数据孤岛的可能性。

SoureForge最近与HPCC Systems的副总裁Arjuna Chala进行了交流,他负责推广HPCC Systems的数据湖平台。Arjuna在医疗保健、金融科技、加密货币和智能设备行业帮助客户使用数据分析进行创新的历史悠久,他还在帮助HPCC Systems在巴西、中国、印度、美国和欧洲各国获得企业采用方面发挥了重要作用。在我们的讨论中,我们涵盖了HPCC Systems数据湖平台的起源以及它与当前其他大数据解决方案的区别。

被数据淹没了吗?数据湖可能是你的救命稻草 四海 第2张

Arjuna Chala,HPCC Systems副总裁

对于那些不熟悉HPCC Systems数据湖平台的人来说,你能描述一下你的组织以及HPCC Systems背后的发展历程吗?

当然。成为HPCC Systems的技术最初在1999年诞生于一家名为Seisint的公司。他们有意创建一个能够管理大量数据集的数据平台。Seisint的工作导致了Enterprise Control Language(ECL)的开发,这是HPCC Systems至今使用的一种编程语言。2004年,LexisNexis Risk Solutions收购了Seisint,并开始在内部使用HPCC Systems。随后进行了其他收购,并将通过这些收购获得的相关数据管理和分析技术整合到了HPCC Systems堆栈中。这导致LexisNexis以开源许可证发布了HPCC Systems,使这个强大的平台可供全球客户和开发者社区使用。我们最初在学术界取得了HPCC Systems的成功,但现在我们看到HPCC Systems被各种市场的企业采用。

HPCC Systems和其他大数据工具之间有哪些重大区别?例如,HPCC Systems与Spark相比如何?

Spark确实是一种受欢迎的大数据工具。Spark和HPCC是使用不同设计方法开发的。Spark被构建为大型大数据解决方案的一部分,它本身不能作为一个完整的数据湖平台。使用Spark进行数据湖实施的企业需要获取和集成其他软件,以支持用户管理、数据存储和传递、执行控制和管理。HPCC Systems从一开始就专注于为用户提供数据传递和分析;它还支持数据摄取、处理、格式化、分析和报告。此外,我们还为HPCC Systems开发了数据加密和治理解决方案,以帮助保护数据,确保只有合适的人员可以访问,并创建审计跟踪以确保符合数据安全服务级别协议和法规。它真正是一个全能的数据湖解决方案。

HPCC Systems和Spark在处理大数据流程的不同部分上也有所不同。Spark更专注于数据科学、数据摄取和ETL,而HPCC Systems专注于ETL、数据传递和治理。

话虽如此,值得一提的是,使用HPCC Systems或像Spark这样的其他大数据工具并不是一个非此即彼的选择。Spark数据集群可以在HPCC Systems的数据湖中运行,在某些情况下,混合环境将是客户的最佳实施方式,特别是如果他们已经有了需要继续运行的Spark集群。

你如何描述HPCC Systems作为一个完整的数据湖平台?能够更详细一些吗?HPCC Systems平台究竟包含哪些组件?

HPCC Systems由三个主要组件组成:ECL编程语言,一个名为Thor的批量数据处理集群,用于清洗、标准化和索引数据,以及一个名为Roxie的实时API/查询集群,用于处理数据查询。

告诉我更多关于ECL。它不像Java、Python或SQL那样广为人知的编程语言。

最大的区别在于,ECL专门设计成面向数据的终端编程语言。这意味着高级数据原语,如JOIN、TRANSFORM、PROJECT、SORT、DISTRIBUTE、MAP和NORMALIZE都是一流函数,因此常见的数据操作可以用一行代码来编写。ECL还是一种声明式编程语言,而不是像Java那样的命令式语言。实质上,ECL允许开发人员告诉数据湖它想要什么,但不需要开发人员告诉平台如何实现请求。这使得编码体验更高效;用ECL编写的搜索查询可能只需要不到一百行代码,而同样的查询用Java编写可能需要数千行。更好的是,由于ECL在整个HPCC Systems环境中使用,构建和维护HPCC Systems数据湖通常只需要较少的程序员,因为不需要具备不同语言专业知识的IT人员。

ECL听起来很有吸引力,但它是一种新的编程语言,使用者比Python或SQL等语言少。HPCC Systems在帮助解决使用ECL的学习曲线方面做了哪些工作?

虽然ECL确实有一个小但快速增长的用户社区(我们估计现在有2000名ECL开发人员),但我不会把这种语言描述为新的。它是一种经过实践验证的编程语言,自从HPCC Systems在上世纪九十年代末创建以来就一直在使用。

我们努力确保客户可以访问各种ECL培训选项。我们提供不同形式的培训,从在线教程到多天的亲自实践工作坊。大多数在线培训都可以按需使用,而且大多数课程对开源和学术界是免费的。由于HPCC Systems是根据开源许可证发布的,全球的ECL用户和HPCC Systems管理员社区可以扩展以满足超出专有解决方案能力范围的培训和支持请求。

那么Thor和Roxie集群呢?它们对整个HPCC Systems平台的价值是什么?

被数据淹没了吗?数据湖可能是你的救命稻草 四海 第3张

作为HPCC Systems解决方案中的数据库服务器,Thor集群的任务是以大规模导入和处理数据。为了实现这一目标,Thor支持并行处理和数据分区。让我举一个现实世界的例子来说明这些特性对HPCC Systems性能的影响。假设你有一个新的数据集,其中列出了客户的姓名和地址,你的数据湖中还有一个现有的数据集,其中包含他们与你最近一次购买的日期和金额。你可以将新的数据集导入Thor,编写代码来解析姓名和地址,然后将其与包含购买历史的数据集链接起来,创建一个包含两个数据集(姓名和地址以及购买历史)的文件。即使这些数据集包含数十亿条数据,Thor的并行处理和数据分区也能在几分钟内提供合并后的文件。其他大数据解决方案可能需要几个小时才能产生相同的结果。

被数据淹没了吗?数据湖可能是你的救命稻草 四海 第4张 Roxie服务器集群被优化为实时处理数据查询。虽然Thor在处理大量数据转换请求方面表现出色,但它并不设计用于实时提供结果。由于用户不希望花几个小时等待查询结果,Roxie的工作流程使用了服务器/代理设计,以在几秒钟内响应用户的数据查询。当Roxie接收到查询时,首先确定哪个Thor集群或多个集群最适合满足请求。然后Roxie发送请求数据的消息给所有涉及的集群。最后,Roxie整合数据并呈现结果。

Thor和Roxie都使用ECL进行编程,因此无论HPCC Systems管理员在数据流水线的哪个阶段工作,只需要学习一种语言。不使用像HPCC Systems这样全面的平台的数据湖可能需要支持多于两种编程语言,从而使数据湖的管理更加复杂。

我们已经介绍了HPCC Systems的组件和功能,但对于考虑使用该平台的IT团队来说,这一切意味着什么?HPCC Systems提供给用户什么实际的好处?

我认为HPCC Systems的价值不仅仅在于其功能和性能,更在于其简单性。它是一个完整的解决方案。IT团队无需对来自多个供应商的数据湖的不同部分进行评估和购买,然后将这些不同的解决方案集成到一个平台中。这种集成工作可能需要几周的时间才能启动一个活跃的数据湖,而使用基于HPCC Systems的数据湖则可以在几个小时内获得相同的结果。

ECL也增加了HCC用户体验的简洁性。在数据工作流程的任何阶段,管理人员只需要了解如何使用ECL进行编码,而且由于该语言是专门为数据管理和查询应用开发的,所以在代码长度和复杂性方面,它是一种更高效的语言。

由于HPCC Systems是开源的,用户可以获得全球开发社区的好处,该社区可以扩展以满足几乎任何需求。如果需要特定的应用程序或功能,用户可以自行开发。专有的数据湖解决方案可能会让用户面临更高的成本(例如支付席位许可或访问软件库)甚至更糟糕的是,如果不是解决方案的所有者愿意投入资源来开发或修复某个应用程序或解决技术问题,用户可能无法获得应用程序或解决问题的能力。

HPCC Systems对于平台的未来有什么计划?

我们正在开发基于云的HPCC Systems实现。基于云的数据中心非常受企业欢迎,因为它们允许企业对所使用的计算和存储资源进行更详细的控制。这有助于IT团队避免硬件超额配置和人员过剩的资本支出陷阱。尽管如此,数据在传输中自然更容易被黑客攻击或盗窃。因此,我们正在努力确保云中的HPCC Systems支持强化的安全性、端到端加密、认证、授权和其他重要的安全措施。我们的目标是在云中提供先进的安全功能,保护客户数据,同时提供与HPCC Systems的本地部署中所见到的出色的数据管理和分析性能。

读者应该去哪里了解更多关于HPCC Systems的信息?

请访问我们的网站www.hpccsytems.com。该网站包含关于HPCC Systems工作原理的各种文档以及一系列其他资源,包括维基、案例研究、白皮书和培训选项(在线、视频和面对面),以及我们的社区门户,感兴趣的各方可以与我们不断壮大的在线HPCC Systems用户和开发人员社区成员联系。

请保存日期!请于2023年10月2日至5日参加年度HPCC Systems开源社区技术峰会。

我们很高兴地宣布,第十届HPCC Systems社区峰会将再次以虚拟形式于今年十月举行!今年的活动对于所有HPCC Systems的用户以及RELX和更广泛的开源社区都是免费参加的。这个全球性的活动将提供全体会议和分组会议,涵盖各种主题,还将提供高质量的虚拟工作坊,以及来自在HPCC Systems相关项目上工作的学生的演示和技术海报。峰会的目的是聚集工程师、数据科学家和技术专业人员,分享对HPCC Systems平台的知识和未来规划。本次活动致力于展示我们的社区,并由行业和学术界介绍他们的HPCC Systems用例和研究项目,并分享他们在如何利用HPCC Systems平台方面的经验。https://hpccsystems.com/community/events/hpcc-systems-summit-2023/

Leave a Reply

Your email address will not be published. Required fields are marked *