数据工程
Java巨人:数据工程掌握的关键
数据工程和编程技巧
当我们谈论数据工程时,通常会想到的第一种编程技巧是SQL,也许还有Python。 SQL是一个众所周知的用于查询数据的语言,在数据和数据管道的世界中深入扎根。 另一方面,Python在数据科学领域已经变得非常强大,现在开始在不断发展的数据工程领域留下了自己的印记。 但是,这个共识确实正确吗? SQL和Python真的是数据工程师最重要的编程技能吗? 在本文中,我将分享我在这个问题上的经验,旨在帮助年轻专业人士找出最佳技能,以充分利用他们的时间和精力。
为什么选择Java和Scala?
在今天的数据工程中,我们处理着海量的数据。 主要任务是弄清楚如何每天、每小时甚至实时地收集、改变和存储这些大量的数据。更棘手的是,确保不同的数据服务能够在各种系统上平稳运行,而不需要担心底层发生了什么。
在过去的15年中,聪明人们提出了分布式计算框架来处理这些数据超载。 Hadoop和Spark是这个领域的两个重要名称。由于这两个框架主要使用JVM(Java虚拟机)语言构建(Hadoop使用Java,Spark使用Scala),许多数据和软件专家认为Java和Scala是数据工程的未来。
此外,JVM应用程序的可移植性使它们成为处理跨各种系统和环境的数据应用的理想选择。您可以开发无缝运行在各种云和本地设置上的数据管道,使您能够在不考虑底层基础架构的情况下扩展您的系统。
基于JVM的应用中的数据管道是什么样的?
现在,我们已经探讨了Java和Scala,或者更广义上说,基于JVM的数据应用在处理大数据方面的优势,下一个合乎逻辑的问题是:什么是…