Press "Enter" to skip to content

《数据工程图书》

爱好者逐渐学习数据工程

由Tamas Pap在Unsplash上的照片

在这篇文章中,我想谈谈关于数据工程书籍和资源,这对那些学习数据工程的人可能会感兴趣。我意识到市场上没有多少解释数据工程作为一个整体概念的书籍。其中一些书籍在如何使用特定工具和数据平台架构上非常出色,而其中一些则是我最喜欢的睡前读物:读起来令人惊人易于入睡但极其无聊。一些书籍非常适合策略决策,一些可能看起来有点过时但仍然有用。希望你会觉得有趣。

披露:本文可能包含会员链接,这意味着如果你决定通过我的链接购买,我将获得佣金,而你不需要额外支付费用。

1. Python 数据工程

使用 Python 处理海量数据集,设计数据模型并自动化数据流程Paul Crickard, 2020

这本书非常适合想要学习数据工程的人,它涵盖了所有基本的数据工程主题,例如数据建模,并提供了大量最常见数据转换的示例。如书中所述,它主要关注 Python 和数据建模,读者将学习使用 Python 工具提取、清洗和丰富数据集的 ETL 技术。它详细解释了 Apache Kafka 和 Apache Spark,同时也涵盖了与文件格式、数据转换和清洗工作的基本内容。该书还提供了一些关于数据流程部署以及与数据环境合作的很好观点。

这是我关于先进 ETL 技术的一个故事,可以作为该书的补充:

Python 数据工程

初学者的高级 ETL 技术

towardsdatascience.com

2. 数据工程基础

Joe Reis, Matt Housley 著,2022 年 6 月出版,出版商:O’Reilly Media, Inc.

Leave a Reply

Your email address will not be published. Required fields are marked *