Press "Enter" to skip to content

使用 Redshift 无服务器和 Kinesis 构建流式数据管道

入门级端到端教程

艾·塞巴斯蒂安·彭德拉切(Sebastian Pandelache)的照片来自 Unsplash

本文将讨论最流行的数据流设计模式之一 – 事件流。除其他好处外,它可以实现高速数据分析,并且我们可以创建实时更新结果的报告仪表板。我将演示如何通过使用基础设施即代码构建具有AWS Kinesis和Redshift的流数据管道来实现它。我们将使用AWS CloudFormation来描述我们的数据平台架构并简化部署。

假设您作为数据工程师的任务是创建一个数据管道,将服务器事件流连接到数据仓库解决方案(Redshift),以转换数据并创建分析仪表板。

管道基础设施。图片作者:作者

什么是数据管道?

它是一系列数据处理步骤。由于这些阶段之间的逻辑数据流连接,每个阶段生成一个用作后续阶段输入的输出。

我之前在这篇文章中写过:

数据管道设计模式

选择正确的架构及示例

towardsdatascience.com

例如,事件数据可以由后端的源创建,使用Kinesis Firehose或Kafka流构建事件流。然后,它可以为多个不同的消费者或目标提供数据。由于其流式数据处理能力,流式数据对于企业数据而言是“必备”解决方案。它实现了实时数据分析。

在我们的使用案例中,我们可以设置一个将数据流式传输到AWS Redshift的ELT流式数据管道。 AWS Firehose流可以提供这种无缝集成,其中流式数据将直接上传到数据仓库表中。然后,数据可以通过AWS Quicksight等BI工具进行转换,以创建报告。

Leave a Reply

Your email address will not be published. Required fields are marked *