Press "Enter" to skip to content

数据工程中的流媒体’ (Shùjù gōngchéng zhōng de liúméitǐ)

流媒体数据管道与实时分析

DESIGNECOLOGIST在Unsplash的照片

流媒体是最受欢迎的数据管道设计模式之一。使用事件作为单个数据点可以实现数据的持续流动,从而为实时数据摄取和分析提供机会。如果您想熟悉数据流媒体并学习如何构建实时数据管道,本文适合您。了解如何测试解决方案,并模拟事件流来模拟测试数据。本文是一个难得的机会,可以通过使用流行的流媒体工具和框架(如Kinesis、Kafka和Spark)获得一些炙手可热的数据工程技能。我想谈谈数据流媒体的好处、示例和用例。

数据流媒体到底是什么?

流媒体数据,也称为事件流处理,是一种数据管道设计模式,其中数据点从源头不断地流向目的地。它可以实时处理,从而实现对数据流和分析事件的快速响应能力。应用程序可以对新数据事件立即触发响应,得益于流处理,并且通常是处理企业级数据的最流行解决方案之一。

只要在A点和B点之间进行数据处理,就存在数据管道 [1]。

流媒体数据管道示例。图片由作者提供

在这个示例中,我们可以创建一个将ELT流媒体数据管道连接到AWS Redshift的流媒体数据管道。AWS Firehose交付流可以提供这种无缝集成,它可以直接将数据提供到数据仓库表中。然后,数据将被转换以创建具有AWS Quicksight作为BI工具的报告。

让我们想象一下,我们需要创建一个报告仪表板来显示公司的收入流。在许多情况下,业务需求是实时生成洞察力。这正是我们想使用流媒体的情况。

数据流可以由各种数据源生成,例如物联网、服务器数据流、市场中的应用内事件、用户活动、支付交易等。

Leave a Reply

Your email address will not be published. Required fields are marked *