Press "Enter" to skip to content

如何使用Mage简化数据流水线中的通信

让机器人为我们处理困难的沟通

Volodymyr Hryshchenko在Unsplash上的照片

您有没有遇到过这样的情况,您的下游数据管道由于Google Sheets中的小错误而被阻塞?有时,该表甚至不属于您的团队,因此您除了追踪表的所有者以修复问题之外无能为力。同时,许多其他关键管道也因此失败,您还需要处理它们。

您感到筋疲力尽。最糟糕的是,作为一名工程师,您真的无能为力。这全部都是无休止的沟通和利益相关者管理。Google Sheets问题只是可能发生在各种规模上的源问题的一个例子。在我们深入阅读本文之前,花点时间停下来,思考一个与您产生共鸣的问题。

改善这种情况的关键是在数据管道中自动化沟通生命周期。如果您的管道已经有了警报机制,那么这已经是一个很好的开始。然而,警报主要针对的是数据工程团队而不是外部团队。

根据我的经验,与源团队或最终用户建立积极的沟通同样重要,以确保他们对正在发生的情况有充分的了解,并可以相应地采取行动。在本文中,我将使用Mage进行实现,这是一种现代的Airflow替代方案,以其在解决此类问题时的有效功能而闻名。

自动化沟通

工程师的任务之一是自动化事物。这为我们节省了未来的时间,也很有趣。当数据出现问题时,没有人喜欢不断追踪采购团队来修复问题,或者单独向最终用户解释发生了什么。我们宁愿让机器人来完成这项工作。我们可以实施两个级别的自动化:

立即向数据源团队提供反馈 — 通过机器人可以建立一个自动化且一致的沟通方式,而不是手动通知源团队数据问题。每当数据测试失败时,将触发类似回调的函数,通过电子邮件或Slack通知源团队,并提供详细的原因…

Leave a Reply

Your email address will not be published. Required fields are marked *