生成式人工智能刚刚开始吸引数据工程师的想象力,因此迄今为止的影响只是从现在起一两年内的一小部分
其中最大的影响之一是更广泛地采用“快速工程”技术,即将人工智能技术应用于编码相关任务。我看到 Andrej Karpathy 在 Twitter 上开玩笑说,“最火热的新编程语言是英语。”
生成式人工智能也开启了一场淘金热,数十家非常早期的初创公司竞相开发一种能够查询数据仓库并以自然语言返回智能答案的人工智能。Monte Carlo CTO Shane Murray 评论说:“这将彻底简化自助分析过程,并进一步实现数据的民主化,但在更高级的分析领域,由于数据管道的复杂性,除了基本的度量获取外,这将是很难解决的问题。”
“当我为某个职位评估数据工程候选人时,我寻找的是他们在过去所取得的影响和成果,以及是否能够快速上手。” Murray 提到。这可能是在他们的主要职业中或通过为开源项目做出贡献来实现的。无论哪种情况,重要的不是你在哪里,而是你做出了什么样的影响?
如果你不喜欢变化,那么数据工程可能不适合你。Murray 表示:“在这个领域,几乎所有的东西都经历了重塑。”很明显,建立和维护数据管道的过程将变得更加容易,数据消费者访问和操作数据的能力也将得到提高。
然而,数据生命周期没有改变。Murray 指出:“它被发出,为使用而转换,然后被存档。”“虽然基础设施可能会发生变化,自动化将把时间和注意力从左到右或从右到左转移,但人类数据工程师将继续在从数据中提取价值方面发挥关键作用,无论是构建可扩展和可靠的数据系统还是作为所选择的数据领域内的专业工程师。”
数据平台团队提供机会
我发现数据平台团队现在在各种规模的数据团队中都很普遍,是数据工程师学习的好地方。
Murray 进一步解释道:“在这里,你可以专注于业务运营的核心数据领域,如客户数据或产品/行为数据。在这个角色中,你应该努力了解从源头到分析用例的整个问题,因为这将使你成为团队和业务的资产。”
“或者,你可以专注于数据平台的特定能力,如可靠性工程、商业智能、实验或特征工程。”Murray 指出。“这些类型的角色通常会给出每个业务用例更广泛但更浅显的理解,但从软件工程师职位转到数据职位可能会更容易。”
我越来越多地看到的另一条道路是数据工程师的数据产品经理角色,Murray 说。如果一个人正在发展数据工程技能,但发现更喜欢与最终用户交流,阐明要解决的问题,概括愿景和路线图,那么产品管理角色可能是未来的前景。
随着我们开始将“数据视为一种产品”,从关键仪表板和决策支持工具到对业务运营或客户体验至关重要的机器学习应用,数据团队正在投资于这种技能。Murray 确定:“优秀的数据产品经理将具有构建可靠和可扩展数据产品的理解,同时还将应用产品思维来推动愿景、路线图和采用情况。”
现代数据堆栈
现代数据堆栈正在迅速成为数据工程领域中占主导地位的技术堆栈,Murray 表示。该堆栈以云数据仓库或数据湖为中心,并配备了云数据获取、转换、编排、可视化和数据可观察性的云解决方案。
这是有优势的,因为它能在很短的时间内产生价值,在根本上比之前一代工具更加用户友好,可扩展到广泛的分析和机器学习用例,并能够扩展到今天管理的数据的大小和复杂性。
“确切的解决方案将取决于组织规模和特定的数据用例,但通常最常见的现代数据堆栈是 Snowflake、Fivetran、dbt、Airflow、Looker 和 Monte Carlo。还可能有 Atlan 和 Immuta 来解决数据目录和访问的问题,”Murray 解释道。“规模更大或具有更多的机器学习用例的组织通常会拥有更多地利用 Databricks 和 Spark 的数据堆栈。”
可能的颠覆
“由Snowflake和Databricks引领的现代数据堆栈时代甚至还没有达到巩固的点,我们已经看到了可能进一步打破现代数据管道现状的想法,”Murray反思道。“在不久的将来,流式数据、零ETL、数据共享和统一的度量层将更加普及。”零ETL和数据共享特别有趣,因为它们有潜力简化现代数据管道的复杂性,这些管道具有多个集成点和因此失败。
技术工作形势
技术行业的就业市场预计将在2023年经历重大变革,这是由于大数据分析的增长所驱动。根据Dice Media的分析,随着全球大数据分析市场预计以30.7%的惊人速度增长,到2030年将达到预计价值3462.4亿美元,这种增长预计将为该领域的熟练专业人员(如数据工程师,业务分析师和数据分析师)创造大量机会。
“我坚信,数据工程工作不仅仅是编写代码,而且将涉及更多与业务利益相关者的沟通和设计端到端系统,”经验丰富的数据工程师和开源爱好者Deexith Reddy评论道。 “因此,为了确保就业安全,必须专注于数据分析的广度和数据工程的深度。”
生成式人工智能很可能使数据工程领域更具竞争力。然而,在我们的电话中,Reddy还强调,为开源项目做出贡献将始终有利于构建强大的组合,考虑到技术进步和最近的AI突破。
Reddy进一步阐述了数据工程师在利用开源技术提高组织能力方面所扮演的关键角色。例如,数据工程师普遍采用Apache Spark、Apache Kafka和Elasticsearch等开源技术,数据科学家则采用Kubernetes进行数据科学实践。这些OSS技术有助于满足深度学习和机器学习工作负载以及MLOps工作流的计算要求。
公司通常会从这些开源项目中识别和招募顶级贡献者,营造重视和鼓励开源贡献的环境。这种方法有助于留住熟练的数据工程师,并使组织受益于他们的专业知识。 Saqib Jan 是一位作家和技术分析师,热衷于数据科学、自动化和云计算。