Press "Enter" to skip to content

Airbnb研究人员开发了Chronon:一个用于开发机器学习模型的生产级特征的框架

Airbnb研究人员开发了Chronon:一个用于开发机器学习模型的生产级特征的框架 四海 第1张Airbnb研究人员开发了Chronon:一个用于开发机器学习模型的生产级特征的框架 四海 第2张

在机器学习不断发展的领域中,特征管理已成为Airbnb的ML工程师面临的一个关键问题。尽管他们努力为各种产品创建创新模型,但他们经常发现自己花费大量时间处理基础设施复杂性,而不是专注于模型本身。Airbnb意识到需要一个能够简化特征数据管理、提供实时更新并确保训练和生产环境一致性的解决方案。

这就是Chronon,由Airbnb团队设计的强大API,旨在直面这些挑战。Chronon赋予ML从业者定义特征和集中数据计算以进行模型训练和生产推断的能力,从而确保整个过程的准确性和一致性。

从多样化的数据源摄取数据

Chronon可以从各种数据源摄取数据,包括事件流、数据仓库中的事实/维度表、表快照、变更数据流等。无论是实时事件数据还是历史快照,Chronon都可以无缝处理。

灵活转换数据

借助Chronon的类SQL转换和基于时间的聚合功能,ML从业者可以自由地处理数据。无论是标准聚合还是复杂的窗口技术,Chronon的Python API赋予用户执行复杂计算的能力,同时确保完全灵活性和可组合性。

在线和离线结果生成

Chronon同时满足在线和离线数据生成需求。Chronon为提供特征数据的低延迟端点或用于训练数据的Hive表提供支持。通过“准确性”参数,用户可以决定更新频率,使其适用于从实时更新到每日刷新的各种用例。

理解准确性和数据源

Chronon对准确性的独特方法使用户能够表达派生数据的所需更新频率。无论是近实时还是每日间隔,Chronon的“时间”或“快照”准确性模型都确保计算与每个用例的特定要求相一致。

数据源是Chronon生态系统中的重要组成部分。它支持三种主要的数据摄取模式:

  • 事件数据源用于时间戳活动
  • 实体数据源用于与业务实体相关的属性元数据
  • 累积事件源用于跟踪缓慢变化维度的历史更改

计算上下文和类型

Chronon在两个不同的上下文中运行:在线和离线。在线计算为具有低延迟的应用程序提供服务,而离线计算使用批处理作业在数据仓库数据集上执行。所有Chronon定义都分为三类:GroupBy用于聚合、Join用于组合来自各种GroupBy计算的数据,以及StagingQuery用于自定义Spark SQL计算。

理解聚合以获取强大的洞察力

Chronon的GroupBy聚合提供了对传统SQL group-by功能的各种扩展。用户可以利用窗口进行基于时间的聚合、进行分桶以获得更精细的粒度,并使用自动解包处理数组中的嵌套数据。此外,基于时间的聚合提供了更大的灵活性,可为ML模型创建有深度的特征。

Airbnb的ML从业者的无缝集成

Chronon已经成为Airbnb机器学习工具中不可或缺的一部分。通过简化特征工程,Chronon使用户能够轻松生成数千个特征以供ML模型使用。这一革命性的解决方案使ML工程师摆脱了手动管道实现的负担,使他们能够专注于构建创新模型,以满足不断变化的用户行为和产品需求。

总之,Chronon已成为Airbnb机器学习工具中不可或缺的工具。提供全面的特征管理解决方案提高了特征工程的生产力和可扩展性,使ML从业者能够提供尖端的模型,为数百万用户提供更好的Airbnb体验。

Leave a Reply

Your email address will not be published. Required fields are marked *