Airbnb研究人员开发了Chronon：一个用于开发机器学习模型的生产级特征的框架

Airbnb研究人员开发了Chronon：一个用于开发机器学习模型的生产级特征的框架四海第1张

在机器学习不断发展的领域中，特征管理已成为Airbnb的ML工程师面临的一个关键问题。尽管他们努力为各种产品创建创新模型，但他们经常发现自己花费大量时间处理基础设施复杂性，而不是专注于模型本身。Airbnb意识到需要一个能够简化特征数据管理、提供实时更新并确保训练和生产环境一致性的解决方案。

这就是Chronon，由Airbnb团队设计的强大API，旨在直面这些挑战。Chronon赋予ML从业者定义特征和集中数据计算以进行模型训练和生产推断的能力，从而确保整个过程的准确性和一致性。

从多样化的数据源摄取数据

Chronon可以从各种数据源摄取数据，包括事件流、数据仓库中的事实/维度表、表快照、变更数据流等。无论是实时事件数据还是历史快照，Chronon都可以无缝处理。

灵活转换数据

借助Chronon的类SQL转换和基于时间的聚合功能，ML从业者可以自由地处理数据。无论是标准聚合还是复杂的窗口技术，Chronon的Python API赋予用户执行复杂计算的能力，同时确保完全灵活性和可组合性。

在线和离线结果生成

Chronon同时满足在线和离线数据生成需求。Chronon为提供特征数据的低延迟端点或用于训练数据的Hive表提供支持。通过“准确性”参数，用户可以决定更新频率，使其适用于从实时更新到每日刷新的各种用例。

理解准确性和数据源

Chronon对准确性的独特方法使用户能够表达派生数据的所需更新频率。无论是近实时还是每日间隔，Chronon的“时间”或“快照”准确性模型都确保计算与每个用例的特定要求相一致。

数据源是Chronon生态系统中的重要组成部分。它支持三种主要的数据摄取模式：

事件数据源用于时间戳活动
实体数据源用于与业务实体相关的属性元数据
累积事件源用于跟踪缓慢变化维度的历史更改

计算上下文和类型

Chronon在两个不同的上下文中运行：在线和离线。在线计算为具有低延迟的应用程序提供服务，而离线计算使用批处理作业在数据仓库数据集上执行。所有Chronon定义都分为三类：GroupBy用于聚合、Join用于组合来自各种GroupBy计算的数据，以及StagingQuery用于自定义Spark SQL计算。

理解聚合以获取强大的洞察力

Chronon的GroupBy聚合提供了对传统SQL group-by功能的各种扩展。用户可以利用窗口进行基于时间的聚合、进行分桶以获得更精细的粒度，并使用自动解包处理数组中的嵌套数据。此外，基于时间的聚合提供了更大的灵活性，可为ML模型创建有深度的特征。

Airbnb的ML从业者的无缝集成

Chronon已经成为Airbnb机器学习工具中不可或缺的一部分。通过简化特征工程，Chronon使用户能够轻松生成数千个特征以供ML模型使用。这一革命性的解决方案使ML工程师摆脱了手动管道实现的负担，使他们能够专注于构建创新模型，以满足不断变化的用户行为和产品需求。

总之，Chronon已成为Airbnb机器学习工具中不可或缺的工具。提供全面的特征管理解决方案提高了特征工程的生产力和可扩展性，使ML从业者能够提供尖端的模型，为数百万用户提供更好的Airbnb体验。