Press "Enter" to skip to content

处理转化度量?考虑使用贝塔二项式模型

Karim MANJRA在Unsplash上的照片

学习一种特征工程技术,使得CTR/CVR等基于转化的指标更具代表性和稳定性

转化指标在行业中非常丰富。通常情况下,我们希望将它们作为机器学习模型中的一个特征。比如,搜索页面上展示的产品的展示量与点击到产品详情的点击率(CTR)可能与该产品在电子商务平台上是否会被购买相关。

在本文中,我们将学习一种用于处理这类转化指标的特征工程技术。为了实现这一目标,本文的剩余部分将按照以下结构进行。

  1. 解释为什么我们需要谨慎处理转化特征(即不应该直接使用原始特征)。
  2. 解决方案:Beta-Binomial模型将原始转化值转化为更稳定/具代表性的版本
  3. Beta-Binomial模型的理论基础
  4. 调整模型的Beta先验分布参数的指南
  5. 用Python代码进行Beta-Binomial转换(提示:非常简单!)

让我们开始吧!

使用原始转化值的缺点

假设我们正在构建一个分类模型,用于预测在电子商务平台上是否会购买某个产品。作为数据预处理的一部分,我们提取了与每个产品相关的两列数据:展示量和点击量。由于我们是有着强大领域知识的出色数据科学家,我们派生出一个名为“展示到点击转化”的新特征。

这种特征工程背后的原理是,我们认为更高的展示到点击转化率表示产品质量更好。逻辑是,如果与产品展示次数(展示量)相比,产品接收到的点击量占比更高,这意味着用户发现该产品有吸引力,从而更有可能购买。

Leave a Reply

Your email address will not be published. Required fields are marked *