Press "Enter" to skip to content

双机器学习简化:第1部分-基本因果推断应用

所有图片由作者提供

学习如何在因果推断任务中利用DML

本文是简化和民主化双机器学习的系列文章中的第一篇。在第一部分中,我们将介绍双机器学习的基本原理以及两个基本的因果推断应用。接下来,在第二部分中,我们将扩展这些知识,将我们的因果推断问题转化为预测任务,通过预测个体水平的治疗效果来辅助决策和数据驱动的定位。

多年来,统计/机器学习(ML)和因果推断/计量经济学(CI)任务之间的概念和实践区别已经建立起来-ML旨在预测,而CI旨在推断处理效应或变量之间的“因果”关系。然而,数据科学家常常从训练好的机器学习模型的参数或其他可解释的ML方法中得出因果结论,这在一定程度上仍然很常见。尽管如此,工业界和许多学术学科在推动更严谨地进行因果推断方面取得了重大进展,这引发了更广泛和开放的CI讨论。在这一努力中,我们看到了一些令人惊叹的工作,开始弥合ML和CI之间的概念差距,特别是CI中利用ML方法的工具。

本系列的主要动机是民主化双机器学习(DML)的使用和应用,DML最早由Chernozhukov等人在他们的开创性论文“处理和因果参数的双机器学习”中引入,并使数据科学家能够在他们的日常因果推断任务中使用DML。[1]为此,我们首先将深入探讨DML的基础知识。具体而言,我们将介绍一些概念和理论基础,包括因果性的回归框架和Frisch-Waugh-Lovell定理,然后利用这个框架来开发DML。最后,我们将展示双机器学习的两个显著应用:

  1. 在非实验/观察数据中收敛于外生性/CIA/可忽略性的处理,以及
Leave a Reply

Your email address will not be published. Required fields are marked *