Press "Enter" to skip to content

数据集中多重共线性的检测使用统计检验方法

在数据集中检测多重共线性是重要的一步,但也具有挑战性。我将展示如何在混合数据集中检测具有相似行为的变量,并如何通过交互式图表进一步检验关系。

Erol Ahmed在Unsplash上的照片

了解数据集中变量之间的关系强度很重要,因为具有统计相似行为的变量可能会影响模型的可靠性。为了消除所谓的多重共线性,我们可以使用连续变量的相关性度量。然而,当我们还有分类变量和混合数据集时,测试多重共线性变得更加具有挑战性。统计检验,如超几何检验和曼-惠特尼U检验,可用于测试混合数据集中变量之间的关联。虽然这很好,但需要各种中间步骤,如变量类型标记、独热编码和多重检验校正等。这整个流程可以在一个名为HNet的方法中轻松实现。在本博客中,我将展示如何检测具有相似行为的变量,以便轻松检测多重共线性。

了解数据是关键步骤。

现实世界的数据经常包含连续和离散值的测量。我们需要查看每个变量,并使用常识判断变量是否可以相互关联。但是,当有成十个(甚至更多)变量,每个变量可以有多个状态的情况下,手动检查所有变量变得耗时且容易出错。我们可以通过执行密集的预处理步骤和统计测试方法进行自动化来完成这个任务。这就是HNet [1, 2]发挥作用的地方,它使用统计测试来确定数据集中所有变量之间的相关关系。它允许您将原始的非结构化数据输入模型,然后输出一个揭示变量之间复杂关系的网络。让我们进入下一节,我将解释如何使用统计方法检测具有相似行为的变量…

Leave a Reply

Your email address will not be published. Required fields are marked *