了解Julia中的数据过滤一切
在数据科学中,进行假设检验、机器学习甚至分析时,获取结果最重要的组成部分就是拥有好的数据。对于数据,通常需要施加许多不同的要求。数据过滤是一种非常常见的技术,在数据领域经常使用。数据过滤可以是移除不属于数据集的组件的过程,也可以是抓取符合某个参数或多个参数的样本的过程。
我们可以说,从数据中移除不属于数据集的数据的一个例子是从数据中移除缺失值。这是数据科学流程中的一个关键步骤,通常使用过滤技术来完成。抓取符合一些设定参数的样本的一个例子是,如果我们尝试测试身高与碰头的统计显著性,我们会过滤掉所有矮个子的数据,以便获取仅包含高个子数据的样本进行测试。
这种技术有很多应用。过滤对于执行一些常见的数据科学任务也是必不可少的,因此一定要了解它。幸运的是,Julia中的过滤相对简单。如果你想尝试本文中的代码,这里是一个链接,可以以笔记本格式查看概述:
Emmetts-DS-NoteBooks/Julia/data filtering in julia.ipynb at master · emmettgb/Emmetts-DS-NoteBooks
Random notebooks for various projects. Contribute to emmettgb/Emmetts-DS-NoteBooks development by creating an account…
github.com
为了真正理解Julia中的过滤,我们需要了解几个不同的事情。通常会将匿名函数作为参数提供,尽管包括do
语法在内的任何形式的函数作为参数都是可能的。在某些情况下,我们还可能会使用一种名为BitArray
的Vector
类型。
BitArray
BitArray
是一个只包含Bool
类型值的Vector
。在Julia中,Array
只是Vector
的别名。通常情况下,在…