模拟还是不模拟,这是个问题
如果你是一名科学家或数据专业人士,你的假设测试流程很可能缺少一个关键步骤,这个步骤通常会被遗漏在你的典型课程中,这是非常悲惨的,或者是说滑稽可笑的。别担心,在本博客文章中,我将向你展示这个缺失的部分,以及你会在演员剧本中找到它的原因。
(注意:本文中的链接将带您访问同一作者的解释文本。)
第一幕,第一场
场景开启,你兴高采烈地得到了预算去收集一些实际数据。也许你会全部都是数字,你要告诉工程团队开始记录哪些变量或运行哪些在线实验。或者,你可能要走出物理世界来设置一些传感器,准备一些移液管,或者做其他任何需要得到数据的事情。(对从真实世界中取样的实际测量方面感兴趣吗?看看我关于树木采样的文章。)
慢着!如果你不知道你在做什么怎么办?这是非常尴尬的,更不用说是一场你的团队宝贵时间的巨大浪费,来破坏你的数据收集过程。即使都是数字,你也不想拖着尾巴回到你的工程团队那里,请求重做。
但是,你如何确保你已经以正确的方式记录了正确的事物?有什么诀窍吗?幸运的是,有!这个诀窍在回想起来时是如此显而易见…这也许就是为什么你的教授们忘记教你。
这个诀窍是从戏剧演员的剧本中学到的!
如果剧场演员在开幕之前对于表演不好而感到紧张,他们会做什么?(不,不是喝酒。)
他们排练!
嗯,你也可以排练。在收集任何数据之前,使用除了真实世界数据之外的所有内容进行一次彩排。嗯,观众?我是说,除了真实世界数据之外的所有内容。
彩排
在数据科学中,彩排包括制作一个虚假但合理的数据集。我们称之为模拟。
如果你不熟悉模拟虚假但合理的数据的概念,请转到这篇博客文章,我将使用展示而不是告诉的方式。那里会有基于代码和基于电子表格的示例。在形成模拟的心理形象后,再继续阅读本文。
当你模拟彩排数据时,请确保制定一个你可以控制的明确故事。尝试设置模拟参数以构建一个你想要采取一种行动的小玩具世界,然后生成数据并尝试分析它。确保你能在分析结束时恢复正确的决策。如果你不能,那是你的统计计划非常不好的一个很坏的信号!
如果你知道正确的结论是什么(在你创造规则的世界中,你总是知道的),而你的方法不能给你正确的结论,那么你可能在使用错误的方法,或者你可能没有足够的数据。最好能尽早发现这些警告信号。
也许更重要的是,你会发现你希望在一开始就以不同的方式设置你的数据。当你分析虚假数据时,你会发现自己在想:“如果我有这个额外的列,一切都会更好…”
好吧,现在就是找出问题并消除它的时候,而不是在你去收集真实数据之后。那太昂贵,太耗时间了!
不要浪费机会
即使您的数据集非常完美,您提出的方法可能不适合它。不幸的是,除非您在做一些相当复杂的事情,否则您只能使用真实的测试数据集一次。所以只有一次机会,您不能像训练机器学习模型时那样尝试不同的方法。统计推断是一项残酷的认识活动,它不关心你的感受:只有一次机会,不允许重复使用数据。
重复使用测试数据是你可能会犯下的最大的违反统计公正的罪行之一,而你那些不受教育的同行经常犯这个错误并不意味着它是无害的。
不要在宝贵的最终数据集中乱搞方法选择。你只有一次机会,不要浪费它。
如果您想尝试不同的方法,以查看它们是否适合您的测试数据,您需要具有相同结构的单独数据集。如果您已经有足够的数据,您将对其进行分割。如果您还没有任何数据,则会模拟一些虚假数据,以便规划您的方法论方法。不要在宝贵的最终数据集中乱搞方法选择。你只有一次机会,不要浪费它。
这就是为什么在开始获取数据之前使用模拟是如此有用的技巧,完全是从彩排概念中抄袭过来的。
模拟还是不模拟,这是个问题:
在心灵上忍受命运的弹弓和箭头,
还是用武器对抗一片麻烦
并通过反对结束它们。
感谢阅读!来一门YouTube课程如何?
如果您在这里玩得开心,并且正在寻找一个专门为初学者和专家设计的整个应用AI课程,那么这是一个我为您制作的有趣课程:
在此处享受YouTube课程。
P.S.您曾经尝试在小猪AI这里点击鼓掌按钮超过一次,看看会发生什么吗? ❤️
喜欢作者吗?与Cassie Kozyrkov联系
让我们成为朋友!您可以在Twitter,YouTube,Substack和LinkedIn上找到我。有兴趣邀请我参加您的活动吗?使用此表格与我联系。