将概率面试问题与数据分析师的日常任务联系起来
如果你申请数据分析师和数据科学家的职位,你在面试中经常会遇到概率问题。但事实是:有些人确信这些问题与真正的工作关系不大。类似于“为什么我们要费心计算掷骰子投到6点五次的机会?”这样的问题经常出现。在本文中,我将分享一些现实生活中的例子,解释为什么理解概率比你想象的更重要。为此,让我们来看一些面试任务,并看看它们在现实世界中的应用。
问题1. 你连续抛掷一枚硬币10次,所有结果都是正面的概率是多少?
想象一下,你是一个食品配送服务的数据分析师。每次订单后,顾客可以对食品的质量进行评价。团队的首要目标是提供一流的服务,如果某个餐厅收到了差评,你就需要进行核查。那么,重大问题是:多少差评应该触发对餐厅的核查?
有时,一个餐厅可能偶尔会有一些不太好的反馈,但这不是他们的错。如果一个餐厅处理了1000个订单,它们可能会因为偶然而得到几个差评。
你可以这样理解:大约5%的订单由于偶然原因而得到负面评价。然后,每个餐厅的差评数量遵循二项分布Bin(n, p),其中“n”表示订单数量,“p”表示差评的可能性(在我们的例子中为5%)。
因此,如果一个餐厅有100个订单,约有23.4%的机会它们会至少获得7个差评,并且只有很小的2.8%的机会它们会至少获得10个差评。你可以在这里使用计算器进行验证,参数是n=100,x=10,p=0.05,不要忘记选择x>=X选项。
这是一个要点:如果你将餐厅100个订单的差评阈值设为7个,你可能会经常检查餐厅,这意味着额外的成本和对餐厅的更大压力。
问题2. 你从一副标准的52张牌的扑克牌中抽取10次,不抽到红牌的概率是多少?
现在,想象一下你身处电子商务网站的世界。你和你的团队刚刚推出了一种新的支付方式,你想知道顾客使用这种新功能的频率。但有个问题——由于一个小错误,大约2%的对新支付方式的请求会失败。换句话说,顾客在98%的会话中可以看到这个新的支付选项。为了弄清楚顾客选择这种支付方式的频率,你想重点研究那些始终有这个选项可用的顾客。但问题就出在这里。
想象一下一个只有一个会话的用户——你以2%的概率将他们排除在你的分析之外。现在,考虑一个有25个会话的用户。对于他们来说,至少有一个会话没有这个功能可用的概率是1–0.98²⁵ = 39.7%。所以,你可能会不经意地排除掉一些忠诚度更高的顾客,并且这可能会使你的分析产生偏差。
问题3. 如果您连续掷三次骰子,得到两个连续的三个的概率是多少?
想象一下,您在一家类似Uber的网约车公司工作。在一些国家,人们仍然用现金支付车费,这对司机来说可能很麻烦。他们必须携带零钱、处理现金交易等等。
您的团队担心如果一个司机连续接到三个现金订单,他们可能会感到沮丧并用完零钱。因此,您正在考虑在这种情况下限制现金订单。但是,在执行此功能之前,您想弄清楚这种情况真正经常发生的频率。
假设每位司机每天的平均行程数是10,其中10%的行程以现金支付。
因此,连续接到3个现金行程的概率是0.1 * 0.1 * 0.1 = 0.001。但它可以是第1、2、3次行程;第2、3、4次行程,依此类推。这意味着连续接到三个现金行程的机会只是8 * 0.1 * 0.1 * 0.1 = 0.008%。看起来相当低,您可能希望暂时不实施此功能。
问题4. HIV测试的准确率为99%(双向)。人群中只有0.3%是HIV阳性。在测试结果为阳性的情况下,一个随机人群是HIV阳性的概率是多少?
原问题的原始文章在这里。
您在银行或信贷行业工作,建立模型来预测客户是否会归还贷款。总体上,所有贷款中有85%会按时归还。在您的最新模型中,当它表示客户会归还时,有92%的准确率。然而,当预测客户不会归还时,准确率仅为40%。现在,您有一个疑虑:如果您的模型表示客户不会归还,那么他们真正会归还的机会是多少?
首先,让我们计算模型预测“客户不会归还”的可能性。这涉及两个部分:
- 从不会归还贷款的客户获得此预测的概率:(1-0.4)*(1-0.85)= 0.09
- 从会归还贷款的客户获得此预测的概率:(1-0.92)*0.85 = 0.068
- 那么,如果我们的模型认为客户不会归还,客户会归还贷款的概率是:0.068 /(0.068 + 0.09)= 0.43
因此,如果您认为客户不会归还贷款,那么他们实际上有相当大的概率会归还。
这篇文章的重点是什么?它强调了理解概率和组合数学对于数据科学家和分析师来说是至关重要的。在日常生活中,您将遇到需要掌握概率的情况;否则,您可能会得出不正确的结论。然而,从雇主的角度来看,面试问题应该更实际,以帮助未来的分析师认识到该知识在工作中的实际适用性。
感谢您抽出时间阅读本文。我非常愿意听取您的想法,请随时分享任何意见或问题。