Press "Enter" to skip to content

微软高级数据科学家的成功故事

介绍

在当今数字时代,数据的力量不可否认,那些掌握利用其潜力的技能的人正在引领着塑造技术未来的潮流。在这些开拓者中,有一个卓越的个体,他就是尼尔马尔先生,数据科学领域的远见者,他已经成为世界一流科技巨头之一微软公司的高级数据科学家,成为推动力量。

认识尼尔马尔先生,他是坚韧、聪明和坚定奉献的化身。尼尔马尔先生从平凡的开始踏上了一段变革之旅,使他们成为微软公司高级数据科学家职业生涯的巅峰。他的迅猛崛起是一个激励人心的成功故事,不仅对有抱负的数据科学家有启示,也对任何有梦想和决心追求伟大的人有启示。

在这篇成功故事文章中,我们深入探讨了尼尔马尔先生的旅程,追溯了塑造他非凡职业生涯的关键里程碑、挑战和成功。我们探索了他领导的开创性项目、他所产生的变革性影响以及他一路上学到的宝贵经验。通过尼尔马尔先生的故事,我们发现在不断发展变化的数据科学世界中蓬勃发展所必需的特质和心态。

微软高级数据科学家的成功故事 四海 第1张

让我们开始对话吧!

AV:请强调一下您的职业轨迹、教育背景以及它们如何帮助您获得第一份数据科学家的工作?

尼尔马尔先生:我的职业轨迹从来没有一条线性的道路。我们每个人都有自己的故事,我相信它们都很有趣。下面是我的故事:我在尼泊尔完成了IT工程的本科学位。我于2007年移民美国攻读硕士学位。在完成硕士学位后,我加入了美国陆军。是的,听起来非常不寻常。由于2009年美国爆发了一次大衰退(这也恰好是我毕业的那一年),就业市场非常糟糕,特别是对国际学生来说。美国陆军运行了一个特殊试点项目,我经历了所有必要的流程成为一名军人。在我成长的过程中,我有一些加入军队的激情。这是实现这个梦想的方式。

当我在军队中时,我完成了MBA学位。2014年,我完成了第一份入伍合同后,我离开了美国陆军。同年,我获得了在美国海军部门担任网络安全分析师的第一份数据角色,成为美国联邦政府雇员。在这份工作期间,我完成了第三个数据科学硕士学位。在作为数据分析师工作并建立学术资历以及数据科学技能的经验后,我转向私营行业,在2018年担任威尔斯法戈银行的首个数据科学家职位。从那时起,我一直从事数据科学,并目前在微软担任高级数据科学家。

AV:您能告诉我们一个您参与过的项目,您必须使用数据来解决一个现实世界的问题,并对业务或产品策略产生的影响进行说明吗?

尼尔马尔先生:有很多例子。首先,我们不必拥有“数据科学家”的职称来处理和解决任何数据问题。有一些误解就是这样。我们可以担任数据分析师、数据工程师、业务分析师或任何与数据相关的职位。

我主要在网络安全领域工作。我们的两个主要关注领域是调查和检测。在处理网络安全问题时,异常检测是一个非常流行的问题领域之一。我曾经参与一个数据科学团队建立异常检测系统,帮助安全分析师节省时间,确定要关注的事件/警报。这对于节省他们的时间和资源具有重要影响。

AV:您用数据科学解决过的最具挑战性的问题是什么?您是如何解决这个问题的?结果如何?

尼尔马尔先生:我要说的是,对我来说最具挑战性的问题尚未解决。由于我们生活在高度创新的人工智能世界中,我们应该时刻意识到对手现在拥有比以往任何时候都更先进的工具。然而,如果我必须提到一个有趣的问题,那么我会选择用户行为分析,也称为用户实体行为分析,在行业中被广泛称为UEBA。UEBA是一种发现威胁的网络安全功能,通过识别与正常基线偏离的用户活动来发现威胁。

一个简单的例子:我们有一个用户经常从A地登录,突然间我们看到从B地登录的活动。这可能是与旅行有关的正常行为,但仍然偏离了正常行为,因此必须查看以确认正常与恶意之间的差异。UEBA最具挑战性的部分是理解和创建基线。

数据驱动的洞察

微软高级数据科学家的成功故事 四海 第2张

AV:您可以分享一个时间,您必须向非技术利益相关者传达复杂的数据驱动洞察的故事吗?您是如何确保他们理解这些洞察和它们对业务的影响的?

尼尔马尔先生:作为一名数据科学家,我们会遇到多种这样的场景。大多数业务利益相关者对其问题和预期解决方案都非常了解。然而,有时很难向他们解释为什么某些解决方案是有意义的,而某些解决方案则不是。我可以分享一个例子。我们建立了一个欺诈检测模型,它是一个二元分类器,用于欺诈和非欺诈交易。欺诈分析师对他们的领域非常了解。但是对于我们向他们解释模型结果来说,将其分解为他们的语言是具有挑战性的。

如果我们分享诸如模型调整和超参数或交叉验证或抽样方法之类的细节,这些对他们来说将没有多少意义。但是,如果我们解释更高层次的内容,例如基于特征排名我们发现哪些属性是有用的,类别不平衡的一些挑战是什么,这些对他们来说就有意义了。因此,数据科学家始终以业务语言交流非常重要。

 

AV:您如何确保您的团队构建的机器学习模型对最终用户是可解释和透明的,特别是在安全和威胁检测的背景下?

尼尔马尔先生:像我在之前的例子中提到的那样,模型的互操作性在向业务合作伙伴解释模型时非常重要。无论您在哪个领域工作,这都很重要。在安全和威胁检测方面,这变得更加重要,因为我们构建的任何模型都必须能够向威胁分析师解释,以便他们可以采取适当的行动。我可以在这里分享一个很好的例子,即“良性正例”的概念。当我第一次听到这个术语时,我有点困惑,因为我只知道真正的正例和假正例。但是在安全领域,良性正例很重要。以下是这些类别的详细说明:

  • 真正的正例(TP):由安全工具检测到的恶意行为。
  • 良性真正的正例(B-TP):由安全工具检测到的实际但非恶意的行为,例如渗透测试或已批准应用程序生成的已知活动。
  • 假正例(FP):虚警,表示该活动并未发生。

AV:您是否遇到过数据杂乱或不完整的情况?您是如何处理的,结果如何?

尼尔马尔先生:这种情况经常发生。如果一个数据科学家说他/她有干净的数据可供使用,那对他/她来说就像中了彩票一样。真实世界的项目不像Kaggle竞赛那样,数据大多是干净的csv文件。我们花费更多的时间在数据需求方面,与数据所有者合作进行数据合同和数据收集。这些是在进行探索性数据分析(EDA)之前要做的事情。

大部分时间,我们会遇到一些与模式不符的杂乱数据。数据版本控制很重要,当我们进行多次迭代来协调ETL流水线直到获得正确的数据时,我们需要跟踪每个数据版本。数据可观察性是一个概念,与我在这里提到的意思完全相同。它涉及到在正确的时间、以正确的格式将正确的数据发送到正确的目标位置。

 

AV:你能告诉我们一个你与团队合作实现共同目标的项目吗?你如何为团队的成功做出贡献?你从这个经验中学到了什么?

尼尔马尔先生:在微软,我们遵循一项名为“One Microsoft”的工作方式,侧重于开发能够在团队间建立协作文化、创新新概念并共同努力的服务和产品,而不是独立工作。我参与的几乎所有项目都是与其他团队合作的——这些团队可能是工程对等方,也可能是外部团队。微软文化的一个好处是,他们让我们专注于在现有服务基础上构建系统,而不是重新发明轮子。这不仅促进了与其他团队建立关系,还为公司节省了时间和资源。个人而言,我在与不同团队合作中学到了很多东西。

数据安全项目

AV:你提到你喜欢在安全和数据科学的交叉领域工作。你能分享一个使用数据来改善安全措施或防止安全漏洞的项目的成功故事吗?该项目的影响是什么?

尼尔马尔先生:这是一个很好的问题。谢谢你提出来。由于数据无处不在,数据科学在所有领域都适用。我通常建议初入职场的数据科学家尝试多个领域,至少对三个感兴趣的领域进行试错,就像训练机器学习模型一样,职业道路选择在职业生涯初期是一个迭代的过程。安全和数据科学是一种罕见而独特的组合。这个领域的就业市场需求旺盛,在艰难的经济环境中,工作安全性在这个领域也更强。

为了分享我的故事,我参与的一个对业务而言简单但有帮助的项目是-警报分类。当安全研究人员发现各种攻击模式时,他们帮助安全工程师编写检测规则,这些规则在与规则匹配或命中时触发警报。然而,问题是每个系统都会生成成千上万的事件,这些事件会转换成警报。这些警报的误报率很高。

为了平衡安全性和效率,我们开发了一个机器学习模型,将警报分类为真实阳性、良性阳性和误报阳性,并根据风险分数进行排序。这使得分析师能够优先处理队列,避免被大量警报压倒,同时最小化对手能够不被察觉地通过的风险。

处理意外洞察的建议

AV:你是否遇到过数据显示出意外或令人惊讶的洞察的情况?你对处理这些情况有什么建议?

尼尔马尔先生:我们在探索性数据分析(EDA)阶段往往会忽视的一件事是:我们可能没有向数据提出正确的问题。如果我们只是按照标准流程进行描述性统计、单变量或多变量分析、相关性热图等基本EDA步骤,很可能会错过关键洞察。

一个例子:当我们在数据中遇到异常值时,最常见的处理过程是将其删除,因为它们会使分布偏斜。然而,删除它们并不总是一个好主意,这取决于你的项目。如果我们正在进行异常检测项目,那么异常值可能就是我们试图找到的异常。在这种情况下,从训练数据中删除异常值不是一个明智的决策。在删除任何类型的数据之前,最好先与领域专家进行核实,甚至是缺失数据。

成为成功数据科学家的建议

AV:对于想在像微软这样的科技巨头成为成功的数据科学家的人,你有什么建议?

尼尔马尔先生:我的建议不仅限于微软,而是适用于各个行业和公司。如果我要用几点总结:

  • 保持对学习新事物的渴望:数据科学行业一直在快速发展。在这个领域中,持续学习非常重要。
  • 建立人脉网络:参加会议,加入领英的社区频道,通过在知名数据科学平台(例如VoAGI)撰写文章或为数据科学做出贡献来参与社区。人脉网络非常有帮助。
  • 专注于有影响力的项目:数据科学家的职位可以让你承担许多不同的责任,有些人从事数据工程工作,有些人从事数据分析工作。无论如何,我建议你专注于有高影响力的项目,这样你的贡献就会更加显著,并且可以以实际结果来衡量。

结论

总之,尼尔马尔先生的成功故事是一个光辉的例子,当才华、机遇和坚定的奉献相融合时,可以取得令人难以置信的成就。微软的高级数据科学家证明了数据的力量,当与卓越和目标相结合时,有潜力改变行业、塑造未来,并创造一个将流传多代的遗产。

最后,我想感谢Analytics Vidhya给我分享经验的机会。对于我的所有观众,请随时通过LinkedIn与我联系。

Leave a Reply

Your email address will not be published. Required fields are marked *