Press "Enter" to skip to content

帮助您就业的5种稀缺的数据科学技能

帮助您就业的5种稀缺的数据科学技能 四海 第1张 

如果您知道如何创建机器学习决策树,恭喜您,您具备与ChatGPT和其他成千上万名竞争您所希望的工作的数据科学家相同的代码专业知识水平。

最近雇佣经理之间的一个引人入胜的趋势是,仅凭原始编码能力已经不再足够。要被雇佣,您需要在编程语言、框架和如何在StackOverflow上搜索的基础上更上一层楼。您需要更多的概念理解力,以及对当今数据科学领域的把握-包括您认为只有公司的首席执行官才应该担心的事情,如数据治理和伦理道德。

有许多技术和非技术的数据科学技能,您应该知道。但如果您在找工作上遇到困难,这些不太常见的数据科学技能可能是打开就业大门的钥匙。

1.模型可视化

过去,数据科学家是独自工作,深入地下室制作模型。模型会产生预测或洞察力;这些将被传递给C级高管,他们将根据这些预测来采取行动,而不了解产生这些预测的模型。 (我有点夸张,但并不过分。)

如今,领导层在理解数据科学家产出产品时扮演更积极的角色。这意味着作为一名数据科学家,您需要能够解释模型为什么会这么做,它们是如何工作的,以及为什么会得出这个特定的预测。

虽然您可以向老板展示运行您的模型的实际代码,但通过可视化能够展示模型工作方式会更有用(也就是说更有就业能力)。例如,假设您开发了一个用于预测电信公司客户流失的机器学习模型。您可以使用流程图或决策树图解释模型如何分割客户并识别哪些客户有风险流失,而不仅仅是代码行的截图。这样可以使模型的逻辑变得透明且更易于理解。

了解如何说明代码是一项难得的技能,但绝对值得培养。尽管目前还没有相应的课程,但我推荐您尝试像Miro这样的免费工具,用它来创建记录您的决策树的流程图。更好的方法是尝试向非数据科学家的朋友或家人解释您的代码。越通俗易懂,越好。

2.特征工程

帮助您就业的5种稀缺的数据科学技能 四海 第2张 

许多数据科学家往往更关注模型算法,而忽视输入数据的微妙之处。特征工程是选择、修改和创建特征(输入变量)以提高机器学习模型性能的过程。

例如,如果您正在开发用于预测房地产价格的模型,您可能会从基本特征开始,如面积,卧室数量和位置。然而,通过特征工程,您可以创建更精细的特征。您可以计算到最近的公共交通站点的距离,或创建表示物业年龄的特征。您甚至可以结合现有特征创建新特征,例如基于犯罪率、学校评级和与便利设施的距离创建的“位置吸引力评分”。

这是一项难得的技能,因为它不仅需要技术知识,还需要深入的领域知识和创造力。您需要真正了解数据和面临的问题,然后创造性地转化数据,使其对建模更有用。

特征工程通常作为Coursera、edX或Udacity等平台更广泛的机器学习课程的一部分。但我发现通过实践经验是学习的最佳方式。处理现实世界的数据,并尝试不同的特征工程策略。

3.理解数据治理

这是一个假设性问题:假设您是一家医疗公司的数据科学家。您的任务是开发一种预测模型,以识别患有某种疾病风险的患者。您最大的挑战可能是什么?

如果你回答“与ETL数据管道打交道”,那么你错了。你最大的挑战很可能是确保你的模型不仅有效,而且符合合规、道德和可持续的要求。这包括确保为模型收集的任何数据都符合像HIPAA和GDPR这样的法规,取决于你所在的地区。你需要知道何时使用这些数据是合法的,如何对其进行匿名化处理,你需要从患者那里获得什么同意,并且如何获得这些同意。

而且,你需要能够记录数据来源、转换和模型决策,以便非专家也能够审计模型。这种可追溯性不仅对于合规性很重要,而且对于未来模型审计和改进也很重要。

学习数据治理的方式:这是一个复杂的领域,但一个很好的资源是全球数据管理社区

帮助您就业的5种稀缺的数据科学技能 四海 第3张

4. 伦理

“我知道数据科学基本上可以了解统计学,创建模型,找到趋势,但如果你问我,我无法想出任何实际的伦理困境,我认为数据科学只会揭示真实的事实。”Reddit用户Carlos_tec17错误地说道。

除了法律合规,还有一个伦理方面需要考虑。你需要确保你创建的任何模型都不会无意中引入偏见,导致对某些群体的不平等对待。

我喜欢用亚马逊旧的招聘模型的例子来说明伦理为什么很重要。如果你对此不熟悉,亚马逊的数据科学家试图通过创建一个可以根据简历挑选潜在雇员的模型来加快他们的招聘工作流程。问题在于,他们训练模型时使用了他们现有的简历数据库,而这个数据库被男性主导。他们的新模型对男性的招聘有偏见。这是极其不道德的。

我们早已经过了“快速行动和打破常规”的数据科学阶段。现在,作为一名数据科学家,你需要知道你的决策将对人们产生真正的影响。无知不再是借口;你需要充分了解你的模型可能产生的所有可能后果,以及为什么它会做出这样的决策。

密歇根大学提供了一门有用的关于“数据科学伦理”的课程。我还喜欢这本书,它说明了为什么以及如何在“基于数字”的科学领域(如数据科学)中产生伦理问题。

5. 市场营销

一个秘密的生活技巧是,你越懂得市场营销,就越容易找到一份工作。我所说的“市场营销”是指“知道如何让事物变得有吸引力”。如果你懂得市场营销,你会更擅长制作一个能够展示你技能的简历。你会更擅长与面试官交流。而且在数据科学领域,你会更擅长解释为什么你的模型及其结果 important。

记住,如果你无法说服任何人认为你的模型是必要的,那么模型再好也没用。例如,想象一下,你开发了一个可以预测制造工厂设备故障的模型。从理论上讲,你的模型可以为公司节省数百万美元的非计划停机成本。但是,如果你无法向高层管理层传达这个事实,你的模型将闲置于电脑上。

有了市场营销技能,你可以通过有说服力的演示来证明你的模型的用途和需求,突出其财务效益、提高生产力的潜力以及采用你的模型的长期优势。

在数据科学领域,这是一项非常罕见的技能,因为大多数数据科学家本质上是“数字人”。大多数有志于成为数据科学家的人真的相信,只要尽力而为、低调工作就能成功就业。不幸的是,雇佣你的不是电脑,而是人。在今天的就业市场中,能够市场营销自己、自己的技能和产品是一个真正的优势。

为了学习市场营销,我推荐一些适合初学者的免费课程,比如Coursera提供的“数字化世界中的市场营销”课程。我特别喜欢其中关于“在数字化世界中提供有影响力的产品创意”的部分。目前还没有专门针对数据科学的市场营销课程,但我喜欢这篇博客文章,它介绍了怎样将自己市场化作为一名数据科学家。

 

总结

 

现在市场竞争很激烈。尽管根据劳工统计局的数据科学家就业预测表明,数据科学家的就业前景看好,但更多初级数据科学员正在发现找工作很难,就如同这些Reddit帖子所说明的那样。ChatGPT的竞争也不容忽视,而裁员的阴影正在逼近。

为了在就业市场中竞争并脱颖而出,你需要做得比技术技能更出色。数据治理、道德伦理、模型可视化、特征工程和市场营销能力将使你成为一个更加深思熟虑、强大有趣的求职者。

****[Nate Rosidi](https://twitter.com/StrataScratch)****是一位数据科学家和产品战略师。他还是一名兼职教授,教授分析学,并创办了StrataScratch,这是一个帮助数据科学家通过真实面试题准备面试的平台。你可以在Twitter: StrataScratchLinkedIn上与他联系。

Leave a Reply

Your email address will not be published. Required fields are marked *