Press "Enter" to skip to content

3个数据科学项目,保证帮你获得那份工作

3个数据科学项目,保证帮你获得那份工作 四海 第1张

这是一个相当大胆的说法!声称我可以向某人保证您能找到工作。

好吧,事实是,人生没有什么是绝对的,特别是找工作。即便是在数据科学领域也是如此。但能让您离这保证的最近的方法就是在您的作品集中拥有数据项目。

我认为项目是如此关键的原因是因为,如果明智选择,它们可以最有效地展示出您在技术数据科学技能方面的广度和深度。项目的质量至关重要,而不是数量。它们应该涵盖尽可能多的数据科学技能。

那么,哪些项目会在最少的项目数上给您带来这个保证呢?如果只能做三个项目,我会选择这些。

  1. 城市供需数据洞察
  2. 客户流失预测
  3. 预测性警务

但请不要过于字面理解。这里的意思不是您应该严格遵循这三个项目。我选择它们是因为它们涵盖了数据科学所需的大部分技术技能。如果您想做其他数据科学项目,可以随意选择。但如果您有时间/项目数量的限制,您应该明智地选择,并选择那些可以测试最广泛的数据科学技能的项目。

说到这个,让我们明确一下这些技能是什么。

数据科学项目中要寻找的技术技能

数据科学有五个基本技能。

  • Python
  • 数据整理
  • 统计分析
  • 机器学习
  • 数据可视化

这是您在选择数据科学项目时应考虑的一个检查清单。

以下是这些技能的概述。

3个数据科学项目,保证帮你获得那份工作 四海 第2张

当然,数据科学技能还有很多其他方面,包括了解SQL和R,大数据技术,深度学习,自然语言处理和云计算。

然而,对它们的需求很大程度上取决于工作描述。但我提到的这五个基本技能是不可或缺的。

现在让我们来看看我选择的这三个数据科学项目如何挑战这些技能。

练习基本数据科学技能的三个数据科学项目

对于某些人来说,其中一些项目可能有些过于高级。在这种情况下,可以尝试这些初学者的19个数据科学项目

1. 理解城市供需:商业分析

来源:城市供需数据洞察

主题:商业分析

简要概述:城市是Uber需求和供应的集散地。分析这些可以为公司的业务和规划提供洞察。Uber提供了一个有关行程的数据集。您需要回答十一个问题,以对行程、时间、司机需求等提供商业洞察。

项目执行:您将按照显示的顺序回答十一个问题。回答这些问题会涉及以下任务:

  • 填补缺失值
  • 汇总数据
  • 找出最大值
  • 解析时间间隔
  • 计算百分比
  • 计算加权平均
  • 找出差异
  • 数据可视化

展示的技能: 探索性数据分析(EDA),选择所需的列并填充缺失值,从已完成的行程中获取可行的见解(不同时间段的行程加权平均比例,寻找最繁忙的时间以帮助制定驾驶员行程,供需之间的关系等等),可视化供需之间的关系

2. 客户流失预测:分类任务

来源: 客户流失预测

主题: 监督学习(分类)

简要概述: 在这个数据科学项目中,索尼研究为你提供了一个电信公司客户的数据集。他们希望你进行探索性分析并提取见解。然后,你需要构建一个流失预测模型,评估它,并讨论在将模型部署到生产环境时可能遇到的问题。

项目执行: 该项目应分为以下主要阶段。

  • 探索性分析和提取见解
    • 检查数据基本情况(空值,唯一性)
    • 选择所需的数据并组成数据集
    • 可视化数据以检查值的分布
    • 形成相关矩阵
    • 检查特征的重要性
  • 训练/测试分割
    • 使用sklearn以80% – 20%的比例拆分数据集为训练和测试集
  • 预测模型
    • 应用分类器,并根据性能选择一个用于生产
  • 度量标准
    • 在比较不同算法的性能时使用精度和F1得分
  • 模型结果
    • 使用经典机器学习模型
    • 可视化决策树,查看基于树的算法的性能
  • 深度学习模型
    • 尝试在该问题上使用人工神经网络(ANN)
  • 部署问题
    • 监控模型性能以避免数据漂移和概念漂移

展示的技能: 探索性数据分析(EDA)和数据整理,检查空值和唯一性的数据基础知识,从数据分布中提取见解,探索正负相关性;直方图和相关矩阵中的数据可视化;使用sklearn库应用ML分类器,测量算法的准确性和F1得分,比较算法,可视化决策树;使用人工神经网络(ANN)来探索深度学习的性能;模型部署需要注意数据漂移和概念漂移等MLOps流程中的问题。

3. 预测警务:审查其影响

来源: 预测警务的风险

主题: 监督学习(回归)

简要概述: 这个预测警务利用算法和数据分析来预测犯罪可能发生的地点。你选择的方法可能会产生深远的伦理和社会影响。它使用了来自其开放数据计划的2016年旧金山市犯罪数据。该项目试图预测某一给定邮政编码在一周的某一天和某个时间段发生的犯罪事件数量。

项目执行: 以下是项目作者所采取的主要步骤。

  • 选择变量并计算每个邮政编码每小时的总犯罪数量
  • 按时间顺序划分训练/测试数据

  • 尝试五种回归算法:

    • 线性回归
    • 随机森林
    • K最近邻
    • XGBoost
    • 多层感知器

展示的技能:探索性数据分析(EDA)和数据整理,获取有关犯罪、小时、星期几和邮政编码的数据;机器学习(监督学习/回归),尝试线性回归、随机森林回归器、K最近邻、XGBoost 的表现;深度学习,使用多层感知器尝试解释得到的结果;对犯罪预测及其被滥用的可能性进行洞察;将模型部署到交互地图中。

如果您想使用类似的技能进行更多项目,请这里有30+个机器学习项目创意

结论

通过完成这些数据科学项目,您将测试并获得必要的数据科学技能,如数据整理、数据可视化、统计分析、构建和部署机器学习模型。

说到机器学习,我在这里重点关注监督学习,因为这在数据科学中更常用。我几乎可以保证,这些数据科学项目足以让您获得理想的工作。

但是,您应该仔细阅读工作描述。如果看到需要无监督学习、自然语言处理(NLP)或其他我未涉及的内容,请在您的作品集中包含这样一个或两个项目。

无论如何,您不仅限于三个项目。它们在这里引导您选择确保您获得工作的项目。要注意项目的复杂性,因为它们应该广泛涵盖基本的数据科学技能。

现在,开始吧,争取那份工作吧!Nate Rosidi 是一位数据科学家,在产品战略方面有丰富经验。他还是一位兼职教授,教授分析学,并且是 StrataScratch 的创始人,该平台帮助数据科学家准备他们的面试,提供来自顶级公司的真实面试问题。与他联系:Twitter: StrataScratchLinkedIn

Leave a Reply

Your email address will not be published. Required fields are marked *