数据科学入门指南四海第1张

你在过去的二十年里没有生活在与世隔绝的地方，所以你可能认为你对数据科学有所了解。你可能希望获得一个关于数据科学的简要概述，了解开始学习数据科学和找工作所需的知识。

以下是本文将为您提供的要点：

数据科学的主要观点：数据输入，洞见输出。数据科学家的工作是在每个阶段管理数据到洞见的流程。
您在数据科学岗位上所需的工具、技术和技能。
数据科学作为一个职业的整体景观。

如果这听起来像你在寻找的内容，让我们开始吧。

什么是数据科学？

就像我之前说的，数据科学最好被概括为一个数据到洞见的流程。作为一个数据科学家，无论你在哪家公司，你都会做一些任务，例如：

提取数据
清洗或处理数据
分析数据
识别模式或趋势
在数据上构建预测和统计模型
可视化和传达数据

简而言之，你正在解决问题，进行预测，优化流程，并指导战略决策。

由于很少有公司完全了解数据科学家的工作内容，你可能还会有其他责任。一些雇主希望数据科学家在其角色中增加信息安全或网络安全的职责。其他人可能希望数据科学家在云计算、数据库管理、数据工程或软件开发方面具有专业知识。准备好承担多重角色。

这份工作的重要性不在于《哈佛商业评论》将其称为21世纪最性感的工作，而在于数据的数量不断增加，很少有人知道如何将数据转化为洞见。作为一个数据科学家，你能看到树木之间的森林。

2010年至2020年全球创造、捕获、复制和消费的数据/信息量，以及2021年至2025年的预测

数据科学入门指南四海第2张

数据科学的关键概念

现在你已经有了整体的认识。让我们来看看数据科学的一些关键概念。如果你能想象出数据到洞见的流程，我会告诉你每个关键概念在哪里发挥作用。

数据处理

在流程的最开始，你有一堆混合质量的数据。有一个著名的（并不正确的）统计数据显示，数据科学家将80%的时间用于数据清洗。虽然实际情况可能没有那么高，但构建数据流程和处理数据是工作的重要组成部分。

想象一下，你是一家电子商务公司的数据科学家。在那里，数据处理可能涉及清洗和转换客户交易数据，合并和对账来自不同来源（如网站分析和客户关系管理（CRM）系统）的数据，并处理缺失或不一致的数据。

你可能需要标准化格式，删除重复项或NaN，处理异常值或错误条目。这个过程确保数据准确、一致，并且可以进行分析。

数据探索和可视化

一旦数据被整理好，现在你可以开始查看它了。你可能会认为数据科学家会立即对数据进行统计模型分析，但事实上有太多的模型可供选择。首先，你需要了解你所拥有的数据类型。然后你可以寻找重要的洞见和预测。

例如，如果你是GitHub的数据科学家，数据探索将涉及分析平台上的用户活动和参与度。你可以查看提交数量、拉取请求数量和问题数量等指标，以及用户的互动和协作。通过探索这些数据，你可以了解用户如何与平台互动，识别热门仓库，并揭示软件开发实践的趋势。

由于大多数人对图片的解析能力比表格更好，因此数据可视化也包括在数据探索中。例如，作为GitHub的数据科学家，您可以使用折线图来显示随时间变化的提交次数。柱状图可以用来比较平台上使用的不同编程语言的受欢迎程度。网络图可以说明用户或存储库之间的合作。

数据科学入门指南四海第3张

统计分析

在数据科学的数据到洞察力流程的这一阶段，前两个阶段已经完成。数据已经准备好了，您正在对其进行分析。现在是时候提取洞察力了。最后，您可以对数字应用一些统计分析。

假设您是Hello Fresh之类公司的数据科学家。您可能会运行线性回归等统计分析，以了解影响客户流失的因素，使用聚类算法根据客户的喜好或行为对客户进行分段，或者使用假设检验来确定营销活动的效果。这些统计分析有助于揭示数据中的关系、模式和重要发现。

机器学习

数据科学家的酷事在于他们可以预测未来。将数据到洞察力的流程可视化。您对过去和现在的情况有了洞察。但是您的老板可能会问：如果我们增加一种新产品怎么办？如果我们星期一关门怎么办？如果我们将一半的车队改为电动车会发生什么？

作为数据科学家，您可以凭借机器学习技术进行智能预测。例如，假设您是FedEx之类物流公司的数据科学家。您可以使用历史运输数据、天气数据和其他相关变量来开发预测模型。这些模型可以预测运输量，估计交货时间，优化路线规划，或预测潜在延误。

使用回归、时间序列分析或神经网络等机器学习算法，您可以预测增加一个新的配送中心对交货时间的影响，模拟不同运营变化对运输成本的影响，或预测特定运输服务的客户需求。

沟通和商业智能

数据科学中最重要的概念不是机器学习或数据清洗，而是沟通。您需要将这些洞察力呈现给公司的决策者，他们可能对神经网络和梯度提升算法一无所知。这就是为什么沟通和商业眼光在数据科学中都是关键概念。

想象一下，您是Meta之类公司的数据科学家。您刚刚发现用户参与度指标与客户保留率之间存在显著相关性，但您需要与不熟悉“统计显著性”概念的营销副总裁共享这一发现。您还需要熟悉客户生命周期价值（CLV），以便能够解释您的发现的相关性和重要性。

数据科学家的基本技能

我们已经介绍了数据科学的关键概念。现在让我们来看看作为数据科学家，您应该具备的基本技能。如果您有兴趣了解更多细节，我在这里还介绍了一些更具细分的数据科学家技能。

编程语言、数据查询和数据可视化

很难对技能的重要性进行排名 – 数据科学家需要一系列技能，它们都同等重要。话虽如此，如果有一项技能是您绝对不能没有的，那就是编码。

编码可以分为几个方面 – 您需要编程语言，通常是R或Python（或两者兼而有之）。您还需要数据检索和操作的查询语言，例如关系数据库的SQL（结构化查询语言）。最后，您可能需要了解其他语言或程序，例如Tableau用于数据可视化，尽管值得一提的是，现在大部分数据可视化都是使用Python或R完成的。

数学

还记得我之前提到的统计学吗？作为数据科学家，您需要知道如何进行数学运算。数据可视化只能在需要一些实际统计显著性之前发挥作用。关键的数学技能包括：

概率与统计：概率分布、假设检验、统计推断、回归分析和方差分析。这些技能能让您对数据做出准确的统计判断，并从中得出有意义的结论。
线性代数：向量和矩阵的运算，解线性方程组，矩阵分解，特征值和特征向量，以及矩阵变换。
微积分：您需要熟悉导数、梯度和优化等概念，以训练模型、优化和微调模型。
离散数学：组合数学、图论和算法等主题。您将使用这些知识进行网络分析、推荐系统和算法设计。对于处理大规模数据的算法开发非常重要。

模型管理

让我们来谈谈模型。作为一名数据科学家，您需要知道如何构建、部署和维护模型。这包括确保模型与现有基础设施无缝集成，解决可扩展性和效率问题，并持续评估模型在实际场景中的性能。

在技术方面，这意味着您需要熟悉以下内容：

机器学习库：包括Python中的scikit-learn，用于深度学习的TensorFlow、PyTorch或Keras，以及用于梯度提升的XGBoost或LightGBM。
模型开发框架：像Jupyter Notebook或JupyterLab这样的框架，用于交互式和协作式模型开发。
云平台：像亚马逊网络服务（AWS）、微软Azure或谷歌云平台（GCP）用于部署和扩展机器学习模型。
自动化机器学习（AutoML）：Google AutoML、H2O.ai或DataRobot可以自动构建机器学习模型，无需大量手动编码。
模型部署和服务：Docker和Kubernetes通常用于将模型打包和部署为容器。这些工具可以在不同环境中部署和扩展模型。此外，像Python中的Flask或Django这样的工具可以帮助您创建Web API，以提供模型并将其集成到生产系统中。
模型监控和评估：Prometheus、Grafana或ELK（Elasticsearch，Logstash，Kibana）用于日志聚合和分析。这些工具有助于跟踪模型指标、检测异常，并确保模型在时间上继续表现良好。

沟通能力

到目前为止，我们已经涵盖了“硬”技能。现在让我们思考一下您需要的“软”技能。正如我在“概念”部分中提到的，您需要具备良好的沟通能力。以下是作为数据科学家您需要进行的几种沟通的示例：

数据叙事：您需要将复杂的技术概念转化为清晰、简洁和引人入胜的叙述，以与您的听众产生共鸣，包括分析的重要性及其对决策的影响。
可视化：是的，数据可视化在沟通技能中也有其子类。除了具备创建图表的技术能力外，您还应该知道何时、何种方式以及如何谈论您的数据可视化。
合作与团队合作：没有任何一名数据科学家是独立工作的。您将与数据工程师、业务分析师和领域专家合作。要练习积极倾听和提供建设性反馈的能力。
客户管理：这并非适用于所有数据科学家，但有时您将直接与客户或外部利益相关者合作。您需要发展出良好的客户管理能力，包括了解他们的要求、管理期望，并定期向他们报告项目进展。
持续学习和适应能力：最后但并非最不重要的是，您需要随时准备学习新知识。与领域的最新进展保持同步，并愿意根据需要获取新的技能和知识。

商业眼光

这就是了解数字在您的业务背景下的重要性。例如，您可能发现星期日人们购买鸡蛋与天气之间存在重要关系。但是，这对您的业务有何影响呢？

在这种情况下，您可能进一步分析并发现星期日鸡蛋购买增加与晴朗天气相关，表明顾客更有可能在有利的天气条件下参与户外活动或举办早午餐。这种洞察力可以被杂货店或餐厅用来计划库存和促销活动。

通过将数据模式与业务结果联系起来，您可以提供战略指导和可行性建议。在这个例子中，这可能涉及到在晴朗的周末优化与鸡蛋相关产品的营销活动，或者探索与当地早午餐店的合作伙伴关系。

数据科学工作流程

数据科学家做什么？为了了解一下，让我们来看看数据科学项目中涉及的典型步骤：问题定义，数据收集，数据清洗，探索性数据分析，模型构建，评估和沟通。

我将用一个例子来说明每个步骤：在本节的其余部分，假设你是一家电子商务公司的数据科学家，公司的营销团队希望提高客户留存率。

1. 问题定义：

这意味着你要了解业务目标，明确问题陈述，并定义衡量客户留存的关键指标。

你的目标是确定影响客户流失的因素，并制定减少流失率的策略。

为了衡量客户留存，你定义了关键指标，包括客户流失率，客户生命周期价值（CLV），重复购买率或客户满意度分数。通过定义这些指标，你建立了一种可量化的方式来跟踪和评估改善客户留存策略的有效性。

2. 数据收集

收集相关的数据源，例如客户购买历史，人口统计信息，网站交互和客户反馈。这些数据可以从数据库、API或第三方来源获取。

3. 数据清洗

收集到的数据几乎肯定会包含缺失值、异常值或不一致性。在数据清洗阶段，你通过处理缺失值、删除重复值、处理异常值和确保数据完整性来预处理和清洗数据。

4. 探索性数据分析 (EDA)

接下来，通过可视化数据、检查统计摘要、识别相关性和发现模式或异常值，了解数据并理解其特征。例如，你可能会发现频繁购买的客户倾向于具有较高的留存率。

5. 模型构建

开发预测模型，分析不同变量与客户留存之间的关系。例如，你可以构建一个基于购买频率、客户人口统计信息或网站参与度指标等各种因素的机器学习模型，如逻辑回归或随机森林，来预测客户流失的可能性。

6. 评估

使用准确率、精确度、召回率或ROC曲线下面积等指标评估模型的性能。你可以使用交叉验证或训练集-测试集拆分等技术验证模型的可靠性。

7. 沟通

你有一些发现-现在与大家分享。与我们的例子保持一致，你需要能够在你工作的企业和更广泛的商业环境中智能地谈论客户流失结果。让人们关心，并解释为什么这个特定的发现很重要，以及他们应该采取什么行动。

例如，在分析客户流失后，你可能会发现客户满意度分数与流失率之间存在显著相关性。

当你与营销团队或高级管理人员分享这个结果时，你需要有效地传达其含义和可行洞察。你会解释说，通过专注于通过改进客户支持、个性化体验或定向促销来提高客户满意度，公司可以降低流失率，留住更多客户，并最终推动更高的收入。

此外，你会将这一发现置于更广泛的商业环境中。比较你公司的流失率与竞争对手。

这就是你从数据湖到真正的商业输入的过程。最重要的是，记住数据科学是迭代和循环的。在努力寻找有趣的洞察、回答商业问题和为雇主解决问题的过程中，你会重复执行这个过程的各个步骤以及整个过程。

数据科学应用

数据科学是一个广阔的领域。你可以在几乎各个垂直领域的任何规模的公司中找到从事数据科学工作的数据科学家。这是一个关键的角色。

以下是一些真实世界的例子，展示了数据科学在解决复杂问题方面的影响：

医疗保健：数据科学家分析大量医疗数据，以改善患者结果和医疗服务。他们开发预测模型，以识别高风险患者，优化治疗计划，并检测疾病爆发的模式。
金融：风险评估、欺诈检测、算法交易和投资组合管理。数据科学家开发模型，帮助做出明智的投资决策和管理金融风险。
交通和物流：数据科学家优化路线规划，减少燃料消耗，提高供应链效率，并预测维护需求。
零售和电子商务：数据科学家分析客户数据、购买历史、浏览模式和人口统计信息，开发推动客户参与、增加销售和提高客户满意度的模型。

开始学习数据科学

好的，这是很多信息。到目前为止，你应该已经清楚地了解了数据科学是什么，它是如何工作的，你应该熟悉哪些工具和技术，以及数据科学家是做什么的。

现在让我们看看在哪里学习和实践数据科学。这可以是一篇单独的文章，所以我会链接到资源列表，你可以从中开始学习。

最好的免费数据科学课程
数据科学的最佳学习资源（书籍、课程和教程）
初学者的最佳Python数据科学项目
最佳计算机科学书籍
数据科学可视化最佳实践
获取数据进行数据科学项目的最佳平台
练习关键数据科学技能的最佳平台
加入的最佳数据科学社区

总的来说，我建议你这样做：

使用本博客文章和数据科学家岗位描述制定所需技能的清单。
开始免费学习基础知识，然后寻找良好的付费平台来进一步学习。
建立项目和库的作品集。
在Kaggle和StrataScratch等平台上进行实践。
获得认证 – LinkedIn等平台提供认证，证明你具备相应的技能。
开始申请工作。
建立人脉 – 加入社区、Slack群组和LinkedIn群组，参加活动。

最终，你可以期待这个过程需要一些时间。但最终会是值得的。

就业机会和职业发展路径

尽管FAANG公司有裁员，但根据2022年《美国新闻与世界报道》，信息安全分析师、软件开发人员、数据科学家和统计学家仍然位居前十大就业岗位之列。

数据科学入门指南四海第4张

就业市场仍然火爆。公司仍然需要数据科学家。现在，如果你在找数据科学家的工作时遇到困难，请记住你不必从零开始。我建议你从更初级的职位开始，并随着时间的推移逐渐发展到数据科学家的角色。你始终可以从数据分析师、数据工程师或机器学习工程师开始。

结论

写一篇关于数据科学的简介很难，因为它是一个庞大的领域，它在不断发展，每天都会增加更多的技术和工具。如果你从这篇文章中只学到几个要点，那就是：

数据科学采用多学科方法。你需要掌握统计学、机器学习、编程和领域专业知识等多个领域的技能。学习永无止境。
数据科学是迭代的。它非常注重过程，但你可以期望在继续进行的过程中重复、优化和更新你的过程。成功和快乐的数据科学家接受实验。
软技能至关重要。你不能只是一个Python高手；你需要用故事、数字和图片向非技术利益相关者传达发现和见解。

希望这篇文章给你一个起点。数据科学是一条有回报和具有挑战性的职业道路。如果你学习这些技能并努力应用，你将能够很快加入这个领域。 Nate Rosidi 是一位数据科学家和产品策略家。他还是一名兼职教授，教授分析学，并是StrataScratch的创始人，该平台通过真实的面试题目帮助数据科学家准备面试。在Twitter上与他联系：StrataScratch或LinkedIn。