你可能会遇到很多关于如何成为一名数据科学家的综合文章。它们提供了很多好的信息,但可能会让人感到压倒性。特别是作为一个初学者,你只想知道你需要知道什么并开始动手。
这正是这篇博客要讲的内容。我将介绍成为一名数据科学家所需的10项硬技能。
开始吧…
编程语言
如果你不会任何一种编程语言,你的第一步将是学习如何编程。我推荐你学习Python,因为它被认为是数据科学最流行的编程语言。
其他你可以学习的数据科学编程语言包括R、SQL、Julia等。
数学
有些人说在编程的世界里你不需要数学。但我相信这是完全错误的。我参加了一个没有涉及数学方面的训练营,我明确意识到这在我在这个领域的熟练程度上产生了很大的弱点。
在数据科学中,你需要学习的数学包括线性代数、线性回归、概率和统计学。学习数据科学背后的数学将对你的数据科学职业发展产生很大的益处,并得到雇主的关注。
学习数学可能会让人紧张,所以我完全理解你的犹豫。阅读《如何克服数学恐惧并学习数据科学的数学》可以缓解你的担忧。
集成开发环境(IDE)
集成开发环境(IDE)是一种具有综合环境的软件应用程序,其中包含了专门用于软件开发的工具和功能的组合。IDE可以帮助你执行数据分析、可视化和机器学习任务。选择适合你的IDE更多取决于你的个人喜好,例如:
- Jupyter Notebook
- Google Colab
- Visual Studio Code
- PyCharm
- RStudio
你的IDE是你学习编程语言、学习数学和下面所有内容的地方。Jupyter Notebook和Visual Studio Code是我最喜欢的!当你找工作时,这些也将非常有益,因为雇主们希望你了解流行的IDE。
库
多年来,编程变得更加容易,这要归功于各种各样的库的可用性。这些库是你可以用来简化数据分析和机器学习过程的工具。
如果你决定学习Python,这些是我建议你学习的库:
- NumPy
- Pandas
- Matplotlib
- Seaborn
- Scikit-Learn
- TensorFlow
- PyTorch
- NLTK(自然语言工具包)
- Beautiful Soup
- Scrapy
我在一开始就提供这个库列表的原因是,当你在学习数据科学的过程中,你会经常遇到这些库。了解它们各自提供的功能,你将会看到在哪些地方可以应用它们。例如,Matplotlib可以用于数据可视化。
数据转换
字面意思就是转换你的数据。数据转换是数据科学家的一个重要阶段,因为你将花费大量时间将原始数据进行修改、调整和转换,使其成为可用于分析和其他任务的格式。
你需要学习的内容包括归一化、标准化、缩放、特征工程等。
你可以阅读一篇文章:《数据转换:标准化 vs 归一化》
数据可视化
数据可视化是数据科学的重要组成部分,因为您需要能够以编码以外的多种方式传达您的发现。并非您团队中的每个人都具备技术倾向,因此以可视方式呈现您的发现将有助于决策过程。
阅读一下:数据可视化最佳实践和资源,以实现有效的沟通
机器学习
您接下来想要学习的是机器学习。机器学习涉及许多方面,您可能无法成为所有方面的专家,但在这个领域内全面掌握一些基本知识仍然是很重要的。准备好迎接学习的海洋吧,因为有很多知识需要掌握。
您需要从监督学习、无监督学习、分类和回归任务等基本概念开始学习。一旦您对这些概念有了很好的理解并能够区分它们,您将希望了解更多关于不同机器学习算法的知识,例如支持向量机和神经网络。
了解机器学习模型后,您还需要学习:
- 构建机器学习模型
- 模型评估
- 部署
- 模型可解释性
- 过拟合和欠拟合
- 超参数调优
- 验证和交叉验证
- 集成方法
- 降维
- 正则化技术
- 梯度下降
- 神经网络和深度学习
- 强化学习
正如我所说,这个领域有很多知识需要学习,所以我建议您花时间进行实践!
这里有一篇文章可以帮助您:提升机器学习技能的前15个YouTube频道
大数据工具
拥有所有这些知识是很棒的,但一些工具可以使您的数据科学职业更上一层楼。了解不同的技术、它们的用途以及优缺点将使您的数据科学之旅更加高效。
有很多工具和技术可以为任何与数据工作的人提供巨大的好处。然而,我将列出一些受欢迎的工具,例如Apache Spark、TensorFlow、PyTorch、Hadoop、Tableau、Git等。
云计算
云计算是数据科学的一个非常重要的组成部分,因为您将在项目中进行的所有任务都将转化为产品。云计算服务提供可扩展的存储和计算能力,并提供易于访问的工具和服务。
您需要了解亚马逊云服务、微软Azure和Google云平台等云平台。您还需要了解数据存储、数据库、数据仓库、大数据处理、容器化和数据管道等云计算方面的知识。
阅读一下:
- 云计算入门指南
- 如何通过云计算高效扩展数据科学项目
项目
我将把项目作为您需要掌握的最后一个硬技能,因为项目可以展示您掌握了以上所有知识。不要仅仅因为想在简历上写上一堆项目而去做很多项目。是的,这是最终目标,但确保您充分理解您的项目。
在面试中,您将被问及您的项目,包括各个方面的细节,您需要准备充分,尽可能多地了解您的项目。利用您的项目展示您的技能,以及您如何确定自己的弱点并改进它们。
阅读一下:
- 初学者的5个数据分析项目
- 数据科学作品集的5个高级项目
总结
我尽量让本文尽可能简洁,以免让您感到不知所措。我希望我成功地为您提供了足够的细节和资源,以便您可以开始您的数据科学之旅!
请留意数据科学家所需的软技能的第二部分。Nisha Arya是一名数据科学家、自由撰稿人和VoAGI社区经理。她特别关注提供数据科学职业建议、教程以及与数据科学相关的理论知识。她还希望探索人工智能在延长人类寿命方面的不同方式。作为一名热心学习者,她希望扩展自己的技术知识和写作能力,并帮助指导他人。