Press "Enter" to skip to content

21份必备的数据科学面试备忘单:揭示通往成功的路径

本文研究并呈现了来自互联网上最好的数据科学备忘单,让您不必自己查找

21份必备的数据科学面试备忘单:揭示通往成功的路径 数据科学 第1张

由于数据科学是一个如此广泛且不断发展的领域,要在脑中拥有所有知识实在是不可能的。特别是对于一些你偶尔使用的知识。此外,如果你是某个领域的新手,你需要经常刷新你所学的知识,直到它变成理论和实践的实际知识。

拥有一些可以一目了然地获取所需信息的东西肯定会很有帮助,对吧?那个“东西”叫做小抄。它与作弊没有任何关系。它们用于学习和复习你已经知道的知识。

由于它们的意图是(相对)简洁和高级,拥有一个覆盖整个数据科学的小抄将打败它(小抄的,而不是数据科学的)的目的。即使创建这样一个小抄是可能的。因此,你将不得不为各种数据科学领域使用不同的小抄。

我试图把这缩小到涵盖数据科学家无法没有掌握的概念的小抄。你可以把它看作是关于谈论小抄的小抄,其中包括:

  • 编程语言
    • SQL
    • Python
    • R
  • 算法和模型
  • 数据结构
  • 数据可视化
  • 概率和统计
  • 数据操作

编程语言

了解编程语言是构建数据科学所有其他部分的基础。在数据科学社区中特别受欢迎的是编程语言的“三位一体”:

  • SQL
  • Python
  • R

SQL

专门用于查询数据库的语言,SQL在数据提取和操作方面是一流的。

小抄:SQL基础小抄

链接:https://learnsql.com/blog/sql-basics-cheat-sheet/

内容:这个小抄专注于让你从头开始编写功能性的SQL查询。为此,你需要熟悉某些概念。这些概念包括查询单个表、过滤数据以及使用JOIN查询多个表。还涵盖了聚合函数、子查询和集合运算符(UNION、INTERSECT、EXCEPT)。

除了简短解释每个概念外,小抄还给出了一个基于样本数据的查询,以向你展示如何在实践中运作。

小抄也可下载为PDF或PNG格式,方便打印和随身携带。

小抄:初学者的SQL关键命令小抄

链接:https://itechbrand.com/the-essential-sql-commands-cheat-sheet-for-beginners/

内容:与前一个小抄不同,此小抄没有代码和数据示例。它只是列出了每个人都需要知道的SQL命令。当你想提醒自己某个关键词的作用时,这非常好。它还涵盖了其他主题,如创建和编辑表、约束、数据、触发器、视图和常见表达式(CTE)。

小抄:SQL小抄-面试中的技术概念

链接:https://www.stratascratch.com/blog/sql-cheat-sheet-technical-concepts-for-the-job-interview/

内容:针对面试中做得好的最关键的SQL概念,这个小抄涵盖了JOIN、时间和日期函数、聚合函数、窗口函数和集合运算符。

每个技术主题和子主题都简要地解释了口头和使用易于理解的图形表示。此外,还有一个涉及相关问题和解决方案代码的面试问题。代码显示在小部件中,所以你可以玩弄它,使它成为一个交互式的小抄。

Python

Python是数据科学中最常用的编程语言之一。它在所需的所有领域都表现出色。它真正做到了从数据提取和操作、统计分析和数据可视化到机器学习、模型部署和自动化等各个方面。

速查表: Python 速查表

链接: https://websitesetup.org/python-cheat-sheet/

内容: 这个非常全面且非常清晰的速查表非常适合任何想要在Python中开始工作的人。 它解释了Python中的主要数据类型,包括创建和存储字符串以及对数据进行数学运算。 您还将了解内置函数、创建函数、列表、元组和字典。

速查表还介绍了条件语句、Python循环、类,甚至处理Python错误的概述。

您可以以PDF或信息图(PNG)格式下载速查表。

速查表: Python 速查表

链接: https://programmingwithmosh.com/wp-content/uploads/2019/02/Python-Cheat-Sheet.pdf

内容: 这个速查表与上面的速查表非常相似。 主要涵盖相同的主题,但详细程度较低。 解释很好,非常适合初学者掌握Python的基础知识。

速查表可在PDF中下载。

速查表: 全面的 Python 速查表

链接: https://github.com/gto76/python-cheatsheet

内容: 尽管初学者也可以使用此速查表,但它涵盖的主题比基本水平需要的主题多得多。 这里没有太多的讲话。 作者介绍了主题,列出了关键字,并简要解释了它们。 它还提供了示例代码及其返回内容。

涵盖的主题包括集合、类型、语法、系统、数据、高级和库。 然后,每个主题都分为子主题,使得这个速查表可能是大多数Python用户所需的唯一速查表。

R

R编程语言比Python不太灵活,因此不适合模型部署。 它是为统计分析和数据可视化而创建的。 这不是它的唯一目的,因为它还被广泛用于数据提取和操作、机器学习和自动化。

速查表: RStudio 速查表

链接: https://www.rstudio.com/resources/cheatsheets/

内容: 这些资源可能是您在R速查表方面所需的唯一资源。 有大量的速查表和涵盖的主题。 用户提供了涵盖基本和高级R的速查表。

基本R速查表介绍了向量、编程、数据类型、数学函数、统计和其他主题。

高级R速查表对于那些对环境、数据结构、面向对象系统、函数、子集、调试、条件处理和防御性编程感兴趣的人将是有用的。

您可以在源网站上找到更多专门关于特定R主题的速查表。例如,处理日期时间、字符串、数据转换、整理、可视化、深度学习等。

数据结构

21份必备的数据科学面试备忘单:揭示通往成功的路径 数据科学 第2张

数据科学家必须熟悉数据结构作为组织和存储数据的一种方式。 机会是你不会一直使用所有可能的数据结构。 当使用您没有经常使用的数据结构时,速查表可以为您提供有关所讨论的数据结构的一般想法。

速查表: 数据结构参考

链接: https://www.interviewcake.com/data-structures-reference

内容: 它列出了所有数据结构的简短定义和视觉表示,非常适合快速参考。 如果您想要有关每个数据结构的更多详细信息,可以单击该数据结构并获取详细信息,例如每个数据结构的优点和缺点、插入和删除的工作方式以及其特定特征的解释。

速查表: 用于面试的可执行数据结构速查表

链接: https://algodaily.com/lessons/an-executable-data-structures-cheat-sheet

内容: 这个速查表也会为您提供有关所有数据结构的解释,它们的优点和缺点以及值得注意的用途。 速查表提供了更多有关学习每个数据结构的资源。

此外,每个数据结构都有JavaScript、Python和Java的示例代码,您可以运行并查看其返回值。还有一个视频,引导您完成完整的数据表,并帮助您更好地理解它。

数据操作

数据操作、修改或整理是将原始数据转换为可用于进一步分析和处理的格式的过程。在数据科学中,这通常通过Python及其库pandas完成。

速查表:数据科学的Pandas速查表

链接:https://datascientyst.com/pandas-cheat-sheet-for-data-science/

您将获得:这个速查表非常适合初学者,它向您展示了pandas的主要命令的代码,并解释了每个代码将返回什么。所涵盖的主题是pandas设置、数据结构、数据导入和导出、数据检查和选择。您还将学习如何添加和删除行/列、排序、过滤、分组、转换、合并和连接数据以及应用函数。每个主题都附有易于理解的图形表示。

速查表:Pandas速查表

链接:https://geekyhumans.com/pandas-cheat-sheet/#Making-changes-to-the-data

您将获得:它通常涵盖与上一个速查表相同的所有主题。不同之处在于,主要通过展示代码及其输出来解释,而不仅仅是解释。

速查表:使用Pandas进行数据整理的速查表

链接:https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf

您将获得:一个专门致力于数据整理的详细速查表。它涵盖了创建数据框、方法链接、重塑数据、处理行和列、使用查询、汇总和分组数据、处理缺失数据、创建新列、组合数据集、使用窗口和绘图。每个主题都经过视觉解释和简短描述,每个pandas关键字都展示了使用代码及其输出。

数据可视化

21份必备的数据科学面试备忘单:揭示通往成功的路径 数据科学 第3张

可视化数据是数据科学家工作的重要部分。从某种意义上说,它是将只有其他数据科学家能够理解的内容,也能让“普通”人理解的点。它可以是数据分析或模型见解的可视化。无论是哪种情况,速查表都可能会很有用。

速查表:数据可视化速查表

链接:http://www.biosci.global/customer-stories-en/data-visualization-cheat-sheet/

您将获得:这是数据可视化中使用的图表的良好概述。除了每种图表类型,还有一个简短的解释,说明它代表什么,并显示它的图像,因此您可以轻松地可视化每个图表的外观。

此外,还有一个可视化概述,介绍选择正确图表的标准。

速查表:数据可视化速查表

链接:https://www.kaggle.com/getting-started/160583

您将获得:这里没有图表的解释。但是,所有图表在此处都以视觉方式表示,并根据它们在数据可视化中的用途分成多个部分。非常适合初学者和任何想要快速检查自己选择了正确图表的人,并且是否有更好的选择。

速查表:数据可视化速查表

链接:https://medium.com/responsibleml/data-visualization-cheat-sheets-1c12ba8a7671

您将获得:这里有几个围绕制作好图表的主题的速查表。它不仅仅讨论选择正确的图表。速查表更深入地探讨了如何在地图上呈现数据,选择正确的颜色(包括视力受损人士的颜色),使图表更易读,选择图表的轴以及表示时间线。所有速查表均可在PDF中下载。

统计学和概率

对于任何数据科学家来说,广泛的统计学知识,特别是概率,是必不可少的。他们几乎在工作的每个环节中都使用它:从数据分析到模型构建、测试和评估。由于统计学是一门广泛的学科,你可能只会在工作中使用其中的一部分。对于那些你不熟悉或不经常使用的统计学主题,你需要一张好的备忘单来帮助自己。

备忘单:数据科学面试的综合统计备忘单

链接:https://www.stratascratch.com/blog/a-comprehensive-statistics-cheat-sheet-for-data-science-interviews/

内容:这份备忘单涵盖了大多数数据科学家所需的所有统计学主题。这些主题包括置信区间、假设检验、Z统计量和T统计量、A/B测试、线性回归、概率规则、贝叶斯定理以及组合和排列。其中包含了所有这些概念的详细解释,包括公式、图形表示和示例。

备忘单:最全面的统计备忘单

链接:https://terenceshin.medium.com/week-2-52-stats-cheat-sheet-ae38a2e5cdc6

内容:通常涵盖了一个或两个主题,与前一个备忘单不同的是,这里的大多数统计概念都不同。它们包括数据类型、中心趋势度量(平均数、中位数、众数)、变异度量(范围、方差、标准差……)、变量之间的关系测量(协方差和相关性)、概率分布函数、连续和离散数据分布、矩和准确度。

备忘单:统计备忘单

链接:https://web.mit.edu/~csvoss/Public/usabo/stats_handout.pdf

内容:这份备忘单通常不涵盖前两个备忘单中没有的任何内容。但是,除了理论解释之外,这份备忘单还提供了非常详细的示例,这些示例肯定会让你理解所讨论的概念。

算法和模型

所有前面提到的主题通常作为最终数据科学家任务的基础:编写算法和创建模型。这就是统计学和编程知识与寻找有用的算法和模型备忘单的知识相遇的地方。

备忘单:前景算法

链接:https://blog.dataiku.com/machine-learning-explained-algorithms-are-your-friend

内容:这份备忘单用通俗易懂的语言解释了机器学习以及最流行的算法,包括线性和逻辑回归、决策树、随机森林、梯度提升和神经网络。一个非常好的特点是每种算法的信息图,包括其优点和缺点。

备忘单:您的终极数据科学统计和数学备忘单

链接:https://towardsdatascience.com/your-ultimate-data-science-statistics-mathematics-cheat-sheet-d688a48ad3db

内容:详细解释了机器学习度量标准。它涵盖了分类器度量标准、回归器度量标准、统计指标和分布类型。解释详细,具有清晰的图形表示、公式和示例。

备忘单:机器学习模型备忘单

链接:https://medium.com/analytics-vidhya/machine-learning-models-cheatsheet-7885b33ca44f

内容:同样,这是一个非常详细的备忘单,重点关注机器学习算法。解释详细,包括示例,最重要的是构建每种算法的步骤。作者涵盖了以下主题:多元线性回归、决策树回归、逻辑回归、朴素贝叶斯分类器、二元分类器性能评估、ROC曲线、支持向量机(SVM)、随机森林、k均值聚类、k最近邻、分层聚类、主成分分析(PCA)、线性判别分析(LDA)、处理文本数据、排名算法。

结论

在本文中,我涵盖了编码、数据结构、数据操作、数据可视化、统计和概率以及模型和算法。当然,这并不是你作为一名数据科学家应该掌握的所有主题。但它们是大多数数据科学家在职业生涯中需要掌握的主题。

我建议的速查表是一个缩小了范围的好速查表列表,我认为它们最好地涵盖了所讨论的主题。它们在大多数情况下都能帮到你,并且我认为它们至少是一个很好的起点。

Nate Rosidi是一位数据科学家和产品战略师。他还是一名兼职教授,教授分析学,并是StrataScratch的创始人,该平台通过来自顶级公司的真实面试问题帮助数据科学家准备面试。在Twitter上与他联系:StrataScratch或LinkedIn。

Leave a Reply

Your email address will not be published. Required fields are marked *