Press "Enter" to skip to content

数据分析的职业趋势:第二部分

由Andrea De Mauro和Mahantesh Pattadkal撰写

接上篇博客系列“数据分析工作趋势”,我们将继续探索数据分析工作趋势以及自然语言处理(NLP)的作用。

在上篇博客中,我们介绍了“数据分析工作趋势”应用程序,该应用程序旨在收集数据并应用NLP进行分析,使用KNIME分析平台提供支持。我们讨论了用于收集有关数据分析就业市场的实时数据的网络爬取阶段,然后介绍了使用NLP技术清理数据的过程。然后,我们引入了一个主题模型,揭示了职位发布中的七个相似技能集。这些技能集代表了各个行业招聘数据分析专业人员所寻求的能力和活动。

在博客系列的第二部分中,我们将描述已经确定的技能集,并对数据科学职业的不断发展进行一些数据支持的考虑。

主题及其描述

为了给这些技能集贴标签,我们使用LDA算法在职位发布中发现的最常见术语和权重。我们进一步分析每个主题中的职位描述,以突出关键活动、必备技能以及它们最常见的行业。了解这些主题可以帮助求职者将自己的技能与市场需求保持一致,并增加他们在数据分析领域获得合适职位的机会。在下面的段落中,您将找到每个技能集的简要描述。

主题 0: 研究和数据分析

以下表格显示了主题 0 的前五个术语及其权重。这些权重表示该术语在定义特定主题时的重要性。根据这些术语和标记为主题 0 的文档,我们解释这个技能集为“研究和数据分析”。

术语 权重
研究 4510
职位 4195
信息 4112
健康 3404
大学 2118

表 0: 主题 0 的术语权重

这个技能集包括进行研究、分析数据和提供驱动决策的见解等活动。作为数据分析的基石,这个技能集有助于从数据中提取有价值的见解、识别趋势并做出明智的决策。从我们在职位发布的语料库中收集到的信息来看,与这个技能集相关的基本能力要求包括:

  • 强大的分析和解决问题的能力
  • 熟练使用统计软件(R、Python)
  • 熟悉数据可视化工具
  • 有效的沟通和文档编写能力
  • 相关领域背景(数学、统计学或数据科学)

主题 1: 管理与客户支持

通过查看表 1 中的术语和权重以及与主题 1 关联的文档,我们决定将其标记为“管理与客户支持”。这个技能集涉及管理客户互动、提供行政支持,并协调物流或采购流程。

术语 权重
支持 2321
管理 2307
信息 2134
职位 2126
顾客 1909

表1:主题1的术语权重

根据我们的观点,取得成功所需的基本能力包括:

  • 强大的组织和时间管理能力
  • 注重细节
  • 熟练使用办公软件和沟通工具
  • 出色的人际关系和问题解决能力

主题2:市场营销与产品管理

根据表2中展示的术语,我们将其解释为“市场营销与产品管理”技能。

术语 权重
业务 8487
团队 8021
产品 6825
顾客 3923
市场营销 3740

表2:主题2的术语权重

该技能集围绕着制定营销策略、管理产品生命周期和推动市场增长展开。在数据分析相关工作中至关重要,因为它使专业人员能够利用基于数据的洞察力对市场趋势、顾客偏好和产品表现做出明智决策。

市场营销与产品管理技能集所需的基本能力包括:

  • 强大的分析和战略思维能力
  • 市场调研和竞争情报方面的专业知识
  • 熟悉营销工具和平台
  • 出色的沟通和领导能力
  • 具备商业、市场营销或相关领域的背景

主题3:业务管理、数据治理和合规性

根据表2中展示的术语,我们得出结论,它指的是“业务管理、数据治理和合规性”技能集。

该技能集涵盖了监督业务运营、确保数据质量和安全性以及管理风险和符合法规要求。在数据分析密集型的工作中,该技能集能够利用基于数据的洞察力维护数据完整性、监测合规性、识别风险并优化业务流程。

术语 权重
业务 14046
管理 10531
团队 5835
分析 5672
项目 4309

表格 3:主题 3 的术语权重

根据我们的研究结果,这个技能集中所需的核心能力包括:

  • 强大的组织和领导能力
  • 数据管理、数据治理和风险评估方面的专业知识
  • 了解监管框架和行业标准
  • 有效的沟通和解决问题的能力
  • 具有商业、金融或相关领域的背景

 

主题 4:商业智能和数据可视化

 

根据我们在主题 4 中找到的术语,我们将其称为“商业智能和数据可视化”技能集。

该技能集涉及设计仪表盘和报告等常驻的商业智能解决方案,创建富有洞察力的可视化内容,以及分析数据以支持明智决策。它在利用数据分析的工作中起到关键作用,将原始数据转化为可行动的见解,推动战略决策。

术语 权重
商业 19372
分析 7687
Power BI 7359
智能 7040
SQL 5836

表格 4:主题 4 的术语权重

根据我们的观点,商业智能和数据可视化的基本能力要求包括:

  • 强大的分析和问题解决能力
  • 精通商业智能工具(如Power BI、Tableau、SQL)
  • 熟悉数据可视化技术
  • 有效的沟通和叙述能力

 

主题 5:数据仓库和云基础设施

 

根据表格 5 中显示的术语,我们将其解释为“数据仓库和云基础设施”技能集。

需要云和大数据工程技能的职位通常涉及设计和实施基于云的解决方案、管理大规模数据处理和开发软件应用。它在以数据分析为重点的工作中至关重要,实现对大数据量的高效处理和分析,获得有价值的见解。

 

术语 权重
开发 4525
3998
工程 3692
软件 3510
设计 3494

表格 5:主题 5 的术语权重

根据我们的观点,与数据仓库和云基础设施相关的基本能力要求包括:

  • 强大的编程和问题解决能力
  • 精通云平台(如AWS、Azure和Google Cloud)
  • 熟悉大数据技术(如Hadoop、Spark和NoSQL数据库)
  • 了解信息安全政策及相关流程

 

主题 6:机器学习

根据表6中显示的术语,我们将其解释为“机器学习”技能集,围绕设计AI模型、研究尖端的ML技术和开发智能软件解决方案展开。在数据分析密集型工作中,它构成了AI模型训练和性能优化的基础。

术语 权重
机器 9782
科学 8861
研究 4686
计算机 4209
Python 4053

表6:主题6的术语权重

根据我们的研究结果,今天在机器学习中所需的基本能力包括:

  • 良好的编程和数学能力
  • 精通机器学习框架(如TensorFlow、PyTorch)
  • 熟悉高级AI技术(如深度学习和自然语言处理)
  • 有效的沟通和协作能力

技能集和专业概况

本篇文章将重点分析通过主题建模在三个不同的专业概况中显示的技能关联性。这三个专业概况分别是数据工程师、数据分析师和数据科学家。为了将这些专业概况与职位需求对齐,我们利用了基于规则的分类器。该分类器根据在职位标题中发现的关键词确定了职位列表的专业概况。例如,职位发布标题为“数据架构师”的职位将被归类为数据工程师角色,而标题为“机器学习工程师”的岗位将被归入数据科学家类别。

使用潜在狄利克雷分配(LDA)主题建模为每个职位提供了涵盖七个不同技能集的主题权重。通过计算每个职业概况中每个技能集的平均权重,我们得到了每个角色特定的平均技能集权重。值得注意的是,这些权重经过归一化并表示为百分比。

如图1所示,我们提供了一个深入的可视化,展示了专业设计ations与相应技能集之间的相互关系。这个可视化总结了雇主对数据工程师、数据分析师和数据科学家的关键能力的期望。

如预期的那样,数据工程师的角色主要需要掌握“数据仓库和云基础设施”技能集。此外,对可视化和机器学习的补充了解是必不可少的。这种对技能多样性的强调可以归因于数据工程师将在支持数据分析师和数据科学家方面起到重要作用的预期。

相比之下,数据科学家所需的主要专业知识集中在“机器学习”上,紧随其后的是对“研究”方法的熟练掌握。值得注意的是,“商业管理”和“产品管理”也在重要性上排名较高的混合技能集。这体现了就业市场对有抱负的数据科学家所寻求的复杂能力的期望。

将注意力转向数据分析师领域,一个关键要求是精通“商业智能和可视化”。考虑到他们在生成商业报告、驱动仪表板和监控业务活力方面的角色,这并不令人意外。作为次要关键技能,对“商业管理”的并行需求反映了这个角色所期望的战略眼光。此外,与数据科学家角色类似,在数据分析师领域还需要“产品管理”和“研究”能力。

总结起来,这项探索突显了不同数据分析角色所需的技能预备的细致复杂的景观。它展示了雇主对于有志于在数据工程师、数据分析师和数据科学家能力方面取得卓越的候选人的多方面期望。

数据分析的职业趋势:第二部分 四海 第1张图1:雷达图显示了专业概况与显示在维度中的技能集之间的关联(点击放大)。

结论

我们对数据分析领域不断扩大的职位发布进行分析,旨在基于不同的技能集对职位进行分类,并明确每个类别所需的多样化能力范围。随着这一领域的指数级增长以及决策基于数据的重要性,数据的收集、存储和分析过程取得了显著进展,导致对熟练掌握数据分析技能的专业人员需求不断增加。

通过将职位发布分类为七个显著的技能主题,我们揭示了在这个快速变化的领域中,专业化技能和多面手技能的必要性。这些主题涵盖了数据分析和商业智能,以及机器学习和人工智能,突显了需要擅长数据、技术和跨职能团队合作的人才的大量需求。

尽管如此,这项研究有几个局限性。职位市场的动态性和新技术、新方法的出现要求我们对我们在这里进行的分析进行持续更新,而不是静态的“快照”视图。此外,鉴于依赖研究时的可用职位发布情况,我们的方法可能未捕捉到数据分析领域的各种职位角色和技能的每个细微之处。

我们的所有工作都可以在KNIME社区公共空间-“职位能力应用程序”上免费获取。您可以下载和使用工作流程尝试并自行发现并扩展或改进。

  

下一步是什么?

展望未来,我们看到了这项研究的巨大扩展潜力。这包括开发KNIME组件来实现第1部分中描述的“停用短语去除”方法,并在KNIME中创建一个人机交互式可视化框架。这样的框架将简化人类在选择给定语料库最连贯的主题模型时的判断过程,增强了我们工作的扩展性。我们还设想将LLM辅助机制应用于支持和简化主题建模阶段:这种情况肯定为进一步的实验和研究留出了空间。

数据分析领域的专业人士必须在新兴技术面前保持信息灵活和适应能力,以确保他们的技能在数据驱动决策的不断变化的环境中保持相关和有价值。通过识别和培养与确定的主题相关的技能,求职者可以在这个充满活力的市场中获得竞争优势。为了保持在该领域的相关性,数据分析专业人员必须在整个职业生涯中保持好奇心并持续学习。

  Mahantesh Pattadkal在数据科学项目和产品咨询方面拥有超过6年的经验。他拥有数据科学硕士学位,在深度学习、自然语言处理和可解释机器学习方面展示出色的专业知识。此外,他积极与KNIME社区合作进行数据科学项目。

****[Andrea De Mauro](https://www.linkedin.com/in/andread/)****在跨国公司,如宝洁和沃达丰,拥有超过15年的建立业务分析和数据科学团队的经验。除了他的企业角色,他还在意大利和瑞士的多所大学教授市场分析和应用机器学习课程。通过他的研究和撰写,他探索了数据和人工智能的商业和社会影响,并坚信更广泛的分析素养将使世界更美好。他最新的书籍是由Packt出版的《轻松学习数据分析》。他入选了CDO杂志2022年全球“四十岁以下”榜单。

Leave a Reply

Your email address will not be published. Required fields are marked *