Press "Enter" to skip to content

数据分析入门:谷歌方法

提问分析和行动

Image by Adam Satria (Unsplash)

大公司的数据分析往往是混乱的。

数据通常是难以捉摸的,在公司的各个角落隐藏着,需要软技能和类似福尔摩斯的调查才能找到并将其集成在一起。

有着强大的数据治理堡垒来保护公司和其客户,但却使您摆脱难以触及数据的困扰。在这里,谈判和软技能很重要。

如果所有这些还不够有挑战性,你需要集中那些技术切入点以进行有效的分析,并掌握数据叙事艺术,以便销售数据洞察的影响。

Reality of skillsets needed. Image by author

在澳大利亚最大银行之一担任数据科学家和工程师五年后,我发现在线课程并不能充分准备学生应对企业分析的现实。

我想在这篇文章中解决三个问题。

对于那些…

  1. 很少行业经验的人-我将分享我在银行进行典型数据分析项目的端到端体验,包括缺点。
  2. 学习数据分析-我们将在Excel中执行基本的数据透视分析,并得出可视化的见解。数据集包括!
  3. 正在寻找数据分析流程的人-我将采用Google自己的六个阶段流程,适用于当代数据分析师:提问准备处理分析分享行动
From descriptive analysis to predictive modelling. Image by author

让我们开始吧。

1. 提问

与学术界不同,行业中的分析是由商业需求驱动的。

利益相关者试图解决什么问题?您的分析通常将使公司能够更好、更快或更便宜地做某些事情。

我的银行:在我的银行业中,这是一些典型的问题。

  • 如何更好地识别欺诈交易?
  • 什么因素导致客户流失?
  • 客户满意度的关键驱动因素是什么?
  • 信用卡支出的关键因素是什么?
  • 我们如何优化我们的贷款批准流程,使其更快但仍然及时?

我们将与业务利益相关者合作,提出正确的问题定义问题制定攻击计划

我们将利用一些领域专业知识,考虑整个问题,以便正确把握情况。

我们将在整个项目期间与这些利益相关者保持开放的沟通渠道。

所需技能:项目和利益相关者管理;领域专业知识。

练习

假设您在一家向澳大利亚和新西兰客户销售各种商品的小型在线零售商工作。您的老板想了解雨伞的销售业绩:

“哪些月份销售最佳?”

“澳大利亚和新西兰的哪些地区最受欢迎?”

太好了!你有些需要深入研究的重要问题。

2. 准备

现在业务需求促使数据需求出现。

我们需要为分析准备数据,以驱动回答业务问题的洞察力。(哇,这真是一大堆话!)

  • 我们需要哪些数据?它们位于哪里?它们是操作数据还是分析数据?操作数据在哪些源系统中?分析数据是否位于数据仓库或数据湖中?
  • 我们可以使用哪些工具来访问数据?您可以使用类似于Teradata Studio的工具访问由仓库供应商Teradata托管的SQL数据库。您可以在Microsoft Azure Cloud上托管大数据的情况下使用Azure Synapse Analytics。您可以使用Excel或Power BI处理较小的表格,特别是那些足够小,可以下载到您的本地计算机。如果需要从所有这些来源中连接数据集,该怎么办?也许可以使用Dataiku等数据科学工作台。
  • 我们需要遵守哪些治理流程?谁拥有数据?如果数据包含敏感客户信息,我们需要哪些批准才能访问它?如何保证其安全性?谁将拥有正在创建的数据血统?

在治理方面,我所在银行的数据发现项目通常需要获得众多利益相关者的支持,他们都有自己的利益和关键绩效指标:

  • 业务 – 显然!他们首先委托了我……
  • 架构 – 该项目所需的模式是否与银行的战略技术方向相一致?或者我的工作主要是一种临时的临时解决方案,将在以后停止变得有价值?我的团队将是否会为技术债务做出贡献?
  • 数据平台 – 我们是否拥有实现该项目目标的数据和工具服务?它是否与我们的资金限制相一致?
  • 治理 – 访问和使用数据需要哪些文件?是否存在隐私和道德问题?
  • 风险 – 存在哪些数据风险?响应控制措施是什么?如何保护敏感数据?

所需技能:了解公司的企业数据架构;数据建模;熟练掌握不同平台和工具;能够协调各方利益。

练习(续)

假设在线业务的聚合销售数据存储在CRM平台中,并可在此处下载到您的笔记本电脑。

以下是它在Excel中的样子。

Image by author

3. 处理

啊,有趣的部分。

数据整理!

在数据处理阶段,您将清理数据并使其准备好进行分析。

这包括解决数据质量问题,例如重复和缺失数据,并决定如何处理类似于无关数据和异常值的问题。

我的银行:在大型组织中,几乎不可能消除数据质量问题。

由于太多人和来源系统创建了太多数据,因此存在大量技术债务来自为特定项目构建的专门数据管道,这些管道创建了不可重用的冗余数据资产。

在2020年代,全球采用的解决方案是从以项目为导向的思维方式转向以产品为导向的思维方式,将数据视为高质量可重用的产品。

同时,由于将大量工作集中在过度负担的集中式数据团队上,数据湖遇到了瓶颈问题,这些团队是数据工程专家而不是数据领域专家。

然而,专业的数据工程师为数据分析师和数据科学家构建ETL管道的好处是可以识别并解决大量数据问题。

所需技能:数据整理。

练习(续)

现在是你准备分析电子表格的时间。

由于你要查看雨伞销售量的受欢迎程度(即销售量是最重要的),我建议你隐藏像销售价格和制造成本这样的列。

作者提供的图片

接下来,你可以仅筛选出雨伞销售量,因为这才是你的老板关心的事情!

作者提供的图片

哎呀,我们已经可以看到一些数据质量问题了,你可以直接在电子表格中进行修复。

理想情况下,数据质量问题是通过代码进行自动化处理的,因为人工努力对于大型数据集之外的任何事情都是不可靠的。

谢天谢地,这个练习的数据集很小。

作者提供的图片

解决这些问题后,你的数据集就可以进行分析了。

4. 分析

现在是有趣的时候。

当然,在线课程都关注的部分就是分析!

主要目标是找到解决业务问题的模式、关系和趋势

你将理解数据并尝试揭示其中潜在的价值。

我的银行:我们拥有卓越的分析口袋,其中包括进行高级分析和预测建模的数据科学小组。这包括使用传统的Python笔记本进行机器学习原型设计,或使用新型无代码ML平台在整个组织中实现高级功能。

作者提供的图片:AI、大数据和数据科学的世界交汇。

然而,绝大多数组织的数据成熟度水平更接近描述性分析,这意味着使用Excel和Power BI等工具。

所需技能:分析能力!

练习(续)

为了更好地了解数据情况,你可以利用数据透视表以有用的方式切分数据集和其字段。

想法是你只选择你感兴趣的变量并创建可视化以驱动见解。

要在Excel中创建数据透视表,请选择源数据并在其旁边插入一个数据透视表。

作者提供的图片

你将从一个空白的数据透视表开始,然后通过拖放字段进行填充,如下所示。

作者提供的图片

你对衡量雨伞销售数量感兴趣,所以将以下字段拖到:

  • 产品字段进入筛选器,这样你就可以按雨伞进行筛选;
  • 销售数量字段进入值,因为这是你的主要度量
  • 年份和月份字段进入行,这样你就知道了每年和每月的雨伞销售情况。

现在你已经有了你的数据透视表!

作者提供的图像

最后的大结局——将您的数据透视表可视化为图表。

要创建它,请选择您的数据透视表并插入一个数据透视图。我建议选择一个折线图,但是随时可以尝试其他图表以最好地表示您的数据。

作者提供的图像

啊哈,魔法时刻…

洞察力!

作者提供的图像

您的数据透视图清楚地讲述了一个有趣的数据故事。

2022年,雨伞销量在4月份激增,在5月到6月达到第一个高峰,在7月略有下降,然后在8月达到最高峰后下降。

无论如何,5月到8月的销售量都比其他时间高得多。

这解决了第一个业务问题,即找出一年中哪些时间销售最佳。

通过在我们的数据透视表中拖放字段,您可以创建另一个数据透视图,回答第二个业务问题,即澳大利亚和新西兰的哪些部分推动了最佳销售。

作者提供的图像

我们可以清楚地看到,大多数雨伞销售实际上来自新西兰。这实际上进一步说明了第一个业务问题——五月和八月恰好是该国的雨季!

简而言之,您清理了数据,创建了一些数据透视表来聚合数据,然后制作了一些图表来直观地展示我们的新西兰朋友在一年中仅有的几个潮湿月份中最终负责产生大部分雨伞销售!

不错!

5. 分享

如果您的洞察力不告知某种下游决策,那么它们是否真的是洞察力?

好吧,这有点苛刻,但我试图表达的观点是,许多分析洞察力通常不会被使用,通常是因为它们:

  • 分析师没有向利益相关者共享或
  • 表达不清楚或
  • 决策者没有采取行动。

在这个阶段,您的工作是通过有效的可视化工具将数据故事叙述放在首位来分享您的发现。

所需技能:数据可视化;利益相关者管理。

练习(续)

安排一次会议,向您的老板展示您的发现。他需要知道您的新西兰客户有多宝贵!

6. 行动

在端到端的数据分析过程中,您的沟通和叙述技巧至高无上。

许多数据科学家认为这些是最重要的技能,因为如果没有这些技能,您的工作将对利益相关者产生很少影响,并且将逐渐变得无足轻重。

数据叙述的重要性如下:

  • 您的数据本身并不能说明问题。对不起!
  • 人类天生喜欢故事。
  • 故事会产生听众共鸣,从而产生催产素反应,进而使他们对您产生信任
  • 一旦建立了这种联系,您可以向他们销售任何您想要的东西。
  • 底线:销售故事,而不是数据。

我的银行:不幸的是,许多分析和数据科学项目最终并未被采取行动。这可能是由于多种原因造成的:

  • 利益相关者没有购买。您的结果不够强大,这可能来自结果的沟通不良。
  • 难以采取行动的见解。例如,采取某些见解可能非常昂贵,或者与当前的业务优先事项不符。
  • 如果您不同意任何不采取行动的决定,那么就需要您向同事和管理层汇集正确的支持来推进行动。

所需技能:有效的沟通和叙述能力;利益相关者管理;人际软技能。

练习(续)

在与老板的会议上,您串联了一个强大的叙述,利用了您制作的一些交互式Excel透视图。您的老板被说服了,并承诺在确保库存充足的同时,建立一个更强大的新西兰业务,以迎接明年的雨季。

恭喜您说服决策者针对您的分析洞察采取行动!

结束语

在线数据分析课程通常缺乏成功作为有效数据分析师所需的各种软技能。

这就是为什么我喜欢谷歌的六阶段框架:

  • 提问。业务问题是什么?
  • 准备。如何获取我们需要的数据?
  • 处理。可靠的洞察力只能来自干净的数据。
  • 分析。展示您的技术实力的时间到了!
  • 共享。向利益相关者展示您的工作。
  • 行动。从下游决策中受益,这些决策是基于您的工作所提供的信息。

在本文中,我深入探讨了个人行业经验,揭示了每个阶段固有的考虑和挑战。

对于那些渴望成为数据分析师的人,我们整合了一些关键技能,例如熟练地将小型数据集在Excel中进行透视表处理和制作一些可视化图表以揭示可报告的见解。

喜欢这个故事吗?在我发布类似文章时,给我发一封电子邮件。

在Linkedin、Twitter和YouTube上找到我。

Leave a Reply

Your email address will not be published. Required fields are marked *