Press "Enter" to skip to content

用图表讲故事

第四部分(II):您想展示组成吗?

Photo by Jonatan Pie on Unsplash

这是第四篇文章的第二部分,其目标是指出在向受众传递信息时,何种数据可视化技术最好用于展示数据的组成。

为了更好地理解本文的内容,强烈建议阅读(或重温)前一篇文章,其中描述了“组成”的概念及其一些分析要素。

在前一篇文章中,我们提到以下六种最常用于展示组成的图表:饼图、堆叠条形图、树状图、堆叠面积图、瀑布图、Marimekko图。

列表中的前三种图表在那篇文章中有详细描述。现在,我们将专注于列表中的后三种图表(堆叠面积图、Marimekko图、瀑布图)。

堆叠面积图

让我们首先定义什么是面积图:它是一种具有特定颜色填充的线图类型,线连接数据点与水平轴之间的区域。

有四种不同类型的面积图:1) 标准面积图;2) 堆叠面积图;3) 百分比堆叠面积图;4) 重叠面积图。只有堆叠面积图(StACs)和百分比堆叠面积图(%StACs)用于展示组成。

在两种堆叠面积图中,多个区域被堆叠在一起。它们用第三个变量(通常是分类变量)展示随时间变化的数值变量(动态组成)。

与堆叠面积图相关,它是一个“部分到整体”的图表,每个区域表示每个部分相对于该类别的总计的绝对值。与百分比堆叠面积图相关,它也是一个“部分到整体”的图表,每个区域表示每个部分相对于该类别的总计的百分比。不同区域之间没有重叠。在堆叠面积图中,垂直轴的最终高度与所有表示的数值之和有关。在百分比堆叠面积图中,垂直轴的最终高度始终为100%。

图1显示了一个堆叠面积图,代表2013年至2018年间四个不同地区的PS4销售情况。图表右上角显示的图例表示不同颜色区域所属的地区。可以看出,每个地区(每个区域,每个部分)对总销售额(整体,销售总和)的贡献。每个区域的高度表示每个特定地区销售额的绝对值,而最终高度是这些值的总和,表示每年的总销售额。可以看出,堆叠面积图主要用于传达总体趋势和每个部分相对于整体的相对贡献,而不必关心显示每个部分的确切数值。

图1:堆叠面积图。图表由作者使用Plotly Express创建。

图2是一个百分比堆叠面积图,代表相同的PS4销售数据。每个区域表示与全球PS4销售总额相关的每个地区的百分比。如上所述,最终高度为100%。毫无疑问,与图1相比,这种类型的图表更好地分析了全球销售的组成。

图2:百分比堆叠面积图。图表由作者使用Plotly Express创建。

最后警告:StACs和%StACs相对难以阅读和理解,因为它们依赖于观众通过比较堆叠区域解码数值信息的能力。我们鼓励仅使用它们来传达全局趋势和每个部分相对于整体的贡献。

Marimekko图表

它们是一种特殊类型的可变宽度条形图。Marimekko图表(MCs)类似于100%堆叠条形图,但不同之处在于它们的矩形条可以具有不同的宽度。

MCs用于显示数据集中每个类别的两个数值变量。它们有两个轴:垂直轴具有100%的数值刻度,而水平轴可以是分类或数值。矩形条以垂直方向排列,它们之间没有留下空间。水平轴的整个宽度被占据。

图3显示了一个Marimekko图表。该图表显示了每个品牌和地区的年度收入。百分比垂直轴表示每个地区的百分比,而水平轴表示每个品牌的年度收入。我们在一个图表中指示了每个类别和子类别的两个数值。

图3:一个Marimekko图表。使用Vizzlo获得许可创建(#1)

正如我先前所述:“可以看到表征Marimekko图表的元素:一个被划分为不同宽度矩形的矩形区域;垂直堆叠的矩形;占据整个图表宽度的水平轴;具有百分比刻度的垂直轴;品牌总收入在顶部基线上;不同的条形宽度,允许计算每个品牌对总收入的相对贡献。”

Marimekko图表可以作为100%堆叠条形图的替代品,但仅用于静态分析(显示某个时间点的组成)。它们永远不应用于显示随时间变化的组成。

与堆叠面积图指示的警告相同:MCs难以解释,因为人类计算面积的能力不太好,特别是随着矩形数量的增加。

瀑布图

瀑布图(WCs)是一种特殊类型的条形图,表示数据在增加和减少之间的累积效果。其信息是讲述两个数据点之间的组成变化的故事。

WC由一个初始垂直条、一组中间垂直条和一个最终垂直条组成。通常(也是建议的)布局是初始和最终垂直条(列)具有相同的颜色,而中间条(浮动条)显示增加的绿色值和减少的红色值。同时,第一列和最后一列通常从零基线开始。

图4显示了一个基于类别的瀑布图,具有上述特点。这种类型的WC通常用于人力资源(显示特定部门的招聘和离职),特定业务(显示收入和费用),仓库(添加库存,拿取库存)以及许多其他数据在正值和负值之间波动的情况下。金融行业使用基于时间的WC(指示在一个时间段内的收益和损失)。

图4:作者使用Plotly创建的基于类别的瀑布图

与标准条形图相比,WC提供了更多的上下文信息。后者仅显示初始值和最终值,而前者则指示增加和减少的元素对总体的贡献以及在初始值和最终值之间的变化组成。

这种能够讲述初始值和最终值之间变化的故事的非凡能力,在正确解释变化的大小的复杂性方面有其对应物。这是由于浮动柱中缺乏公共基线,这使得难以比较连续增加和减少的特定大小。最佳实践是在柱状图中添加数值注释,并使用连接的水平线将其连接起来(图4和图5)。

图5展示了一个基于时间的瀑布图,描述了一个虚构网页的每月访问者数量的变化故事。对于普通观众来说,任何其他可视化呈现方式都会更复杂,难以理解这种特定情况。

图5:作者使用Plotly制作的基于时间的瀑布图

结论

在任何数据可视化项目中,一个关键问题是:“我选择了合适的图表来讲述我的故事吗?”

选择最合适的图表取决于要传达给受众的信息性质。

当要传达组成为信息时,使用六种不同类型的图表:饼图;堆叠条形图;树状图;堆叠面积图;瀑布图;Marimekko图。

我们的建议是使用饼图来表示静态组成,使用堆叠条形图来表示动态组成。当整体由十个或成千上万个部分组成时,树状图是一个有效的替代方案。Marimekko图适用于表示两个包括主要类别及其子类别的数值变量。最后,瀑布图仅显示初始值和最终值之间的变化组成。

如果您对本文感兴趣,请阅读我之前的56篇文章之一:https://medium.com/@dar.wtz 。关于数据可视化、模拟、蒙特卡洛技术、仪表盘等方面有超过300K的阅读量。

#1:https://vizzlo.com/

Leave a Reply

Your email address will not be published. Required fields are marked *