从零进阶!数据分析的统计基础(第2版)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.6 数据的展示——统计图

统计图是利用点、线、面、体等绘制成几何图形,以表示统计数据大小关系和变动情况的各种图形的总称。在数据分析中,把利用统计图形展现统计数据的方法叫作统计图示法,由于该方法具有形象具体、简明生动、通俗易懂、一目了然等特点,因此在描述性数据分析中得到了广泛的应用。常用的统计图有条形图、扇形图、折线图、箱线图、茎叶图和直方图等。

2.6.1 条形图与扇形图

条形图是一种以长方形的长度为变量的统计图表。条形图可以清楚地表明各种数量的多少,易于比较数据之间的差别。条形图是统计图资料分析中最常用的图形,如图2.18所示。

图2.18 三国人物各国分布情况条形图

扇形图是用整个圆形表示总数,用圆形内各个扇形的大小表示各部分数量占总数的百分比。扇形图可以很清楚地表示出各部分数量同总数之间的关系,如图2.19所示。

图2.19 三国人物各国分布情况扇形图

条形图和扇形图在描述数据时,一次不能描述过多的变量,通常用于较小的数据集分析,使用Excel可以很方便地实现条形图和扇形图的绘制,本书不做赘述。在进行数据分析时,对于定性数据一般使用条形图或扇形图进行刻画,可以达到简单易懂、一目了然的目的。

2.6.2 折线图

折线图是利用线形的升降起伏(上升或下降)来表示统计数据的增减变化的统计图。与条形图比较,折线图不仅可以表示数量的多少,还可以反映同一事物在不同时间里的发展变化情况。折线图在生活中运用得较为广泛,其主要用于显示时间数列的数据,如图2.20所示。

图2.20 1991—2013年全国商品住宅平均销售价格折线图

2.6.3 茎叶图

茎叶图又称“枝叶图”,由统计学家约翰托奇设计,它的设计思路是将数组中的数按位数进行比较,将数的大小基本不变或变化不大的位作为一个主干(茎),将数变化大的位作为分枝(叶),列在主干的后面,这样就可以清楚地看到每个主干后面有几个数,每个数具体是多少。茎叶图能直观地反映数据的集中趋势。

1.茎叶图的画法

在绘制茎叶图时,一般将每个数据分为茎(高位)和叶(低位)两部分。在绘制过程中,主要是设计好茎,当数据是两位整数时,茎为十位上的数字,叶为个位上的数字;当数据是由整数部分和小数部分组成时,可以把整数部分作为茎,小数部分作为叶。下面以一个具体的例子来描述茎叶图的绘制思路。

例2.7 某生产车间30名工人某日加工零件的个数如下:

134 112 117 126 128 124 122 116 113 107

116 132 127 128 126 121 120 118 108 110

133 130 124 116 117 123 122 120 112 112

请设计适当的茎叶图表示这组数据,并根据茎叶图说明一下这个车间此日的生产情况。

解析:以前两位数为茎,个位数为叶,可以画出相应的茎叶图,从而可根据茎叶图分析数据的特征。画出的茎叶图如图2.21所示。

百位十位个位

图2.21 茎叶图

从茎叶图上看,该生产车间的工人加工零件数大多都在110~130,且分布较对称、集中,这说明该生产车间每日生产情况稳定。

2.使用SPSS画茎叶图

下面以三国时期魏国人物武力为例,讲述使用SPSS画茎叶图的过程,步骤如下。

(1)使用“三国人物数据.xlsx”文件中的数据,从中筛选出魏、蜀、吴三个国家的人物武力数据,其中国家1为魏国,国家2为蜀国,国家3为吴国,将数据从Excel中复制到SPSS中,切换到变量视图,修改SPSS中变量名称和小数位数,如图2.22所示。

图2.22 变量视图

切换到数据视图,单击“分析—描述统计—探索”命令,如图2.23所示。

图2.23 选择“探索”

(2)在弹出的“探索”对话框中,将变量“魏”移到因变量列表中,选中左下方的“图”单选框,如图2.24所示。

图2.24 “探索”对话框

(3)单击右上方的“绘制”按钮,在“探索:图”对话框中,勾选“茎叶图”复选框,单击“继续”按钮,如图2.25所示。

图2.25 “探索:图”对话框

(4)在“探索”对话框中单击“确定”按钮,SPSS就输出了魏国人物武力的茎叶图,如图2.26所示。

图2.26 SPSS生成的茎叶图

2.6.4 箱线图

箱线图又称为盒须图、盒式图或箱形图,是一种用于显示一组数据分散情况的统计图。其绘制需要使用描述性统计分析的大部分测度值,最适宜提供有关数据的位置和分散情况的参考,尤其对不同的总体数据更可表现其差异。箱线图因形状像箱子而得名,在各种数据分析领域经常被使用,如品质管理分析、异常值检查。

如图2.27所示,其中标示了每条线表示的含义,这里应用了分位数的概念。

箱线图主要包含六个数据节点,将一组数据从大到小排列,分别计算出它的上边缘、上四分位数、中位数、下四分位数、下边缘,还有异常值。上四分位数(Q3)、下四分位数(Q1)、中位数在前面已经描述过,此处不再复述。图中的上边缘,有时也叫上界,其计算公式为:上边缘值=Q3+1.5(Q3-Q1),其中Q3为上四分位数,Q1为下四分位数;图中的下边缘,有时也叫下界,其计算公式为:下边缘值=Q1-1.5(Q3-Q1)。

图2.27 箱线图

异常值是指超出上界或下界的数据点,它分成两种类型。一种是极端异常值,即超出四分位数差(Q3-Q1)3倍距离的异常值,用“*”表示;另一类是较为温和的异常值,即处于1.5~3倍四分位数差(Q3-Q1)的异常值,用实心点“●”表示。

1.箱线图的画法

箱线图的绘制步骤如下。

(1)将一组数据从大到小排列,通过百分位计算方法,计算六种数据节点。

(2)画数轴,度量单位大小和所研究的数据对象的单位一致,起点比最小值略小,长度比研究的数据系列的全距略长。

(3)画一个矩形盒,两端边的位置分别对应数据系列的上下四分位数(即Q1和Q3)。在矩形盒内部中位数的位置画一条线段为中位线。

(4)从矩形盒两端边向外各画一条线段直到不是异常值的最远点,表示该批数据正常值的分布区间。

(5)用“●”标出温和的异常值,用“*”标出极端的异常值。相同值的数据点并列标在同一数据线位置上,不同值的数据点标在不同数据线的位置上。

2.使用SPSS做箱线图

下面以三国时期魏、蜀、吴人物武力数据为例,讲述SPSS画箱线图的过程,步骤如下。

(1)将数据输入到SPSS的过程和上述绘制茎叶图的过程一样,输入完成后,单击“分析—描述统计—探索”命令,如图2.28所示。

图2.28 选择“探索”命令

(2)在弹出的“探索”对话框中,将变量“魏”、“蜀”、“吴”移到因变量列表中,选中左下方的“图”单选框,如图2.29所示。

图2.29 “探索”对话框

(3)单击右上方“绘图”按钮,在“探索:图”对话框中,选中“不分组”单选框,单击“继续”按钮,如图2.30所示。

图2.30 “探索:图”对话框

(4)在“探索:图”对话框中单击“确定”按钮,之后SPSS就输出了三个国家人物武力箱线图,如图2.31所示。

图2.31 三个国家人物武力对比箱线图

从图2.31可以看出,吴国箱体较小,说明其50%的人物武力比较集中,并且中位线最高,说明平均值应比较大;蜀国箱体较大,说明其50%的人物武力比较分散;而魏国的中位线最低,说明其平均值应比较小。

2.6.5 统计图小结

面对一组数据,选择恰当的统计图来表达数据分析的目标,是数据分析人员必须要掌握的一项技能。统计图有其不同的适用范围,本节进行简要归纳,如表2-8所示。

表2-8 各类统计图对比

统计图使用注意事项:

(1)图是语言的一种重要形式,如果运用得当,则比起表格来更能明快清晰地进行沟通。

(2)决定统计图形式的不是数据,也不是尺寸,而是你想说明的主题和你想指出的内容要点。

(3)统计图在于精,而不在于多,只有当统计图能够帮助你表达所想的主题时才使用。

(4)统计图是直观教具,它不能取代书写和讲述,只有在帮助你传达主题时,它才起作用。