从零进阶!数据分析的统计基础(第2版)
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.4 数据的离中趋势

对一组数据特征的概括包括两个方面,一方面是数据向某一中心值靠拢的程度,另一方面是表明该数据组的分布偏离中心值的程度,说明集中趋势测度值对所概括的数据的代表性大小。因此,在运用集中趋势测度值反映数据集中趋势的同时,还要观察数据的离中程度,即离中趋势。

离中趋势在统计学中是指一组数据在某一中心值分散的程度,它反映了各个数据远离其中心点的程度,并且从另一个方面说明了集中趋势测度值的代表程度。描述数据离散程度采用的测度值,根据所依据数据类型的不同主要有极差、分位距、平均差、方差、标准差和离散系数。

2.4.1 极差

极差(也叫全距)是一组数据中的最大值与最小值的差距。用公式表示为:

根据所掌握的资料不同,极差有两种计算方法。

如果由未分组或单项分组资料计算极差,则只要用其中的最大值减去最小值即可求得。

如果统计数据已经整理过,并形成组距数列,则极差的近似值为:

极差是测定离中趋势的一种简便方法,它能说明数据组中各数据值的最大变动范围,但由于它是根据数据组的两个极端值进行计算的,没有考虑到中间变量值的变动情况,所以不能充分反映数据组所有各项数据的离中趋势,只是一个比较粗糙的测定数据离中趋势的指标。

在实际的应用中,极差可用于粗略检查产品质量的稳定性和进行质量控制。因为在正常生产的条件下,产品质量比较稳定,误差总是在一定范围内波动。如果有不正常情况,则误差将会超出一定范围。这样,利用极差有助于及时发现问题,以便采取措施,保证产品质量。

2.4.2 分位距

分位距是对全距的一种改进,它是从一组数据中剔除了一部分极端值之后重新计算的类似于全距的指标。常用的分位距有四分位距、八分位距和十分位距等,本书只介绍四分位距。四分位距是第三个四分位数减去第一个四分位数的差,即:

四分位距排除了数列两端各25%单位标志值的影响,反映了数列中间部分各变量值的最大值与最小值的差距。

例2.3 已知有八个数字7,6,8,9,8,4,8,6,求这组数的四分位距。

首先,将其按从小到大的顺序排列,即4,6,6,7,8,8,8,9,然后分成四等份,第一个四分位数位于第二、三个数字之间,取其平均数为(6+6)÷2=6,第二个四分位数为(7+8)÷2=7.5,第三个四分位数为(8+8)÷2=8,则这组数据的四分位距为8-6=2。

2.4.3 平均差

平均差是数据组中各数据值与其算术平均数离差绝对值的算术平均数,常用符号“M.D”表示:

当变量数列是由没有分组的数据组成或分组后每组的次数相等的数据组成时采用。

例2.4 设某车间有两个班组,各有10名工人,其日产量如表2-3所示。

表2-3 两组工人日产量数据表

甲组的平均值为:

乙组的平均值为:

则两组工人日产量的平均差计算过程如表2-4所示。

表2-4 平均差计算表

两组工人日产量的平均差为:

也就是说,在甲、乙两组工人平均日产量相等(都是16件)的情况下,甲组的平均差(6件)大于乙组的平均差(3.6件),因而其变量值的离散程度比乙组大。

由于平均差是根据数列中所有数值计算出来的,受极端值影响较小,所以对整个统计数列的离中趋势有较充分的代表性。

2.4.4 方差与标准差

方差是数据组中各数据值与其算术平均数离差平方的算术平均数,用符号s2表示。方差的平方根就是标准差,用符号“s”表示。设有xix2,…,xnn个数组成一个数列,为数列的平均值,则该组数据的标准差公式为:

例2.5 继续以例2.4的数据为例,则两组工人日产量标准差计算如下(计算过程见表2-5)。

表2-5 标准差计算表

两组工人日产量的标准差为:

也就是说,在甲、乙两组工人平均日产量相等(都是16件)的情况下,甲组的标准差(7.40件)大于乙组(4.63件),因而其平均数的代表性比乙组小。

标准差的本质与平均差基本相同,只是在数学处理方法上与平均差不同,平均差是用取绝对值的方法消除离差的正负号然后用算术平均的方法求出平均离差;而标准差是用平方的方法消除离差的正负号,然后对离差的平方计算算术平均数,并开方求出标准差,这既克服了平均差计算中用绝对值取消离差正负号带来的弊病,又增加了指标本身的“灵敏度”,这些优点使它成为各种离中趋势指标中最重要的一种。

标准差的性质:

(1)标准差度量了偏离平均数的大小。

(2)标准差是一类平均偏差。

(3)标准差指出了数列中的数离它们的平均数有多远。数列大多数项离开平均数少于1个σ(标准差)范围内,极少数项将离开2个或3个σ以上。一般来讲,一个数列中约68%()的项在离平均数的1个σ范围内,其余的32%离得较远。约95%()的数据在距平均数的2个σ范围内,其余的5%则远离之,如图2.14所示。

图2.14 标准差图示

2.4.5 离散系数

极差、平均差、标准差都是对数据的离中趋势进行绝对或平均差异的测定。在通常情况下,它们都带有计量单位,而且其离中趋势大小与变量平均水平的高低有关。因此,要比较数据平均水平不同的两组数据的离中程度的大小,就有必要计算它们的相对离中程度指标,即离散系数。常用的离散系数指标是标准差系数。

标准差系数是将一组数据的标准差与其算术平均数对比的结果,以测定其相对离中程度,常用符号“Vs”表示,其公式为:

例2.6 有甲、乙两班同时参加统计学原理课程的测试,甲班的平均成绩为70分,标准差为9.0分,乙班的成绩分组资料如下。

表2-6 乙班统计学原理课程的测试成绩

比较甲、乙两班哪个班的平均成绩更有代表性?

解:计算如下所示。

表2-7 乙班测试成绩的分析结果

注:此表为分组数据,在取得数据时,已经按成绩进行了分组,f为学生人数,有时候也叫权重。由于不知道某一分组中具体某个学生的成绩,因此取组中值为代表,求各组的总成绩xf

由于甲、乙两班成绩的平均值和标准差都不一样,无法使用标准差来比较哪个班的成绩波动大,因此必须使用离散系数来判断。从计算中可以看出:VV,所以乙班的成绩波动小一些,则其班级的平均成绩更有代表性。