统计学
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

§3.2 统计数据集中趋势的描述

统计数据的集中趋势是指一组数据向某一中心值靠拢的倾向。总体各单位数据客观上存在着差异,统计规律表明,对绝大多数现象而言,较大或较小的统计数据出现的频率比较小,大多数统计数据都集中在中间区域。集中趋势的描述归纳起来有两大类:一类是数值平均数,它是根据全部数值计算得到的代表值;另一类是位置平均数,是根据数据所处位置直接观察或根据与所处位置有关的部分数据计算确定的代表值。

§3.2.1 数值平均数

数值平均数简称为平均数,是将总体单位间的数量差异抽象化后得到的反映现象在一定时间、地点、条件下一般水平的代表值。平均数可以消除因总体范围不同而带来的总量数据差异,使不同规模的总体数据具有可比性;与统计分组结合运用,可以分析现象之间的相互依存关系;平均数还是统计推断的一个重要数据。

(1)算术平均数

算术平均数的基本计算公式是:

根据掌握的变量值情况,算术平均数的计算方法分为简单算术平均法和加权算术平均法。

①简单算术平均法。

简单算术平均法是在统计数据未分组的情况下,将各个数据直接相加除以数据的个数计算平均数的方法。这样计算的平均数称为简单算术平均数。若以x1, x2, …, xn表示变量值,表示平均数,则简单算术平均数的计算式为:

如某小组8个学生的英语考试成绩分别为80、72、84、88、75、73、90、78分。则该小组成绩的均值为:

②加权算术平均数。

根据变量数列计算算术平均数,要用加权算术平均法,即用次数对变量值加权求平均数的方法。用加权算术平均法计算的平均数称为加权算术平均数。所谓“加权”是指变量数列中,各个变量值出现的次数不一样,次数出现多的变量值对平均数的影响大一些,次数出现少的变量值对平均数的影响小一些,对各个变量值不能等同看待。计算平均数时,必须以变量值出现的次数与变量值相乘,以权衡其轻重,这就是“加权”。变量值出现的次数或比重称为“权数”。

若用xi表示变量值,fi表示变量值xi出现的次数,n表示组数,表示算术平均数,加权算术平均法的计算式为:

在社会经济统计中经常用比重权数加权:

【例3-1】某企业某日工人日产量资料如表3-1所示。试计算工人日平均产量。

表3-1 某企业某日工人日产量

因为“工人平均日产量=工人日总产量/工人总数”,所以工人日平均产量应该这样计算:

根据组距数列计算算术平均数时,应取各组的组中值作为该组的代表值用于计算。此时,其基本假定是各组内的变量值均匀分布,求得的算术平均数只是其真值的近似值。

【例3-2】某班学生英语考试成绩如表3-2所示,试计算平均成绩。

表3-2 某班学生英语考试成绩

所求平均成绩为:

权数起权衡轻重的作用,它体现在各组单位数占总体比重大小上面。哪一组单位数所占比重大,其变量值对算术平均数的影响就大。比重权数更清楚地说明了权数的实质。

计算算术平均数,有时只掌握了各组变量值和各组变量值之和的资料,为了符合基本公式,应该首先经过除法运算求得分母数据,再计算平均数。这样计算平均数的方法称为“调和平均法”,得到的平均数称为“调和平均数”。

由于算术平均数易受极端变量值的影响,所以实际工作中也常常计算切尾平均数。切尾平均数是去掉数据大小两端的若干数值后计算中间数据的平均数。它在电视大奖赛、体育比赛等竞赛项目的评分中已得到广泛应用。切尾均值是结合了算术平均数利用数据信息充分和中位数不受极值影响的两个优点而形成的新型统计量。对于存在极值的现象计算均值有重要意义。

③算术平均数的数学性质。

A.各个变量值与其算术平均数的离差之和为零,即:

对于简单算术平均数

对于加权算术平均数

因为:

这一数学性质说明,平均数实际上是正的离差去抵负的离差,从而把总体各单位变量值的差异抽象掉了,所以它表现的是一般水平值。

B.各个变量值与其算术平均数的离差平方之和为最小,即:

对于简单算术平均数

对于加权算术平均数

x0是不等于的任意数,则

因为c≠0,所以nc2> 0。

类似地可以证明

该数学性质充分反映了平均数是集中趋势最好的代表值的特性,以算术平均数以外的任何数为中心,其离差都大于以平均数为中心的离差。

④平均法在计算动态平均数中的应用。

算术平均法也常常用于计算动态平均数(序时平均数)。所谓动态平均数是将现象在不同时间上的数量差异抽象掉,反映现象在一定发展阶段的一般水平。动态平均数的计算基础是时间序列,不同的时间序列其平均发展水平的计算方法也有所不同。

时期序列中各项数据相加等于现象在一段时期内的总量,所以计算时期序列的平均发展水平,采用的是简单算术平均法,即将各期数据之和除以时期的项数。其计算公式为:

对于按天统计的连续时点数据,可以利用简单算术平均法准确地计算出时点序列的平均发展水平。对于不连续时点序列,若要计算整个考察期的平均发展水平,则要做两个假定:假定上期期末的数据也是下期初的数据,反之下期期初的数据也是上期期末的数据;假定现象的数量在相邻两时点间是均匀变动的。然后计算出相邻两个时点之间现象水平的代表值,再以时点间隔长度为权数,将这些代表值加权算术平均。若分别以f1, f2, …, fn-1代表各个时点间隔长度,则整个考察期内平均发展水平的计算公式可写为:

【例3-3】某地区某年对生猪饲养情况进行了调查,得到生猪存栏数量的几个时点数据如表3-3所示,试计算该地区生猪月平均存栏数量。

表3-3 某地区某年生猪存栏数量

计算结果表明,该地区某年生猪月平均存栏数量为40.125万头。

当各时点间隔相等,即f1=f2=…=fn-1时,间隔加权法公式可简化为:

上式是由间隔相等的时点序列计算平均发展水平的方法,经常也形象地称之为“首末折半法”。

平均增长量是逐期增长量的平均量。逐期增长量之和为累计增长量,反映现象在整个长时期的总增长量,故平均增长量也采用简单算术平均法计算。其计算公式为:

相对数与平均数有一个共同点,那就是它们归根结底都是由两个有关的总量指标数值对比而得到。因此,由相对数时间序列和由平均数时间序列计算平均发展水平的方法实质上也相同。

设各期的相对数(平均数)为zt,它是ytxt两个总量指标派生的,即ztyt/xt。由于各个zt的对比基数xt不尽相同,所以计算平均发展水平时,不能将各期zt简单算术平均。正确的计算方法是:先对形成该相对数(或平均数)序列的绝对数序列{yt}和{xt},分别计算其平均发展水平,再由这两个平均发展水平对比来得到所求的平均发展水平,即计算公式为:

【例3-4】根据表3-4资料算某商业企业第一季度的月平均劳动生产率。

表3-4 某商业企业销售额及职工人数资料

根据该资料,商业企业劳动生产率用平均每个职工销售的商品额表示。销售额是时期指标,职工人数是时点指标,故应该分别用(3-1)式和(3-3)式计算其动态平均数,然后再对比。

计算结果表明该商业企业第一季度平均每个职工销售了48503.40元商品。

(2)几何平均数

几何平均数是用若干数据的连乘积开项数次方来计算的一种平均数,几何平均数也分为简单几何平均数和加权几何平均数。简单几何平均数的计算公式是:

如某流水生产线有前后衔接的五道工序,某日各工序产品的合格率分别为97%、96%、98%、98.5%、99%,整个流水生产线产品的平均合格率为:

加权几何平均数的计算公式是:

如某金融机构以复利方式计算利息。近12年来的年利率有4年为3%,2年为5%,2年为8%,3年为10%,1年为15%。则12年的平均年本利率均年利率为:

必须指出的是,社会经济统计中计算几何平均数的前提是各个数据的乘积或幂的乘积有意义。

如前所述,各环比发展速度的连乘积等于总发展速度,所以平均速度的计算往往采用几何平均法。

平均速度包括平均发展速度和平均增长速度。平均发展速度是环比发展速度的平均数,说明现象在某个发展阶段上的逐期发展变化程度的一般水平。平均增长速度表示环比增长速度的一般水平,说明现象在某个发展阶段上平均逐期增长程度,但不能直接将各个环比增长速度加以平均,应根据它与平均发展速度之间的内在联系来计算,即计算公式为:

平均增长速度=平均发展速度-1

可见,平均增长速度与平均发展速度之间相差一个基数。平均发展速度大于1,则平均增长速度为正值,表明平均说来现象在考察期内是逐期递增的,此时的平均增长速度也称为平均递增率。反之,平均发展速度小于1,则平均增长速度为负值,表明平均说来现象在考察期内是逐期递减的,此时的平均增长速度也称为平均递减率。

若以xi代表各期环比发展速度,n代表环比发展速度的项数,则平均发展速度的计算公式为:

由于环比发展速度的连乘积等于定基发展速度即总速度(用R表示),而总速度又等于期末水平(yn)与期初水平(y0)之比,所以式(3-4)可变换为下面两种形式:

显然,(3-4)~(3-6)这三个计算公式实质上是一回事。实际应用中可根据所掌握的数据选择较为简便的公式来计算。

根据表3-2数据,某地2002—2007年贸易总额年均增长速度为:

或:

【例3-5】党的十七大提出了“实现人均国内生产总值2020年比2000年翻两番”的新经济发展战略目标。2000年中国人均国内生产总值为7858元,年平均增长速度至少为多少才能达此目标?考虑人口增长因素,2020年国内生产总值将为多少?

翻两番是一个总发展速度的概念,表示某个经济总量从基期开始,经过一段时间,达到基期的22倍。

a0=7858 an=(7858×2)×2=7858×22 n=20

计算表明,要实现人均国内生产总值20年翻两番的目标,年平均增长速度不能低于7.18%。

人均国内生产总值翻两番要求按2000年价格计算的人均国内生产总值达到31432元。31432元乘以2020年的人口数即为2020的国内生产总值。2020年我国人口将达到什么水平?一些权威机构做了预测:联合国人口基金预测为14.48亿人,世界银行预测为14.89亿人,国家计生委预测为14.83亿人,国家统计局为14.60亿人资料来源:http://www.stcity.cn/Article Print. asp? Pay=&ArticleID=16214。。按照国家统计局预测的人口数计算,2020年按2000年价格计算的GDP至少应用达到458907亿元。这样一来,国内生产总值总量就不止翻了两番,而是翻了2.21番了:

21世纪的前7年(2001—2007年)GDP的增长速度分别为(%):8.3、9.1、10.0、10.1、10.4、11.1、11.4,则从2008年到2020年的13年,GDP的年均增长速度只需要6.87%:

达到6.87%的年均增长速度,我们是坚信不疑的。中共十七大提出人均国内生产总值翻两番,确实体现了科学发展观,能够保证国民经济又好又快地发展。

§3.2.2 位置平均数

位置平均数是根据变量值在分配数列中所处的位置来确定的平均数。位置平均数不是根据所有的变量值而是根据特殊位置来确定的,因此它不受极端值的影响。

(1)众数

众数是指总体中出现次数最多的变量值。众数非常清楚地反映数据分布的集中趋势,表3-1中,能够生产12件产品的工人数最多,所以“12件”就是众数,第2章表2-2中,某地区居民对住房状况“不满意”的人最多,所以“不满意”就是众数。

一个变量数列的算术平均数和中位数总是客观存在的,而众数就不一定。在确定众数时,要注意以下两个前提:

①总体单位总量必须相当大,才有众数。若数据资料很少,虽然可以从中得到一个具有较大频率的数值,但其价值并不大,无“最普遍值”的意义。

②次数分布须具有明显的集中趋势才有众数。若数列中各个数据出现的频率都差不多,则所得到的“众数”缺乏代表性。

当变量数列中有两个或几个变量值的次数都比较集中时,就可能有两个或多个众数。众数的示意图见图3-1。

图3-1 众数示意图

根据未分组数据或单变量分组数据确定众数时,只需找出出现次数最多的数据即是众数。对于组距分组数据,众数通常用公式近似计算:

上式中:M0为众数;L为众数组的下限值;Δ1为众数组次数与下一组次数之差;Δ2为众数组次数与上一组次数之差;i为众数组的组距。

从表3-2的数据可以看出,出现频数最多的是19,即众数组为70~80分这一组,根据公式得55名大学生的英语成绩众数为:

根计算表明,若众数组前一组的次数与后一组的次数相等,则众数等于众数组的组中值。

(2)中位数

中位数是将各单位的标志值按大小顺序进行排列后,处于中间位置的标志值。由于位置居中间,所以它把数列中的全部标志值分成相等的两部分,一半标志值小于它,一半标志值大于它。由于中位数的数值不大也不小,所以在许多场合它能够作为总体或变量数列的代表,反映现象的一般水平。

中位数的确定需根据所掌握的资料不同而定。

对于未分组资料,当数据项数n为奇数时,中位数就是处在第项位置的标志值。当数据项数n为偶数时,数列中有两个居中的标志值,中位数是这两个标志值的简单算术平均数。即:

对于单项式数列,可以用∑f/2代替(n+1)/2,确定∑f/2所在的组,然后根据下列公式计算;

上式中:Me为中位数;L为中位数组的下限值;Sm-1为向上累计至中位数所在组以前的次数;fm为中位数所在组的次数;i为中位数所在组的组距。

根据表3-2计算中位数的过程如表3-5所示。

表3-5 学生英语成绩及中位数计算表

由于∑f/2=27.5,可断定中位数落在第三组内。根据公式有:

(3)四分位数

中位数是从中间点将全部数据等分为两部分。与中位数类似的还有四分位数、十分位数和百分位数等。四分位数是通过3个点将全部数据等分为4部分,其中每部分包括25%的数据。很显然,第二个四分位数就是中位数,因此通常所说的四分位数是指处在25%位置上的数值(下四分位数QL)和处在75%位置上的数值(上四分位数QU)。与中位数的计算方法类似,根据未分组数据计算四分位数时,首先对数据进行排序,然后确定四分位数所在的位置。

当四分位数的位置不在某一个数值上时,可根据四分位数的位置,按比例分摊四分位数位置两侧数据的差值。

9名学生的英语考试成绩分别为:65、72、73、75、78、80、84、88、90,试计算成绩的四分位数所在的位置和四分位数。

QLQU之间包括了50%的数据,因此,我们可以说有一半的学生英语成绩在72.5分至86分之间。

十分位数和百分位数分别是使用9个点和99个点将全部数据10等分和100等分后各分位点上的值。它们的计算与四分位数类似。

(4)算术平均数、中位数和众数的关系

算术平均数、中位数和众数都是数列分布集中趋势的代表值。在钟形分布中,众数是分布最高峰对应的变量值,一般中位数比较适中,算术平均数受极端变量值的影响,可能偏大或偏小。在对称分布中三者相等,即:,如图3-2(a)所示。在左偏分布中有,如图3-2(b)所示;在右偏分布中有,如图3-2(c)所示。

图3-2 众数、中位数与算术平均数的关系

算术平均数是根据所有数据计算的,中位数和众数是根据分布形状和位置确定的,各有不同的特点。在实际应用中,要视研究目的和数据特征选择应用。一般社会经济现象中应用最多的是算术平均数,它也是进行统计推断的基础;中位数和众数容易理解,在有极端变量值存在时,作为代表值更好。

§3.2.3 计算和应用平均指标应注意的问题

(1)应用平均指标的基本原则

注意社会经济现象的同质性,是应用平均指标的基本原则。只有在同质总体的基础上计算和应用平均指标,才有真实的社会经济意义。如果根据不同性质总体的数据资料计算平均指标,就会掩盖事物的本质差别,得到的平均数是虚构的平均数,不能真实反映现象的一般水平。

(2)平均指标与统计分组相结合

平均指标反映了总体各单位某一数量标志值的一般水平,但却掩盖了各组之间的差异。总体各组之间及各组之内的差异往往会影响总体的特征和分布规律,各组结构变动也会对总体变动产生影响。为了全面认识总体的特征和分布规律,需要将平均指标与统计分组结合起来,用组平均数和分布数列补充总平均数。

(3)平均指标与变异指标见本教材3.3.1。相结合

平均指标和变异指标是反映总体分布的两个重要特征值。为了全面描述总体分布的特征,必须将平均指标与变异指标结合使用,用变异指标衡量平均指标的代表性,说明平均指标反映总体一般水平的有效程度,使分析结论更确切、更可靠。