1.5 数据的分布属性
1.5.1 数据集中和分散属性的度量
实际发生的数据总是有波动或变化的,不同数据的波动特性有所不同。反映数据波动特性的指标有以下两类:
(1)反映数据集中趋势的指标。包括数据的均值(mean)、中位数(median)和众数(mode)。
(2)反映数据分散程度的指标。包括数据的极差(range)、方差(variance)、标准差(standard deviation)和(均值的)标准误(standard error of mean)。
某班级30名学生的身高测量数据如表1.13所示。
表1.13 学生身高测量数据
设这组数据的值为x1, x2, …, xN,其中N=30。
(1)均值是反映数据围绕中心波动的常用指标。均值的计算公式为:
这组学生身高的数据均值为μ=163.38厘米。
(2)将一组数据按照大小顺序排列,最靠近中间的数值称为中位数。如果数据的个数为奇数,则中位数就是最中间的那个数;如果数据的个数为偶数,则中位数是最靠近中间的两个数。例如,表1.13中数据的中位数是163厘米和164厘米。
Excel的中位数函数MEDIAN是这样定义的:如果数据的个数是奇数,则中间的数据就是中位数;如果数据的个数是偶数,则中间两个数据的平均数称为中位数。表1.13中数据的中位数是(163+164)/2=163.5。
(3)一组数据中出现次数最多的数称为众数。表1.13中身高为165厘米的学生有4人,是数据中出现次数最多的,因此,这组数据的众数就是165厘米。也有可能数据中出现次数最多的数值有两个,它们出现的次数相等,这样的数据就有双众数。
Excel的众数函数MODE是这样定义的:如果数据中出现次数最多的数据只有一个,这个数据就是众数;如果有两个数据出现的次数相等,MODE()函数等于其中小的一个。
(4)数据的极差是数据中最大值与最小值之差。用公式表示为:
表1.13中数据的极差为174厘米-155厘米=19厘米。
(5)数据的方差的计算公式为:
表1.13中的数据的方差为σ2=22.57厘米2。方差是测量数据平均分散程度的重要指标,由于方差的单位是数据单位的平方,因此,它的数据不是很直观。
(6)数据标准差的计算公式为:
表1.13中的数据的标准差为σ=4.83厘米。和方差一样,标准差也是测量数据平均分散程度的指标,由于它的单位和数据单位相同,因此它的数值比方差更具直观性。在经济领域中,标准差常用来反映未来数据的不确定性,有重要的理论和应用价值。
(7)标准误通常是针对抽样的样本均值{L-End} 来说的,有的书上和Excel的统计功能中称为标准误差。样本均值标准误的计算公式为:
注意,标准误的记号σx-的下标为{L-End} ,表示这个指标是针对样本均值的。(样本均值的)标准误在抽样中有重要应用,我们将在第3章3.2.1节中讲解。
1.5.2 频数和频数统计
数据分布的频数(frequency)是数据分布的基本属性之一。表1.14是一家饮料公司过去一年每天饮料销售量的统计数据。
表1.14 饮料日销售量统计表 单位:箱
(续表)
例1.14 根据以上统计表,用Excel制作饮料日销售量的序列数据图(数据见光盘文件“例1.14饮料日销售数据和折线图”),如图1.46所示。
图1.46 饮料日销售量折线图
由表1.14和图1.46可以看出,全年最高日销售量为257箱,出现在10月7日,最低日销售量为130箱,出现在12月23日,全年平均日销售量为183.0082箱。
为了反映饮料日销售量的分布特征,从最小值130到最大值257,每间隔10作为一个区间,即(-∞,130], [131,140], [141,150], …, [251,260],共14个区间。计算全年365天销售量分别落在这些区间中的天数,我们将其称为频数。
为了计算日销售量的频数,在Excel表中将365个销售量排成一列,如图1.47所示。
图1.47 计算饮料销售量频数的Excel表
计算数据频数有以下两种方法:
1.用Excel的“数据分析”工具生成数据频数图
例1.15 用Excel的“数据分析”工具生成数据频数直方图。
打开菜单“工具”|“数据分析…”,出现如图1.48所示的窗口。
图1.48 数据分析窗口
在“数据分析”窗口中选择“直方图”,单击“确定”,便会弹出如图1.49所示的窗口。
图1.49 直方图参数设置窗口
“输入区域”确定为B2:B366,“接收区域”确定为H2:H15,即图1.49中的区间,“输出选项”选择“输出区域”,“输出区域”确定为J2,即J2为输出区域的左上角。选定“累积百分率”和“图表输出”,单击“确定”,便会出现图1.50中圆角方框内的输出结果。
图1.50 直方图的输出结果
其中,频数的表格部分如表1.15,直方图部分如图1.51。
表1.15 接收区间、频数和累积百分比
图1.51 频数直方图和累积百分比
表1.15和图1.51说明,日销售量在130箱以下(含130箱)的只有一天,销售量出现最多的频数位于区间[151,160]中,有61天的销售量落在这个区间内。
2.用Excel函数FREQUENCY生成数据频数图
例1.16 用Excel函数FREQUENCY生成数据频数图。
先用鼠标选择准备好的频数区域I2:I15,然后在函数栏中输入函数“=FREQUENCY()”。从提示可以看出,这个函数有两个参数,第一个参数“data_array”为“销售量”B2:B366,第二个参数“bin_array”为“区间”H2:H15,如图1.52所示。
图1.52 用Excel函数FREQUENCY计算频数
输入完毕后,按组合键“CTRL +SHIFT+ENTER”,频数就会出现在I2:I15区域中,如图1.53所示。
图1.53 计算得到的频数
用1.4.2节介绍的方法绘制I2:I15频数柱形图(如图1.54所示),得到和“工具”|“数据分析”|“直方图”同样的结果。
图1.54 频数柱形图
频数图是概率与统计的一个基础性工具,概率与统计的许多重要概念都是从频数发展起来的。在商业实际问题研究和分析中,数据的频数也是分析和研究相关问题的基础。本书后面的章节会反复出现数据频数和频数分布图的概念。因此,正确理解数据频数的概念、掌握频数分布图的制作方法是十分重要的。
1.5.3 数据频数的分布形态
1.5.2节介绍了数据频数的概念以及数据频数图的制作方法。不同的数据,频数分布的形态是不同的。例如,表1.16中的四组数据A、B、C、D,每组数据有100个。见光盘文件“例1.17数据A、B、C、D的描述统计”。
表1.16 数据A、B、C、D
(续表)
它们的频数分布表如表1.17所示。
表1.17 数据A、B、C、D的频数分布表
数据A、B、C、D的频数分布图如图1.55、图1.56、图1.57和图1.58所示。
图1.55 数据A
图1.56 数据B
图1.57 数据C
图1.58 数据D
从数据A—D的频数图可以看出,四组数据的频数分布特性是不同的。数据A和数据B相比,数据A的频数偏向右边,数据B的频数偏向左边。数据C和数据D的频数分布比较对称,但数据C的频数比较平坦,数据D的频数分布比较集中,形状像一个尖峰。由此引出测定数据频数分布的两个指标——峰度和偏度。
数据的峰度(coefficient of kurtosis)的计算公式为:
峰度系数是描述数据分布陡峭或平坦的指标。与相同均值和标准差的正态分布相比,数据频数图的形状和正态分布接近的,峰度系数为零。形状比正态分布更平坦的,峰度系数为负值,图形越平坦,峰度绝对值越大。形状比正态分布更尖更窄的,峰度系数为正值,图形越尖越窄,数值越大。
数据的偏度(coefficient of skewness)的计算公式为:
偏度系数是描述数据分布对称性的指标。与相同均值和标准差的正态分布相比,如果数据频数图的形状和正态分布类似,左右对称的,偏度系数等于零。数据频数的峰向右偏斜(即拖尾在左边),偏度系数为负值。峰向左偏斜(即拖尾在右边),偏度系数为负值。偏斜程度越大,偏度系数的绝对值越大。
以上峰度系数和偏度系数的公式消除了数据量的大小对计算结果的影响,因此对于数据量不同的数据,用以上公式计算的峰度系数和偏度系数是可比的。
根据公式(1.6)和(1.7),计算数据A、B、C、D的偏度系数和峰度系数,得到表1.18中的结果。
表1.18 数据A、B、C、D的偏度系数和峰度系数
由表1.18可以看出,数据A、B、C、D的峰度系数都小于零,因此都比相应的正态分布平坦,其中数据D的峰最接近于零,最窄最高。从偏度看,数据A的偏度为负数,是右偏的;数据B的偏度为正数,是左偏的;数据C和D的偏度比较接近于零,形状比较对称。
1.5.4 描述统计和描述统计指标的函数
中位数、众数、均值、方差、标准差、峰度、偏度等指标的数值,可以用Excel中的菜单“工具”|“数据分析”|“描述统计”来产生。操作方法如下:打开菜单“工具”|“数据分析”。然后,会出现如表1.59所示的窗口。
图1.59 数据分析窗口
选取“描述统计”,单击“确定”,出现如图1.60所示的窗口。
图1.60 描述统计输入窗口
在以上窗口中输入“输入区域”、“分组方式”、“输出选项”等内容,选择“汇总统计”,单击“确定”,得到表1.19中的输出结果。
表1.19 数据A的Excel“描述统计”结果
其中,“标准误差(标准误)”的概念将在第3章3.2.1节中介绍。“众数”一栏的结果为“#N/A”,表示对于数据A,不存在众数。这是由于在数据A中,所有的数据都不相等,不存在出现次数最多的数据。“#”是Excel计算出错的提示符,“N/A”是not available(无有效值)的缩写。
以上对数据的描述统计,也可以单独用相应的Excel函数计算。这些函数是:
Excel没有提供标准误的函数。
例1.17 用Excel菜单“工具”|“数据分析”|“描述统计”对数据D进行描述统计,结果如图1.61所示。
图1.61 Excel描述统计各项目的函数
1.5.5 数据的统计相关性
事物之间存在着相关性。相关性的种类很多,其中有两类相关性最为重要:一类是因果相关性,另一类是统计相关性。
因果相关性是指变量X和变量Y之间存在因果关系。X是原因,Y是结果。如果X发生,Y就会发生。因果关系需要通过理论或实验来证实。以下是变量之间存在因果关系的例子:
■ 固定资产投资增加和GDP增长;
■ 二氧化碳排放量和平均气温上升;
■ 吸烟数量和年限与肺癌的发病率。
统计相关性是指变量X的数值和变量Y的数值之间可以找出统计关系。统计关系是一种数量关系,不需要、还没有或不可能解释两者之间相关的原因。以下是变量之间存在统计关系的例子:
■ 海水平均温度与灾害性天气天数(厄尔尼诺现象);
■ 公司高尔夫球水平与公司股票市场表现;
■ 超市啤酒销售量和纸尿布销售量。
具有因果关系的变量不一定有统计关系,有统计关系的变量也不一定有因果关系。了解变量的统计关系对管理决策具有重要意义。
线性相关系数是反映两个变量之间线性统计关系的指标。设变量X有N个值(x1, x2,…, xN),均值为μx,标准差为σx;变量Y也有N个值(y1, y2, …, yN),均值为μy,标准差为σy。那么,变量X和Y的线性相关系数可以定义为:
其中
称为变量X和Y的协方差。将公式(1.9)代入公式(1.8),可得X和Y的线性相关系数的表达式为:
线性相关系数R的值在-1到1之间。如果线性相关系数是正数,说明其中一个变量增加或减少时,另一个变量也随之增加或减少。如果线性相关系数是负数,说明一个变量增加或减少时,另一个变量按相反的方向变化,即减少或增加。如果线性相关系数等于零,说明两个变量不相关,即一个变量的变化和另一个变量的变化没有关系。不同数据的线性相关系数的变化如图1.62—图1.68所示。
图1.62 协方差的符号
图1.63 无线性相关关系
图1.64 负相关关系
图1.65 正相关关系
图1.66 完全正相关关系
图1.67 完全负相关关系
图1.68 非线性相关关系
必须说明的是,数据的线性相关系数只表示数据之间的线性相关性,即使数据之间有明显的非线性相关关系,如图1.68,它们的线性相关系数还是可能等于零。今后,如果不是特别强调,我们将变量的线性相关系数简称为相关系数。
如果有多项数据,它们之间每两项数据的相关系数构成线性相关系数矩阵。
例1.18 图1.69是中国足球超级联赛2006赛季15支球队战绩统计数据,见光盘文件“例1.182006赛季中超战绩指标相关系数矩阵”。以此为例,说明如何计算10项统计数据的相关系数矩阵。
图1.69 2006赛季中超战绩的Excel表
打开Excel菜单“工具”|“数据分析”,如图1.70所示。
图1.70 数据分析窗口
选择“相关系数”,出现“相关系数”窗口,如图1.71所示。
图1.71 相关系数窗口
填写表单,完毕后单击“确定”,得到图1.72所示的相关系数矩阵。由图1.72可以看出,变量的相关系数矩阵是一个下三角矩阵,其中对角线上分布的是10项指标自己对自己的相关系数,当然全部是1。其他数字分别表示不同的两个指标统计数据之间的相关系数。
图1.72 中超球队2006赛季战绩数据相关系数矩阵
选择其中的四对变量,它们的相关系数在图1.72中用方框标注。对每一组变量画出散点图,如图1.73—图1.76所示。
图1.73 相关系数0.999
由于已赛场次都是28场,因此各队的进球数和平均每场进球数是密切相关的。以上散点图中的点基本上在一条直线上,而且是正相关。
图1.74 相关系数-0.453
由图1.74可以看出,进球数和失球数呈负相关,但相关关系不明显。
图1.75 相关系数-0.929
图1.75表明,负的场次和积分呈负相关,负的场次越多,积分越少。这和直观判断是一致的。
图1.76 相关系数-0.808
失球数和平均积分也呈负相关,但相关性不如前一组变量。
在第六章回归分析中,我们还将利用变量之间的散点图来进一步分析变量之间的数值关系的表达式。