SPSS宝典
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第2部分 利用SPSS进行统计分析

第2章 SPSS的基本统计分析

本章包括

◆ 基本统计量的定义和计算

◆ 频数分析过程

◆ 描述性分析过程

◆ 探索性分析过程

数据处理和统计分析过程通常是从基本统计量的计算和描述开始的。通过计算诸如样本均值、样本标准差等重要的基本统计量,并辅助于SPSS提供的图形功能,把握数据的基本特征和整体的分布形态,对进一步的统计推断和数据建模工作将起到重要作用。另外,构建更复杂的统计算法同样离不开基本统计量的计算。

基本统计分析通常包括以下内容:

(1)单变量频数分布表的编制。

(2)基本统计量的计算。

(3)数据的探索性分析。

(4)多选项分析。

(5)比率分析。

SPSS for Windows中的许多模块都具有基本统计量的计算和描述功能。Analyze菜单中的Descriptive Statistics模块集中了最常用的基本统计分析的5个过程:Frequencies(频数分析过程)、Descriptives(描述性分析过程)、Explore(数据探索过程)、Crosstabs(交叉列联表过程)、Ratio (比率过程)。另外,在最新的SPSS中,图形工具P-P Plots(P-P图)和Q-Q Plots(Q-Q图)也已集成到该模块。

利用基本统计分析模块,可以通过选择菜单“Descriptive Statistics”(描述性统计分析)下的各个过程得到,如图6.1所示。

图6.1 “Descriptive Statistics”(描述性统计分析)下的各个模块

6.1 基本统计量的定义和计算

SPSS提供的基本统计量可以分为三类:(1)描述集中趋势的统计量;(2)描述离散程度的统计量;(3)描述总体分布形态的统计量。下面叙述基本统计量的定义和计算公式。

6.1.1 描述集中趋势的统计量

统计学中的集中趋势的统计量是由样本值确定的,样本值有向这个数据集中的趋势。描述集中趋势的统计量有很多,根据集中趋势的定义不同,可以分为样本均值、中位数等。

(1)均值(Mean)

又称“算术平均值”,其数学定义为

这里,n为样本容量,xi为样本点的数值。样本均值反映了变量取值的集中趋势,或者平均水平,是最常用的基本统计量。例如,需要计算某一单位所有职工的平均工资;某一学校进行评比,需要计算各个班级学生某门课程的平均成绩等。

(2)中位数(Median)

一组样本数据按升序或降序排列后,如果样本容量为奇数,则取中间位置的数值;如果为偶数,则取中间两个数据的平均值。中位数受数据变化影响比均值要大,但不受极值的影响。在经济部门的统计工作中应用较为广泛,例如某公司职工年龄的中位数。

(3)众数(Mode)

样本中出现次数(频数)最多的数值。

(4)百分位数(PercentiIe VaIue)

类似于随机变量分位点的概念。将样本数据按升序排列后,排在前面p%的数据时的右端点值称为样本的p分位数。常用的主要有四分位数(Quartiles),即将数据分成4等份,分别位于25%、50%和75%处的分位数。

6.1.2 描述离散趋势的统计量

统计学中描述离散趋势的统计量是样本值远离集中趋势统计量程度的定量化描述。重要的描述离散趋势的统计量有样本方差、样本标准差等。

(1)样本方差(Variance)

数学定义为

这里,n为样本容量,xi为样本点的数值。从公式中可以看出,样本方差是刻画样本数据关于均值的平均偏差平方的一个量,是描述样本离散趋势的最常用的统计量。样本方差越大,表示样本值偏离样本平均值的可能性就越大。

(2)样本标准差(Std. deviation)

由于样本方差的计算单位是样本值的平方,将样本方差开方后可以得到和样本值相同量的统计量,我们将样本方差开方后的统计量称为样本标准差。样本标准差和样本方差一样,也是度量样本离散程度的重要统计量。

(3)均值标准误差(Standard Error of Mean)

即样本均值的标准差,其数学定义为:

这里,n为样本容量,σ为总体分布的标准差。均值标准误差是描述样本均值和总体均值平均偏差程度的统计量。

(4)极差(Range)

样本数据中最大值和最小值之差。显然,在样本容量相同的情况下,极差大的样本要比极差小的样本分散性更大,但极差易受样本最大值和最小值的影响,没有体现中间数值的信息,所以稳定性较差。

6.1.3 描述分布形态的统计量

要全面从整体上把握样本数据的分布,仅仅有集中趋势和离散趋势统计量是不够的,还需要掌握数据分布的形态,例如数据直方图的对称性、偏斜程度以及陡缓程度等。关于描述数据的分布形态的统计量,主要有偏度和峰度两种。

(1)偏度(Skewness)

偏度是描述取值分布形态对称性的统计量。偏度的数学定义为

这里, ,是样本3阶中心矩,Var为样本方差。偏度的绝对值越大,表示数据分布的偏斜程度越大,其来自于正态总体的样本偏度越近似为0。

(2)峰度(Kurtosis)

峰度是描述变量取值分布形态陡缓的统计量。峰度的数学定义为

Kurtosis=μ4/Var 2- 3

这里, ,是样本4阶中心矩,Var为样本方差。峰度的绝对值越大,表示数据分布的陡峭程度越大,其来自于正态总体的样本峰度越近似为0。

所以,在非参数假设检验中,常利用偏度和峰度的值是否接近于0,来作为检验是否是正态分布的重要依据。