SPSS宝典
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

6.4 探索性分析过程

6.4.1 探索性分析问题的提出

探索性分析是指对数据的探索和考察。通过对数据的分析,寻求和确定适合所研究问题的统计方法。SPSS的数据探索过程(Explore)是针对解决此类问题的有效方法。探索过程提供了很多关于数据的概括分析和图表直观描述的方法,不仅可以对个案数据进行探索性分析,还可以针对分组个案。探索过程的因变量必须是定距型变量,分组变量可以是定序型变量或是定类型变量。

探索性分析问题采用的分析方法可归结为以下几个方面。

6.4.1.1 对数据进行初步考察

考察数据中是否有明显不合理的数值,通常是过大或过小的极端值(extreme values)以及不符合现实的离群点(outliers)。通过分析原因,决定是否从数据文件中剔除或者进行相关的处理。

例如,1代表男性,2代表女性,但在性别一栏出现3,这显然是不合理的,出现错误的原因可能是输入失误,也可能是被调查者的故意隐瞒,可以根据分析问题的性质决定提出此个案或随机指定一性别处理,还有接受教育的时间为120年,也属于此类情况。

6.4.1.2 对数据分布的假设检验

统计分析理论中,要求对数据的分布有一定要求。例如,线性回归分析中要求残差服从均值为0的正态分布,其他很多统计方法都有要求样本要来自于正态总体。对两组数据分析时,要求两组数据来自于方差相等的总体,这就需要考察数据的方差齐性。从理论上说,是否满足某种假设决定着分析问题时选用的统计方法。这些问题都提出了对数据分布的检验问题。

SPSS的探索分析过程和其他过程(例如,Compare Means模块和Correlate模块的很多过程)均提供了常用的检验方法供用户选择。

6.4.1.3 对数据的直观初步分析

对于分组数据和不分组数据,还可以利用SPSS提供的各种描述统计量和图表进行直观分析。例如,散点图、直方图、茎叶图、箱图和样本均值、样本标准差等,加上前面所述的各种检验方法,读者便可对数据的分布有一个全面而准确的认识。

6.4.2 探索分析的SPSS操作

step 1 打开主对话框。

选择菜单“Analyze”→“Descriptive Statistics”→“Explore”命令,打开“Explore”(探索分析)主对话框,如图6.9所示。

图6.9 “Explore”(探索分析)主对话框

step 2 选择分析变量。

从对话框左侧的变量列表框中选择一个或多个数值型变量,单击对话框上侧的右向箭头按钮,将其移动至右侧的因变量列表“Dependent List”窗口,如不选择分组变量,则可忽略step 3

这里的因变量是待探索分析的变量,也称解释变量。必须为数值型变量,例如,年龄、各国的GDP等。

step 3 选择因素变量。

这里的因素变量实际上就是分组变量。在变量列表中选择分组变量,单击中间的右向箭头,将其移动到因素列表“Factor List”窗口,可以选择多个因素变量。

因素变量一般是定序型变量或定类型变量,但也可以是定距型变量。探索分析是根据因变量所选择的不同的分组进行分析的。

step 4 选择标签变量。

从变量列表窗口中选择一个变量作为个案的标签变量,移动至“Label Cases by”(个案标签)窗口。这里的标签变量用于在出现奇异值时,利用其作标识。如果该项缺选,系统会自动寻找“id”变量作为标签变量。

step 5 选择输出结果项。

在“Display”(显示)窗口给出输出结果的3种可选方式:

Both 同时选择输出统计量和图形。为默认选项。选择该项后,后两个选项按钮将被激活。

Statistics 选择该单选项,只输出描述性统计量结果。

PIots 选择该单选项,只输出图形结果。

step 6 执行探索分析操作。

单击“OK”按钮,执行数据探索操作。

6.4.3 Statistic选项

当选择输出结果为“Both”或“Statistics”时,“Statistics”按钮将被激活。单击“Statistics”按钮,弹出如图6.10所示的“Explore:Statistics”(探索分析:统计量)对话框。

图6.10 “Explore:Statistics”(探索分析:统计量)对话框

该对话框中给出4个常用关于统计量的选项:

Descriptives 默认选项。选择该项,要求输出描述性统计量,包括均值、中位数、5%的调整均值、标准误差、方差、标准差、最大值、最小值、极差、四分位数、峰度、偏度。

选择该项时,需要在“Confidence lnterval for Mean”(均值的置信区间)窗口输入均值置信区间的置信度,默认值为95%。也可以选择1~99的百分数值。

M-estimators M-估计,可以输出4种稳健极大似然估计量。对于长尾对称分布或数据有极端异常值时,利用稳健估计量估计总体均值要比样本均值或中位数有更好的稳定性。根据样本值的权重不同,可以得到不同的估计量,主要有4种,其中包括稳健估计量(Huber)、非稳健估计量(Hampel)、波估计量(Andrew)、复权重估计量(Tukey)。

OutIiers 离群点。输出5个最大值和最小值。

PercentiIes 输出结果显示5%、10%、25%、50%、75%、90%、95%的百分位数。

6.4.4 Plots选项

当选择输出结果为“Both”或者“Plots”时,“Plots”按钮将被激活。单击该按钮,弹出如图6.11所示的“Explore:Plots”(探索分析:绘图)对话框。

图6.11 “Explore:Plots”(探索分析:绘图)对话框

该对话框中给出了图形输出的的选项,包括3个主要窗口:

“Boxplots”(箱图)窗口用于设置显示箱图的选项。在有两个以上的因变量时,可以考虑作箱图。关于箱图的3个单选项:

Factor IeveIs together 选择该项,表示不同分组的同一因变量显示在一个箱图中。用于比较同一因变量在分组变量值的不同水平上的值的分布情况。

Dependents together 选择该项,表示在同一组的不同的因变量显示在一个箱图中。用于比较同一分组水平下不同变量的值的分布。

None 选择该项,表示不显示箱图。

“Descriptive”窗口用于设置图形描述选项。可以指定因变量值的图形,有两个单选项:

Stem-and-Ieaf 默认选项,表示显示茎叶图。

Histograms 直方图。

对于正态分布的检验,有如下选项及含义:

“Normality plots with tests”选项表示显示正态分布和无趋势正态分布概率图,并计算和显示在Lilliefors显著性水平下,正态总体检验的Kolmogorov-Smirnov统计量。如果加权样本容量在3~500之间,还需计算Shapiro-Wilk统计量,这种情况也适合于不加权或者整数加权时的情况。

“Spread vs. Level with Levene Test”窗口用于对数据转换后的散布水平图的设置。对于所有的散布水平图,显示数据转换后的回归曲线的斜率和方差齐性的Levene稳健检验。

None 默认选该项。不产生散布-层次图和方差齐性的Levene检验。

Power estimation 功效估计。选择该项,显示四分位数间距的自然对数和所有单元格中位数的自然对数的散布图,同时,还显示单元格满足方差齐性的功效转换估计值。

Transformed Power 转换功能。选择该项后,须在“Power”窗口的下拉菜单中选择转换类型,下拉菜单中的转换类型包括Natural log(自然对数)、1/Square root(平方根的倒数)、Reciprocal(倒数)、Square root(平方根)、Square(平方)、Cubic(立方)。选择转换函数后,可以产生转换后的数据散布图。

Untransformed 选择该项,数据不进行转换,产生原始数据的散布图。

参见假设检验章节的齐性检验内容。

6.4.5 Options选项

在“Explore”主对话框中,单击右下角的“Options”按钮,出现“Explore:Options”(探索分析:选项)对话框,如图6.12所示。

图6.12 “Explore:Options”(探索分析:选项)对话框

该对话框只有一个窗口“Missing Values”(缺失值),“Missing Values”窗口中的3个单选项给出了关于缺失值设置的选择:

ExcIude cases Iistwise 默认选项。在所有的分析中,剔除分组变量和因变量中的缺失值个案。

ExcIude cases pairwise 剔除当前分析中的缺失值个案。

Report vaIues 选择该项,表示将分组变量的缺失值单独分为一组,并用频数表输出。

6.4.6 实例:新型合金耐热性的探索分析

6.4.6.1 实例数据

工厂利用氮化银生产陶瓷轴承产品,必须保持1500℃或更高的温度。标准合金的耐热温度服从正态分布,现对一种新型合金的耐热性进行测试,分别在8个生产车间进行了240次对比试验。对新型合金进行探索分析。(数据文件:explore.sav)

6.4.6.2 操作步骤

step 1 打开数据文件explore.sav。

step 2 选择菜单“Analyze”→“Descriptive Statistics”→“Explore”命令,打开“Explore”主对话框。在变量列表框中选择变量“温度”,移动到“Dependent”窗口;将变量“合金类型”移动到“Factor List”窗口;将变量“测试车间”移动到“Label Cases”窗口。

step 3 单击“Statistics”按钮,在弹出的“Explore:Statistics”对话框中选择“M-estimators”和“Outliers”选项,单击“Continue”按钮,返回到“Explore”主对话框。

step 4 单击“Plots”按钮,在“Explore:Plots”对话框中选择“Normality plots with tests”选项,单击“Continue”按钮,返回到主对话框。

step 5 其他选项默认。在“Explore”主对话框中,单击“OK”按钮,执行数据探索操作。

step 6 “Paste”得到的Syntax命令语句程序如下:

          /* 探索分析过程的命令语句.
          EXAMINE
            VARIABLES=temp BY alloy /ID= worsta
            /PLOT BOXPLOT STEMLEAF NPPLOT
            /COMPARE GROUP
            /MESTIMATORS       HUBER(1.339)    ANDREW(1.34)    HAMPEL(1.7,3.4,8.5)
          TUKEY(4.685)
            /STATISTICS DESCRIPTIVES EXTREME
            /CINTERVAL 95
            /MISSING LISTWISE
            /NOTOTAL.

6.4.7 探索分析的结果

探索分析的结果较多,分述如下。

(1)过程概述

表6.4是探索分析的过程概述,很多SPSS统计分析构成都会自动给出这样的一个过程概述表。表中一般会给出参与分析的个案数、缺失值信息以及其他的分组信息等。

表6.4 探索分析的过程概述

(2)探索分析的描述性统计量

表6.5显示了两种不同合金的描述性统计量列表。利用该表的统计量,可以比较两种合金的相关关系。

表6.5 描述性统计量列表

(3)探索分析的M估计值

表6.6显示的是探索分析的M估计值。从表中可以看出,两种合金的4种估计值有一定差距,但不是很大。表中注释部分显示的是各个统计量对权数的取值。

表6.6 M估计值

a The weighting constant is 1.339.

b The weighting constant is 4.685.

c The weighting constants are 1.700, 3.400, and 8.500.

d The weighting constant is 1.340*pi.

(4)探索分析的极值

表6.7显示的是探索分析的极值列表,分别计算出两种合金的5种最大值和最小值。

表6.7 探索分析的极值列表

(5)正态性检验

表6.8是探索分析的正态性检验。从表中可以看出,正态性检验包括Kolmogorov-Smirnov检验和Shapiro-Wilk检验。标准合金的概率p值都大于0.05,通过了正态性检验,可以认为标准合金的温度分布服从正态分布;但新型合金的概率p值小于0.05,没能通过正态性检验,所以认为新型合金温度的分布不服从正态分布。

表6.8 正态性检验

* This is a lower bound of the true significance.

a Lilliefors Significance Correction.

(6)探索分析的茎叶图

图6.13(a)和图6.13(b)分别显示了新型合金和标准温度分布的茎叶图。该茎叶图利用原始数据,以图形的形式表现了分布的形状,或者说是描述性列表中偏度统计量值的图形表示。

图6.13(a) 新型合金的茎叶图

图6.13(b) 标准合金的茎叶图

从图中可以看出,新型合金温度均匀分布在1530~1543之间,然后在更高的温度下逐渐变得分散。而标准合金的温度变化则主要分布在1510左右,然后在两边逐渐分散,呈现较明显的正态性。进一步验证了正态性检验的结果。

(7)探索分析的Q-Q图

图6.14是新型合金温度的Q-Q图。图中直线表示的是当数据服从正态分布时的期望值,从图中可以看出,观测值逐渐偏离直线,尤其是当温度上升时更加明显。

图6.14 新型合金温度的Q-Q图

(8)探索分析的箱图

图6.15显示的是合金类型的箱图。从图中可以看出,两种类型的合金温度值的分布。标准合金的温度分布上下较均匀,而新型合金的温度分布上下存在不对称性。

图6.15 合金类型的箱图