4.6 数据的分类汇总
4.6.1 分类汇总的概念
分类汇总是数据分析中非常有用的一种数据处理方式。数据的分类汇总是按指定的变量值对个案进行分组,对每组个案的变量求描述统计量,并生成分组数据文件。在分组数据文件中对应分类变量的每个值产生一个个案。
例如,某大学希望掌握不同职称的教师在工作量、申请科研经费、发表论文数等方面是否存在较大的差异。分类汇总是一个值得考虑的方法,利用“职称”作为分类变量,分别计算不同职称教师的平均工作量和相应工作量标准差等。
进行分类汇总应该明确两个概念。
(1)Break VariabIe(分类变量)
选择一个或多个变量作为分组变量。数据文件中的个案根据分类变量值进行分组。分类变量中同一个变量值的所有个案构成一个类组。例如,在上面例子中,“职称”是分类变量,“职称”的4个值(助教、讲师、副教授、教授)构成分类汇总的4个类组,即所有统一职称的个案在同一类组。分类变量可以是数值型或字符型。
(2)Aggregate VariabIe(汇总变量)
在分类汇总文件中,利用源数据文件中的变量和相应汇总函数,产生新变量的名称及其表达式。汇总变量的类型要求为数值型。例如,上例中,要求比较的变量“工作量”、“科研经费”为源变量,“工作量”、“科研经费”的平均值为汇总变量。
4.6.2 分类汇总的操作步骤
下面通过具体实例,说明数据分类的基本方法和操作步骤。
表4.1中给出了一个具有20个个案、9个变量的数据文件,是在第3章中介绍的关于大学教师基本情况问卷调查的部分数据,现利用SPSS的数据汇总功能解决上面提出的问题。(数据文件:data2.sav)
基本操作步骤如下:
step 1 将表4.1显示的数据文件data2 .sav读入SPSS的数据编辑窗口。
step 2 打开主对话框。
在数据编辑窗口,选择菜单“Data”→“Aggregate”命令,显示如图4.20所示的“Aggregate Data”(数据汇总)对话框。
图4.20 “Aggregate Data”(数据汇总)对话框
step 3 选择分类变量。
在对话框左侧的变量列表框中选择一个或多个变量作为分类变量,单击上方的右向箭头按钮,将变量移动到“Break Variable(s)”(分类变量)窗口。本例中,选择变量“职称”为分类变量。
step 4 选择汇总变量。
在对话框的左侧变量列表框中选择一个或多个变量作为汇总变量,单击靠下的右向箭头按钮,将该变量移动到“Aggregate Variable(s)”(汇总变量)窗口,移动到“Summaries of Variable(s)”窗口内的汇总变量自动改名。本例中,汇总变量为“年龄”、“工作量”、“论文数”和“科研经费”,在“Aggregate Variable(s)”窗口中分别显示为“年龄_mean=MEAN[年龄]”、“工作量_mean=MEAN[工作量]”等。
step 5 添加变量标签。
在“Aggregate Variable(s)”窗口中选择相应汇总变量后,单击“Name Label”按钮,出现如图4.22所示的“Aggregate Data:Variable Name and Label”(数据汇总:变量名和变量标签)对话框,重新命名汇总数据文件中的相应变量名或添加变量标签,包含两个输入栏:
◆ Name定义汇总变量的变量名。
◆ LabeI定义汇总变量的变量标签。
重命名后,单击“Continue”按钮,返回到如图4.21所示对话框。
图4.21 “Aggregate Data:Variable Name and Label”(数据汇总:变量名和变量标签)对话框
step 6 汇总函数的选择和计算。
在“Break Variable(s)”窗口中选择相应的变量后,单击“Function”按钮,打开如图4.22所示的“Aggregate Data:Aggregate Function”(数据汇总:汇总函数)子对话框。指定对汇总变量选择计算的统计量,默认选择是“Mean”(均值),即计算变量的平均值。选择完毕后,单击“Continue”按钮,返回到如图4.21所示对话框。
图4.22 “Aggregate Data:Aggregate Function” (数据汇总:汇总函数)对话框
汇总函数对话框中给出的所有选项均为单选项,按类别可分为以下5类:
“Summary Statistics”(综述)窗口给出数据综合特征的描述,包括以下选项:
◆ Mean均值。
◆ Median中位数。
◆ Sum求和。
◆ Standard Deviation标准差。
“Specific Values”(特定值)窗口指定汇总变量的特定值描述,包括如下选项:
◆ First第一个值。
◆ Last最后一个值。
◆ Minimum最小值。
◆ Maximum最大值。
“Number of cases”(个案数量)窗口指定汇总变量中个案的数量,是数据个案数量的特征描述。包括如下选项:
◆ Weighted加权个案数。
◆ Weighted Missing加权缺失数据的个案数。
◆ Unweighted未加权个案数。
◆ Unweighted Missing未加权缺失数据的个案数。
“Percentages”(百分比)窗口给出个案百分比的特征描述统计量。包括如下选项:
◆ Above分类组中变量值大于界限值的个案数占该分类组中总个案数的百分比。
◆ BeIow分类组中变量值小于界限值的个案数占该分类组中总个案数的百分比。
◆ Inside分类组中变量值在给定界限值区间的个案数占该分类组中总个案数的百分比。
◆ Outside分类组中变量值在给定界限值区间外的个案数占该分类组中总个案数的百分比。
“Fractions”(比率)窗口给出个案比率的特征描述。包括:
◆ Above分类组变量的值大于界限值的个案数占该类组中总个案数的比率。
◆ BeIow分类组中变量值小于界限值的个案数占该分类组中总个案数的比率。
◆ Inside分类组中变量值在给定界限值区间的个案数占该分类组中总个案数的比率。
◆ Outside分类组中变量值在给定界限值区间外的个案数占该分类组中总个案数的比率。
step 7 选择汇总结果保存方式。
汇总结果既可以通过添加变量直接保存在活动数据文件中,也可以通过创建新的汇总数据文件保存。在“Save”框中有3个单选项:
◆ Add aggregated variabIes to active dataset默认选项。将利用汇总函数计算得到的新变量,添加到当前活动数据集。分类变量中具有相同变量值的每一个个案显示相同的相应汇总变量值。
◆ Create a new dataset containing onIy the aggregated variabIes在数据编辑窗口重新创建一个新的汇总数据集。数据集中包括分类变量和所有通过汇总函数定义的汇总变量。活动数据集不发生变化。用户可以选择定义新的数据集名,只需在“Datafile”栏输入数据集名即可。
◆ Write a new data fiIe containing onIy the aggregated variabIes将汇总数据文件保存到一个默认文件名为aggr.sav的外部数据文件。数据集中包括分类变量和所有通过汇总函数定义的汇总变量。活动数据集不发生变化。
step 8 大数据量数据文件的排序选择。
对于含有大数据量的数据文件,汇总之前应先进行排序操作,这样会使后续操作更有效率。为此,SPSS也设置了排序选项,“Sorting Options for Large Data Files”窗口中给出两个可选框:
◆ FiIe is aIready sorted on break variabIe(s) 分类变量已经排序。如果数据已经根据分类变量进行排序,选择该项可以使得汇总过程的速度更快,并且占用更少的内存。
(1)选择该项时,分类变量的排序方式(升序或降序)必须和汇总数据过程中指定顺序一致;(2)如果需要在活动数据中集中添加变量,选择该项时分类变量必须选择升序方式排序。
◆ Sort fiIe before aggregating汇总之前进行排序操作。对于大数据量文件可以选择该项。除非遇到内存空间或机器性能等问题,一般不建议选择该项。
step 9 执行数据汇总操作。
以上设置完毕无误后,单击“OK”按钮,执行数据汇总操作。这时,会在数据编辑窗口添加汇总变量,图4.23显示的是数据汇总操作后的部分汇总结果。
图4.23 数据汇总操作后的部分汇总结果
从图4.23的汇总结果中可以看出,随着教师职称的增高,平均年龄、平均论文数和平均科研经费都呈增加趋势,尤其科研经费的均值增加幅度更大,但工作量在后三个职称中却呈递减趋势。这也反映了高校中具有高级职称的教师承担基础教学工作过少的现实。
step 10 “Paste”得到的Syntax语句程序如下:
/* 数据汇总的命令语句. AGGREGATE /OUTFILE=* MODE=ADDVARIABLES /BREAK=职称 /年龄_mean = MEAN(年龄) /工作年月_mean = MEAN(工作年月) /论文数_mean = MEAN(论文数) /科研经费_mean = MEAN(科研经费).