4.4 数据文件的拆分
在进行数据管理和统计分析时,经常需要将文件中的数据按变量进行分组分析。例如,在教师基本情况调查表中,需要统计出具有“教授”职称的教师,其年度发表论文的平均值和科研经费总数。但是,由于具有不同职称的教师的相关数据都在同一个数据文件中。因此在进行分析时,应该对数据文件按照“职称”变量进行拆分。
拆分文件并不是将原文件拆分成两个或多个独立文件,而是对原文件按照某种变量值重新排序,但又和之前所述的数据排序不同,因为数据的拆分对后续的统计分析有很大的影响,后续分析将按照分组进行。
在数据编辑窗口读入数据(数据文件:data2.sav)后,可以按照下面给出的拆分数据文件的基本步骤进行操作:
step 1 打开主对话框。
选择菜单“Data”→“Split Files”命令,打开“Split File”(拆分文件)对话框,如图4.9所示。
图4.9 “Split File”(拆分文件)对话框
step 2 选择文件拆分方式。
在“Split File”对话框中,首先选择文件拆分方式:
◆ AnaIyze aII cases,do not create groups分析所有个案,但不创建分组。默认选项。选择该项,表示分析所有个案,不进行拆分。若选则该项,下面的分组信息将呈灰色显示,不可用。
◆ Compare groups比较分组。选择该项,表示将分组统计结果输出到同一张表格中,以便进行不同组之间的比较。一般选择此项。
◆ Organize output by groups输出结果按组分开组织。选择此项,表示将分组统计结果分别输出到不同的表格中。
若选择“Compare groups”或“Organize output by groups”单选项,则其下面的变量分组选择窗口“Groups Based on”(分组基于)将变为可用。在左边变量列表中选择一个以上的分组变量,通过单击右向箭头按钮,将其移动到“Groups Based on”窗口。本例选择的分组变量是“职称”。
如果数据编辑窗口中的数据已经事先按所指定的拆分变量进行了排序,则可以选择“File is already sorted”(文件已经拆分)选项;否则,选择“Sort the file by grouping variables”(按分组变量对文件进行排序)选项。
step 3 执行文件拆分操作。
单击“OK”按钮,执行拆分数据文件的操作。
图4.10、图4.11和图4.12分别是按照“Analyze all cases,do not create groups”选项、“Compare groups”选项和“Organize output by groups”选项拆分文件,进行描述性统计分析后得到的输出结果。从图中可以看出,第3个输出结果实际上是第2个输出结果中的表格按职称分成了单独的4个表格。
图4.10 选择Analyze all cases,do not create groups选项后的描述性分析结果
图4.11 选择Compare groups选项后的描述性分析结果
图4.12 选择Organize output by groups选项后的描述性分析结果
拆分后的文件如果保存修改文件,则在下次调用该数据文件时,分组信息仍起作用。当不需要分组信息时,可以按上述拆分文件的步骤,选择默认选项“Analyze all cases,do not create groups”,即可消除分组信息。
step 4 “Paste”得到的Syntax语句程序如下:
/* 拆分文件后在同一表格显示结果的命令语句Compare groups. SORT CASES BY 职称 . SPLIT FILE LAYERED BY 职称 . /* 拆分文件后在不同表格显示结果的命令语句Organize output by groups. SORT CASES BY 职称 . SPLIT FILE SEPARATE BY 职称 .