第4章 SPSS数据的管理
本章包括
◆ 数据的排序
◆ 数据的转置
◆ 重复个案的识别
◆ 数据文件的拆分
◆ 数据文件的合并
◆ 数据的加权
可以对通过数据编辑窗录入和编辑的数据形成的数据文件,进行简单的统计分析。但是在很多情况下,SPSS的分析过程往往对数据有特殊的要求,需要预先对数据文件进行进一步的加工和处理才能顺利地调用相应的统计分析过程。
本章主要介绍一些数据的整理、分类、变换和数据转换的方法,这些方法是进行数据分析的基础。数据文件的管理主要用到主菜单中的“Data”菜单和“Transform”菜单。
4.1 数据的排序
4.1.1 SPSS数据排序的基本操作
在SPSS数据管理中,经常会要求对数据的某些变量进行排序处理,例如对数据文件进行拆分、选择等操作。下面给出排序操作的基本步骤:
step 1 打开个案排序对话框。
选择菜单“Data”→“Sort Cases”命令,显示如图4.1所示的“Sort Cases”(个案排序)对话框。
图4.1 “Sort Cases”(个案排序)对话框
step 2 选择排序变量。
在对话框的左侧变量列表框中选择主排序变量,单击右向箭头按钮,将该变量移动到“Sort by”窗口中,并在“Sort Order”框中选择变量的排序方式,该窗口给出了两种排序方式:
◆ Ascending升序排序。选择该项,表示将所选变量的大小按从小到大的顺序对数据文件中的个案进行排序。
◆ Descending降序排序。选择该项,表示将所选变量的大小按从大到小的顺序对数据文件中的个案进行排序。
如果是多重排序,还要依次指定第二、第三排序变量及相应的排序方法。方法是用鼠标选择“Sort by”窗口的变量,然后选择排序方式。
设置完毕后,单击对话框中的“OK”按钮,数据编辑窗口中的数据便自动按用户指定的顺序重新排列显示。
对于数据的排序操作,需要说明以下几点:
◆ 数据排序是整行数据排序,而不是只对某列变量排列。
◆ 多重排序中指定排序变量的次序很关键。排序时先指定的变量优于后指定的变量。多重排序可以在按某个变量值升序(或降序排列)排列的同时,再按其他变量值的降序(或升序)排序。
◆ 数据排序以后,原有数据的排列次序将被打乱。因此在时间序列数据中,如果数据中没有标识(如年份、月份、季度等),则应注意保留数据的原始排列,以免发生混乱。
4.1.2 数据排序的一个例子
表4.1是大学教师基本情况问卷调查统计表的前20个数据。利用SPSS排序操作,找出年龄最大和最小的个案。(数据文件:data2.sav)
表4.1 大学教师基本情况问卷统计表的前20个数据
图4.2为按年龄(升序)排序后的结果,从图中可以看出,在给定的20名教师名单中,年龄最大者为57岁,最小者为21岁。
图4.2 按年龄排序(升序)结果
还可以通过在主对话框中单击“Paste”按钮,在Syntax语句窗口得到命令语句程序:
/* 按升序排列. SORT CASES BY 年龄 (A) . /* 按降序排列. SORT CASES BY 年龄 (D) .