第3章 SPSS统计数据的创建与编辑
本章包括
◆ SPSS数据的属性及其定义方法
◆ SPSS数据文件的构成
◆ 应用案例:定义SPSS数据结构
◆ SPSS数据的录入
◆ SPSS数据的编辑
◆ 数据文件的操作
建立SPSS数据文件是利用SPSS进行数据管理和统计分析的首要工作,只有高质量的统计数据才是数据分析的可靠保证。本章介绍创建SPSS数据文件的基本方法和操作步骤。
3.1 SPSS数据的属性及其定义方法
一个完整的SPSS数据结构应包括变量名、变量类型、变量名标签、变量值标签、缺失值的定义、度量尺度以及数据的显示属性,即显示宽度、列宽度和对齐方式等。首先,我们给出SPSS变量属性的定义和有关设置。
3.1.1 变量名(Name)
变量名是变量参与分析的唯一标志,定义变量结构时首先应给出每个变量的变量名。变量命名应遵循如下规则:
◆ 首字符必须是字母或汉字,后面可以是任意字母、数字、句点,除“!”“?”“*”之外。
◆ 变量名的结尾不能是圆点、或者下画线。
◆ 变量名长度不能超过64个字符(32个汉字)。
◆ 变量名必须是唯一的,且不区分大小写。
◆ SPSS的保留字不能作为变量名。SPSS的保留字有:ALL、NE、EQ、TQ、LE、GE、BY、OR、GT、AND、NOT和WlTH等。
◆ 如不指定变量名,则系统默认变量名为以“VAR”开头,后面跟5个数字,如VAR00001、VAR00002、VAR00018等。
为便于记忆和理解,定义变量名时最好与其所代表的具体含义相一致,例如“country”,“GDP”,“汇率”等。
3.1.2 变量类型(Type)
SPSS的变量类型分为数值型、字符型和日期型,其中,数值型变量根据其功能和形式又可细分为标准型、逗号型、圆点型、科学计数型、美元型和自定义货币型。系统默认的变量类型为标准数值型。
每一种变量类型都有系统默认的宽度、小数位和列宽度。这里的宽度是指变量可显示的最大字符位数,列宽度是数值编辑窗口中每列显示的字符位数。如果列显示宽度小于变量的宽度,则相应列中的数据将显示为需要列宽较小的科学计数法,或者显示为若干个“*”号。图3.1所示为变量类型的定义对话框。
图3.1 变量类型定义对话框
下面给出变量类型的分类和定义方式。
3.1.2.1 数值型变量(Numeric)
数值型变量是SPSS最常用的一种变量类型,一般由数字和其他特殊字符(如圆点、逗号、美元符号等)构成。例如军费开支、零售价格指数以及药剂量的大小等都可定义为数值型变量。SPSS中,数值型变量有6种不同的表示方式。
(1)标准型(Numeric)
SPSS默认的数值类型。系统默认宽度为8位,小数位数为2位,小数点用圆点。数据编辑窗口显示数值的标准形式或者科学计数法格式。
(2)科学计数法型(Scientific Notation)
科学计数法型适合于显示数值很大或者很小的变量。变量值显示为指数形式。例如-1.28E+002表示-1.28×102,在数据编辑窗口中显示为2.88E+002的数值,可以用下列方法输入:2.88E2、2.88D2、2.88+2、288、2.88E+2等。
(3)逗号型(Comma)
逗号型数据的整数部分从个位数开始向前每隔3个数字就用逗号分隔,且以圆点作为小数点。输入数据可以利用上面的任意形式,不需要输入逗号,SPSS显示时,会自动在相应位置添加逗号。
(4)圆点型(Dot)
圆点型数据的显示方式和逗号型相反,即其整数部分从个位开始每隔3位以一圆点分隔,用逗号作为整数和小数部分的分隔符。
变量值可以根据对变量数据类型所作的定义或者列宽的限制显示为不同的数值类型,甚至“*”号,但数据的显示对数据的存储和计算没有影响。
(5)美元型(DoIIar)
美元型变量是在逗号型变量前加上美元符号“$”的数值型变量,图3.2所示为美元型变量定义对话框。在美元型变量定义对话框中,列出多种固定格式,用户可以选择格式,也可以自己定义。例如,某产品价格为1789.98美元,可以选择“###,###.##”格式。若需要显示大额美元数值,可以增加对话框中参数选项“Width”的值。
图3.2 美元型变量定义对话框
(6)自定义货币型(Custom Currency)
SPSS提供了5个自定义货币型变量的类型,图3.3所示为自定义货币型变量定义对话框。对应的自定义类型,系统分别命名为CCA、CCB、CCC、CCD和CCE型。若用户将变量类型自定为5个中的一个,但没有事先定制CCA、CCB、CCC、CCD和CCE的具体类型,则系统自动默认为逗号数值型。
图3.3 自定义货币型变量定义对话框
若要重定义CCA、CCB、CCD、CCC和CCE的类型,需要打开“Edit”菜单的“Options”项,具体方法如下:
step 1 首先,在SPSS主界面中,选择菜单“Edit”→“Options”命令,在显示的Options对话框中,单击选项标签“Currency”,出现如图3.4所示的自定义货币型变量设置对话框。
图3.4 自定义货币型变量设置对话框
“Edit”菜单下的“Options”对话框里包含了SPSS主要的定制和控制功能。利用“Options”对话框中提供的项目,可以定制变量的显示类型、图表的显示方式以及输出结果的形式,同时,还可控制SPSS启动的内容以及暂存文件夹的地址等。后续章节在讲述各种窗口的设置时仍要用到该对话框。
step 2 其次,若定制CCA的类型,可先在“Custom Output Formats”窗口中选择CCA,然后,在“All Values”(所有值)窗口中,选择前后缀:
◆ Prefix 前缀。该栏中输入数据开始字符。
◆ Suffix 后缀。该栏中输入数据结尾字符。
在“Negative Values”(负数值)窗口中设置负数的输入格式,有两个选项:
◆ Prefix 前缀。该栏中输入负数数据开始字符。
◆ Suffix 后缀。该栏中输入负数数据结尾字符。
在“Decimal Separator”(小数分隔符)窗口中,选择数值部分小数和整数的分隔符,有两个选项:
◆ Period 圆点。
◆ Comma 逗号。
在“Sample Output”(输出样式)窗口中,可以看到设置格式的显示样式。设置完毕后,依次单击“Apply”(应用)按钮和“OK”(确定)按钮,使定制生效。
例如,在“All Values”(所有值)窗口中的“Prefix”栏中输入“¥”,在“Suffix”栏中输入“元”,则在数据编辑窗口中定义为CCA类型的变量中输入数据2388.95后,数据显示为:¥2388.95元。
3.1.2.2 日期型变量(Date)
日期型变量用于表示日期和时间的变量类型。SPSS提供了多达29种日期型变量的格式,例如,dd.mm.yy格式,dd表示两位数的日期,mm表示两位数的月份,yy表示两位数的年份,中间用圆点分隔符,08.07.06表示2006年7月8日;再如,dd-mmm-yyyy,dd表示两位数的日期, mmm表示英文月份的三个字母的缩写,yyyy表示四位数的年份,这里“-”为分隔符。例如31-OCT-2006表示2006年10月31日。
图3.5为日期型变量的定义窗口,在窗口的列表选择框中,SPSS给出了29种日期类型的格式供用户选择。
图3.5 日期型变量的定义窗口
表3.1列出了几种主要的日期型格式及示例,供用户选择参考。
表3.1 部分日期型格式及示例
3.1.2.3 String(字符型变量)
字符型变量类型是非数值型变量类型,其值由字符串组成。字符型变量的定义对话框只有一个输入项:Characters,如图3.6所示,用于输入变量字符的最大个数,默认值是8,可以修改字符串长度。对于字符数超过8个的字符型变量称为长字符型变量,等于或少于8个的字符型变量称为短字符型变量。字符串变量值不能参与计算,但可以通过函数转化为数值型变量进行运算。
图3.6 字符型变量定义对话框
3.1.2.4 修改数据变量的默认值
对于SPSS变量的参数,系统都会自动给出默认值。例如,数值型变量的Width(宽度)默认值为8位,Decimal(小数位)默认值为2。也可通过“Edit”菜单的“Data”对话框重新设置,具体步骤如下:
在SPSS主界面中,选择菜单“Edit”→“Options”命令,在弹出的对话框中,单击菜单项的“Data”按钮,显示如图3.7所示的数据设置对话框。
图3.7 数据设置对话框
该对话框的窗口及选择项含义如下:
(1)Transformation and Merge Options(转换和合并选项)窗口
“Transformation and Merge Options”窗口中给出设置数据转换和合并的时间,有两个单选框:
◆ CaIcuIate vaIues immediateIy 立即计算变量值。默认选项。选择该项,表示执行命令的同时,进行变量的计算和转换。
◆ CaIcuIate vaIues before used 在使用该数据之前进行转换。选择该项,表示执行命令之前,先将需要处理的变量进行计算和转换。
SPSS程序执行一条命令时,需要读取数据文件,如果数据进行了预处理(例如计算和重新编码等)或数据文件进行了转换(例如添加变量或添加个案),则系统执行命令时,首先执行数据预处理命令,然后执行程序命令。选择第一个选项时,执行程序命令需要哪一个数据,就对该数据进行预处理;选择第二个选项时,是在执行程序命令之前,先将所需要的数据文件全部进行预处理,然后再执行程序命令。对于经常处理巨量数据的用户,选择第二个选项更有效率。
(2)DispIay Format for New Numeric VariabIes(显示新的数值型变量的格式)窗口
“Display Format for New Numeric Variables”窗口给出设置数值型变量值的显示格式。
选择设置变量的Width(宽度)和变量的Decimal(小数位数),默认值分别为8和2。对于要求显示数值的精度较高,或者数字的位数较大的数值,可以将宽度和小数位数设置大一些。若输入的数值的位数超过设置的位数,显示时会将数值四舍五入;若列宽设置过小,也可以表示为科学计数法。例如,20181968.0751显示为20181968.08(宽度为11,小数位为2,列宽为11),或者2E+007 (宽度为11,小数位为2,列宽为6)。
宽度和小数位的设置只影响数值的显示精度和形式,不会改变数值的内部值,内部值总是和数据输入时是一致的。
(3)Set Century Range for 2-Digit Years(对于2位数表示的年代,设置世纪的范围)窗口
“Set Century Range for 2-Digit Years”窗口要求设置日期型变量中,年份为两位数时的世纪范围。有两个单选项:
◆ Automatic 选择默认范围,从1937年至2036年。
◆ Custom 选择自定义,有两个输入框,“Begin year”(起始年份)和“End year”(结束年份),但两项中只能选一项,因为系统默认的时间跨度为100年,当一个年份给定后,另一个年份则由系统自动确定。例如,若在“Begin year”栏输入1949,则“End year”自动设为2048。
(4)Random Number Generator(伪随机数发生器)窗口
“Random Number Generator”窗口提供了两种不同的产生伪随机数的方法:
◆ SPSS 12 CompatibIe 利用SPSS 12或更早版本提供的伪随机数发生器方法产生伪随机数。
◆ Long period Mersenne Twister 利用MT(Mersenne Twister)方法产生伪随机数。MT方法具有更高的可靠性以及足够大的周期(周期最高可达219937-1)。
3.1.3 变量标签(Label)
变量标签是对变量名和变量值的进一步解释和说明,可分为Variable Labels(变量名标签)和Value Labels(变量值标签)。
(1)VariabIe LabeIs(变量名标签)
变量名标签是对变量名含义的进一步补充说明。因为早期版本中的变量名长度限制为8个字符,有时不能清楚地说明变量的含义。变量名标签可以由不超过256个字符(或128个汉字)组成,并且可以包含空格和SPSS保留字。变量名标签是一个可选属性,也可以不定义。同时,在统计分析结果中,一般不显示变量名标签的信息。
变量名标签的定义方法是在SPSS主窗口中,单击左下角的“Variable View”(变量视图)按钮,切换至变量视图窗口,然后在相应变量名所在的行中,直接在Label列添加变量名标签的内容。
图3.8给出了一个定义变量值标签的示例。
图3.8 定义变量值标签示例
(2)VaIue LabeIs(变量值标签)
变量值标签是对数值型变量各个取值的含义给予进一步解释和说明的信息。在数据文件中,用数值型变量表示非数值型变量时尤其有用。标签内容最多可以有120个字符。例如,定义一个名为“职称”的数值型变量,取值为1,2,3,4;并且变量值1代表“教授”职称,2代表“副教授”职称,3代表“讲师”职称,4代表“助教”职称。
定义变量值标签,可在“Variable View”(变量视角)视区,双击“Values”列中相应变量位置,显示如图3.9所示的变量值标签定义对话框,在“Value”栏中输入变量值,在“Label”栏中输入变量值所代表的含义,即变量值标签。然后单击“Add”按钮,下方的文本框中显示输入的变量值及其标签。重复以上过程,直至变量的所有变量值标签输入完毕,单击“OK”按钮,使对变量值标签的设置生效。如果输入有误,可单击文本框显示的错误标签,在上面输入栏修改,然后单击“Change”按钮,确认修改结果。亦可单击“Remove”按钮,删除某些不需要的标签。
图3.9 变量值标签定义对话框
变量值标签只对数值型变量、日期型变量和短字符型变量有效,长字符型变量(宽度超过8)没有变量名标签和变量值标签的属性。
3.1.4 Missing(变量缺失数据)
在统计分析的数据收集过程中,因为某些原因,有时会产生记录的数据失真,或者没有记录等异常情况发生。例如,学生体检中,某学生的体重记录为553公斤,这显然是一个失真数据,不能使用,但其他数据在分析中还可以使用。或者在问卷调查中,被调查者没有填写调查表必须填写的年收入一栏,成为缺失值。
以上所述的情况称之为数据缺失或数据不完全。缺失或不完全数据在统计分析中是不能使用的。
SPSS通过指定用户缺失值的方法来定义缺失数据。在“Variable View”(变量视窗)视区,双击“Missing”列中相应变量的单元格,显示如图3.10所示的变量缺失值定义对话框,有3种可选方式:
图3.10 变量缺失值定义对话框
◆ No missing vaIues 不指定缺失值。
◆ Discrete missing vaIues 对数值型或字符型变量,用户指定缺失值为1至3个特定的离散值。
◆ Range pIus one optionaI discrete missing vaIue 选择该项,表示对数值型变量,用户缺失值定义在一个连续的闭区间和一个区间以外的离散值,在该窗口下的“Low”和“High”栏分别输入连续区间的左右端点,在“Discrete value”栏中输入区间以外的一个确定值。
3.1.5 Measure(度量尺度)
根据数据的度量尺度不同,变量可分为三大类,即Scale(定距型变量)、Ordinal(定序型变量)和Nominal(定类型变量)。
(1)ScaIe(定距型变量)
定距型变量可以是诸如表示温度、重量等含义的连续型数值变量,也可以是年龄、次数等离散型变量,还可以是表示时间的日期型变量或者表示货币的货币型变量,但不能是字符型变量。
(2)OrdinaI(定序型变量)
定序型变量的值表示的是一种顺序的前后,这一点和定距型变量不同。例如,定义“军衔”变量可以分为尉官、校官和将官三个档次,分别用1,2,3表示;“职称”变量分为高、中、低三个档次,可以用A,B,C表示。定序型变量可以是数值型变量,也可以是字符型变量。
(3)NominaI(定类型变量)
定类型变量也称为名义变量,该类型变量不存在变量值之间固有的大小或顺序的前后,变量值一般只表示属于的类别。如“职业”变量中的工人,农民、军人等取变量值时,可以分别用1,2, 3等数值表示;“性别”变量中的男、女取变量值时,可以用数值1、2表示。定类型变量可以是字符型变量,也可以是数值型变量。
建立新的变量或者读取外部数据文件,以及打开由SPSS 8.0或更早版本创建的数据文件时,SPSS默认变量的度量尺度类型规则如下:
◆ 字符型变量设置为定类型变量。
◆ 具有变量值标签的数值型变量设置为定序型变量。
◆ 不含值标签且变量值小于24的数值型变量设置为定类型变量。
◆ 不含值标签且变量值大于等于24的数值型变量设置为定距型变量。