1.5 分类变量和定序变量的基本操作
下载资源:\video\第1章\…
下载资源:\sample\第1章\数据1A
在很多情况下,我们会用到分类变量(虚拟变量)的概念,分类变量的用途是通过定义值的方式对观测样本进行分类。例如,根据数据某一变量特征的不同把观测样本分为4类,就需要建立4个分类变量A、B、C、D,如果观测样本属于A类,其对应的分类变量A的值就为1,对应的分类变量B、C和D的值就为0。定序变量的用途是根据数据的数值大小将数据分到几个确定的区间,其在广义上也是一种分类。下面我们就用示例来讲解一下分类变量和定序变量的基本操作。
“数据1A”数据文件中有3个变量,分别是place、amount、grade。在命令窗口中输入命令:
tabulate grade,generate(grade)(本命令的含义是生成新的分类变量)
随后可以看到如图1.39所示的生成的新分类变量,在数据编辑器界面可以看到如图1.40所示的生成的分类数据grade1和grade2。
图1.39 生成的新分类变量
图1.40 生成的分类数据grade1和grade2
然后输入命令:
generate amount1=autocode(amount,3,1,25)(本命令的含义是生成新的定序变量进行定序,分到3个标志区间)
sort amount1(本命令的含义是对amount进行排序)
在数据编辑器界面可以看到如图1.41所示的生成的变量amount1数据。该变量将amount的取值区间划分成等宽的3组。
图1.41 进行排序
最后输入命令:
generate amount2=group(4)(本命令的含义是生成新的分类变量按数值大小进行4类定序)
输出结果如图1.42所示,系统生成了变量amount2,该变量将amount的取值按大小分成了4个序列。
图1.42 进行4类定序