二 变量
一手数据的收集过程,就是研究人员利用一定的测量工具(如问卷),对每个个体的特征进行度量的过程。就同一个特征来讲,对于不同的个体,其度量值会有所差异。这种由可变化的数据构成的、用来描述个体特征的标志称为变量(Variable)。表1—1中的编号、省份、地区、性别、年龄等8个标志均为变量。
(一)定性变量与定量变量
根据构成数据(变量值)的性质,变量可分为定性变量(Qualitative Variable)和定量变量(Quantitative Variable)。前者由定性数据构成,其主要功能是对个体进行分类;后者由定量数据构成,其主要功能是进行数学运算。表1—1中,编号、省份、地区、性别、学历、职业6个变量为定性变量,年龄、月收入为定量变量。
定量变量又可依据数据形式,进一步细分为两类:由一系列的整数构成的定量变量,称为离散型变量(Discrete Variable);可在一定区间内任意取值的定量变量,称为连续型变量(Continuous Variable)。例如,游客人数、客房数量等变量为离散型变量,而年龄、月收入、就餐时间等变量为连续型变量。区别两类变量的一种简单方法是:从变量值中取两个相邻的整数,在其中间插入任一数值,看该数值是否有意义。如有意义,则此变量为连续型,反之则为离散型。
(二)自变量与因变量
根据变量之间的因果关系,可将其分为两类:作为原因的自变量(Independent Variable,常记为x)和作为结果的因变量(Dependent Variable,常记为y)。若x与y存在因果关系,则x值发生变化,必然引起y值的变化;反之,y值的变化不会对x值的变化产生任何影响。例如,性别、学历、职业、年龄等变量可作为自变量,而月收入等变量可作为因变量。
(三)变量的测量尺度
在对个体特征进行测量时,对于不同的变量,应该使用不同的测量尺度(所使用的测量工具拥有不同性质的刻度)。一般来讲,可将测量尺度分为定类、定序和定距三个层次。
定类尺度(Nominal Measure)是最低层次的测量尺度,利用此尺度测量所得到的变量值,仅可用来对个体进行分类(或分组)。如表1—4所示,对个体的性别特征进行测量时,应使用定类尺度(测量工具只有“男”“女”两个刻度),变量值(或刻度)只具有分类功能,将所有个体分为男、女两组。
定序尺度(Ordinal Measure)是较高层次的测量尺度,利用此尺度测量所得到的变量值,不仅可用来对个体进行分类,而且可对个体及类别进行排序。如表1—4所示,对个体的学历特征进行测量时,应使用定序尺度(测量工具有“初中及以下”“高中/中专”“大专”“本科”“研究生”5个刻度),变量值(或刻度)将所有个体分为5组,而且各组之间在学历层次上存在着高低顺序的差异。
定距尺度(Scale Measure)是最高层次的测量尺度,利用此尺度测量所得到的变量值,不仅可用来对个体进行分类、排序,而且变量值之间能够进行相互运算。如表1—4所示,对个体的月收入进行测量时,应使用定距尺度(测量工具包含一系列的数字刻度),得到的变量值(或刻度)可依据一定的规则,将所有个体分为若干个小组,且各组之间在月收入方面存在着高低顺序的差异。更为重要的是,不同个体之间的月收入可以进行运算。例如,一名游客的月收入为3000元,另一名游客的月收入为2000元,则两名游客月收入的差距可通过两个数值相减得到,为1000元。
表1—4 不同变量的测量尺度
通常来讲,对于定性变量,测量时应选择使用定类尺度或定序尺度;对于定量变量,测量时应选择定距尺度。