第四章 大学生网络利他行为量表的项目功能差异分析
第一节 引言
项目功能差异(Differential Item Functioning,DIF)指的是群体能力被控制之后,一个项目在不同群体中表现出不同的统计特性(Angoff,1993)。如相同能力的男生和女生在某一项目上的得分存在显著差异,则表明该项目存在性别DIF。测验中存在DIF,就可能导致测验偏差,导致测验的不公平,即同一测验对不同的群体存在偏向性(Holland,1993)。另外,DIF项目对测验的效度有相当大的威协(Kim,2001),DIF的出现表明测验内容受到了其他因素的干扰。因此,DIF研究的主要目的是分析测验的公平性和有效性。
在DIF研究中,常把被试分为两组:目标组(focal group)和参照组(reference group)。把测验项目对其不利的人群作为目标组,测验项目对其有利的人群作为参照组。划分被试的依据一般有:性别、年级、民族、职业、地域、社会经济地位、历史背景、文化传统等。一般来讲,DIF可以分为两种:一致性DIF (uniform DIF)和非一致性DIF (non-uniform DIF) (Mellenbergh,1982)。被试的能力水平与其组别之间不存在交互作用,这称为一致性DIF。反之,被试的能力水平与其组别之间存在交互作用,则为非一致性DIF (Kimberly,et al.,2008)。
目前,研究者已开发出多种DIF分析的方法(Millsap,1993; Camilli,1994; Clauser,1998; Teresi,2001; Crane,2004; Broekman, 2008)。首先是基于经典测量理论的方法,如卡方方法、MH方法、STAND方法、SIBTEST方法、逻辑斯蒂回归方法等。这些方法计算简便且容易操作。但这些方法只用于侦察0、1记分项目,并且只能侦察一致性DIF而不能侦察非一致性DIF。其次,其结果过于依赖被试样本,样本的不同,DIF分析的结果也会不同,因此结果的稳定性很难保证。再次,它们在技术上也存在缺陷:它们混淆了项目难度和项目区分度,使用这些方法会创造一些人为的DIF而漏掉真正的DIF (Angoff,1993; Camilli&Shepard,1994)。相比而言,基于IRT的DIF分析方法更具有优越性。IRT方法能清晰地区分项目难度和区分度参数。此外,IRT项目参数的估计不受被试样本的影响,被试能力的估计也不依赖于测验项目。IRT方法常用于0、1记分项目,近年来也提出了一些侦察DIF的多级记分IRT方法。但是IRT方法的参数估计需要大样本(1000人以上),计算复杂,花费也较高,所以IRT方法不是很常用(Clauser &Mazor,1998; Narayanan,1996; Reise,Widaman&Pugh,1993)。另外,标准验证性因素分析也可用于DIF检测(Reise,1993;骆方、张厚粲,2006),但标准验证性因素分析方法的局限性在于它只侦察非一致性DIF而不能侦察一致性DIF,因为它只估计项目的因素负荷(项目区分度参数),而不估计项目截距(项目难度参数)。
Sorbom在1974年提出的均数与协方差结构(mean and covariance structure,MACS)模型是一种非常灵活有用的适于多级记分项目的DIF检测方法,它既可侦察一致性DIF,也能侦察非一致性DIF。在MACS模型中,项目截距对应于项目难度参数,项目因素负荷对应于项目区分度参数。判断一致性DIF还是非一致性DIF,取决于在各组上不同的项目参数的类型(Mellenbergh,1982; 1994)。因此,在项目截距上存在组间差异(即项目难度差异),表示一致性DIF。在因素负荷上存在差异(即项目区分度差异),则表示非一致性DIF。
用MACS模型对多级记分项目进行DIF侦察,已引起一些国外学者的兴趣(Everson,1991; Ferrando,1996; Chan,2000),但国内仅见1篇有关报告(赵必华,2009)。本章拟采用MACS模型对初步编制的大学生网络利他行为量表进行DIF分析,以测查量表各项目是否存在性别(男生和女生)与地域(经济发达地区和经济欠发达地区)的差异。希冀通过对量表DIF的分析,进一步完善项目质量,提高量表的公正性、有效性。