第三节 项目分析
测验的项目分析包括定性分析和定量分析。定性分析包括考虑内容效度、题目编写的恰当性和有效性等,重点在于分析测题的内容和形式;定量分析主要是采用统计方法来分析试题的品质。
一、项目的难度
(一)难度的定义
难度,是指项目的难易程度。在能力测验中通常需要一个反映难度水平的指标,在非能力测验(如人格测验)中,类似的指标是“通俗性”。难度的指标通常用通过率表示,即以答对或通过该题的人数百分比来表示,公式为:
其中,P为项目难度,R为答对通过该项目的人数,N为全体被试数。P值越大,难度越低。
(二)难度的计算
1.二分法记分的项目
通过记1分,错误记0分,对这类题目可直接用公式P=R/N×100%计算难度。当被试人数较多时,则可根据测验的总成绩将被试分成三组,取最高的27%被试和最低的27%被试作为高分组和低分组,并分别计算通过率,最后求两个通过率的平均值作为该项目的难度。
公式2-14中,PH和PL分别表示高分组和低分组的通过率。
2.非二分法记分的项目
当测验项目为问答题或不能用二分法记分的形式时,一般用下面的公式计算难度。
公式2-15中,为所有被试在该项目上的平均得分,Xmax为该项目的满分。
在对两个非二分法记分项目进行难度比较时,要对它们分别进行矫正,排除由于猜测作答而致使某些题目通过率增大的可能。矫正公式为:
公式2-16中,CP为矫正后的难度,P为矫正前的难度,K为选项的数目。
(三)难度水平的确定
P值越接近0.00或接近1.00,越无法区分受测者之间能力的差异,鉴别力越低。相反,P值越接近于0.50,鉴别力越高。
项目难度水平的确定取决于测验的目的和性质。对于校标参照测验和掌握测验,可以不考虑难度。对于选拔测验,应将测验的项目难度控制在录取率左右。对于选择题,难度应该大于猜测概率,最好使试题平均难度接近0.50,而各题难度在0.50±0.20之间。对是非题其难度值应该为0.75最为合适;而对于四选一题,其难度值约为0.63时最为合适。无论何种测验,一般都应防止被试得满分,因为满分的意义是不明确的。
(四)难度对测验的影响
1.项目难度普遍较大的测验,分数分布将呈现偏左低分的正偏态;项目难度普遍较小的测验,分数的分布将呈现右高分的负偏态。一般能力测验和成就测验的平均难度在0.50左右为宜,正偏态测验适合于筛选性测验,如公务员考试。
2.过难或过易的测验会使测验分数相对地集中在低分端或者高分端,从而使分数的全距缩小。项目的难度以集中在0.50左右为最佳,以集中在两端最差。
二、项目的区分度
(一)区分度的定义
项目区分度,也叫鉴别力,是指测验项目对被试的心理特性的区分能力,通常用D表示。区分度被用作评价项目质量、筛选项目的主要指标和依据。具有良好区分度的项目,能将不同水平的被试区分开来,即在该项目上水平高的被试得高分、水平低的被试得低分。
区分度实质是评估项目得分与实际能力水平之间的相关度,表现为项目得分与总分的一致性程度。区分度取值范围介于-1-+1之间,假如项目得分与实际能力水平之间呈负相关,则区分度为负值;若呈正相关,则区分度为正值。相关系数越大,区分度越高。当区分度为负值时,则意味着被试实际能力越高,该项目的得分反而越低;这种情况一般很少发生,如果出现,该项目应该淘汰。
(二)区分度的计算
1.鉴别指数法
当效标成绩是连续变量时,可以按测验总分高低排列答卷,从分数的两端各选择27%的被试,分别计算出每道题目上各自的通过率,二者之差便是鉴别指数D。D值越高项目越有效,其公式为:D=PH-PL。当D=1.00时,高分组被试全部通过,低分组被试全部失败;如果低分组被试全部通过,高分组被试全部失败,则D=-1.00;如果两组的通过率相等,则D=0。
但是由于项目鉴别指数法只利用了一部分信息,浪费了很多信息,统计结果准确性差一些。而且当项目与效标之间并非直线关系时,甚至会得出错误的结论。
2.相关法
相关法是计算区分度最常用的方法。即以某一项目分数与效标成绩或测验总分的相关作为该项目区分的指标。相关越高,表明项目越具有区分的功能。根据不同的情况,可以使用点二列相关、二列相关、Φ相关和积差相关等。点二列相关适用于一类变量为二分变量、另一类变量为连续变量的成对变量相关的计算。二列相关适用于两个连续变量,但其中一个变量被人为分成两类。Φ相关适用于两个变量均为二分称名变量,如将测验总分按及格、不及格或录取、淘汰划分,便可计算Φ相关系数。积差相关适用于总体呈正态分布,两列连续变量为线性关系的成对数据。
3.方差法
方差法探究的是数据的离散程度,被试在某一项目上的得分越分散,则该试题鉴别力越大。
(三)区分度的相对性
区分度的相对性主要体现在以下四个方面:
1.不同计算方法,所得区分值不同。一个测验的各项目要采用同一种区分度指标。
2.样本容量大小影响相关法区分度值的大小。样本容量越小,其统计值越不可靠。
3.分组标准影响鉴别指数。分组越极端,其D值越大。
4.被试样本的同质性程度影响区分度值的大小。被试团体越同质,即个体之间水平越接近,其测题的区分度值越小。
(四)区分度与难度的关系
测验项目的难度对测验项目的鉴别力有一定的影响,难度与区分度有着密切的联系。难度越接近0.50时,项目潜在的区分度越大,而难度越接近1.00或0.00时,项目潜在的区分度越小。为了使项目具有较高的区分能力,应使所有项目都保持在0.50的难度最为理想。在利用项目分析选择试题时,应使项目的难度分布广一些,梯度大一些,使整个测验的难度分布呈正态分布,且平均水平保持在0.50左右。这样才能把各种水平的人都区分开来,并且分得比较细。
总体上来说,中等难度的项目区分度最高。一般说来,较难的项目对高水平的被试区分度高,较易的项目对低水平的被试区分度高,中等难度的项目对中等水平的被试区分度高。
三、项目的综合分析和筛选
题目选项分析,就是对选择题后面提供的几个答案的分析。重点分析几种主要的异常情况,包括:正确答案无人选择,或少于其他选项的人数;错误答案选的人太多;正确选项上的高分组选择人数少于低分组;错误选项上的高分组选择人数多于低分组;某个选项无人选择;未答的人数较多。
题目的筛选是一个综合分析的过程,根据区分度、难度等指标进行筛查,将优质题目保留下来,将不够好的题目进行改进或者淘汰,最终提升整个量表的品质。
第一,要看区分度。低区分度的题目是不能有效鉴别被试的。根据测验目的,选择测题优劣的评鉴标准,一般来说0.30以上比较好。但因为考虑到区分度的相对性,在评价项目的有效性时,应考虑到测验的目的、功能以及被试团体的总体水平,不能将区分度作为筛选试题的绝对标准。
第二,要考虑难度。难度一般在0.30-0.70之间比较好,但就整个测验而言,难度应遵从正态分布规律,难度为0.50的测题最多,0.40和0.60的次之,0.30和0.70也需要保留一些。总之,使难度成一个以0.50为平均分的正态分布,难度分布广一些,梯度大一些,这样测验分数才能将各种水平的人区分出来,并且区分得较细。但同时要考虑到量表的信度,难度的分布又不能太广,这不利于信度。
如果是人格测验、态度测验以及心理健康测验等,所需的则不是难度,一般为0.1-0.3,以保证每个被试都能理解测题的意思。如果是标准参照测验,则应根据编制测验时确定的目标来选择难度。
根据区分度和难度选出合适的测题后,与原来的双向细目表考虑所选的测题进行对照,分析所代表的行为类别之间的比例是否失调。如果失调,应加以调整。
第三,要进行选项分析。就是对选择题后面提供的几个答案的分析。主要的异常情况有:正确答案无人选择,或少于其他选项的人数;错误答案选的人太多;正确选项上的高分组选择人数少于低分组;错误选项上的高分组选择人数多于低分组;某个选项无人选择;未答的人数较多。
第四,分析出现上述异常情况的原因,并酌情修改选项或题目。不要轻易丢弃不符合要求的项目,因为:其一,用内部一致性分析求得的区分度不一定能代表试题的效度。其二,区分度指数低的试题不一定表示该题有缺点。要详细分析区分度低的原因,并保留题目,作为测验一项重要的学习结果的记录,以备日后使用。其三,课堂测验的项目分析资料的有效性是随时空而变化的,并非固定不变的。其四,研究表明,编制新的项目需要的时间几乎比修订现存项目长5倍。
另外,如果做因素分析,还要看题目的负荷量与题目间的相关,对于题目过少的因素,也要考虑删除。题目的筛选要考虑量表的长度,一个测验的长度应该根据测验的时限、对象的年龄、测验的性质而定。