戴海崎《心理与教育测量》(第4版)笔记和课后习题(含考研真题)详解
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第4章 测量信度

4.1 复习笔记

一、信度概述

(一)什么是信度

1.概念

信度是指测量结果的稳定性程度。若能用同一测量工具反复测量某人的同一种心理特质,则其多次测量的结果间的一致性程度就称信度,有时也称测量的可靠性。

2.信度的操作定义

(1)定义1:信度是一个被测团体真分数的变异数与实得分数的变异数之比。即:

式中rxx代表测量的信度,代表真分数变异,代表总变异数,即实得分数的变异。

(2)定义2:信度是一个被试团体的真分数与实得分数的相关系数的平方。即:

(3)定义3:信度是一个测验x(A卷)与它的任意一个“平行测验”x′(B卷)的相关系数。即:rxx=ρxx′

此外,描述测量一致性程度的指标还可以用信度指数(ρxT),它实际上是信度系数的平方根。

(二)信度的作用

信度是衡量一个量表质量高低的重要指标之一,信度的作用表现在以下三个方面:

1.信度是测量过程中所存在的随机误差大小的反映。

2.信度可以用来解释个人测验分数的意义。

每个人两次测量的分数之差可以构成一个新的分布,这个分布的标准差就是测量的标准误,它是此次测量中误差大小的客观指标。可以通过标准误对团体中任何一个人的测验成绩做出恰当的解释。一个测量的标准误可用下式计算:

(式中SE为测量的标准误,Sx为实得分标准差,rxx′是测量的信度。)

3.信度有助于不同测验分数的比较。

来自不同测验的原始分数是不能直接进行比较的,必须转化成标准分数再进行比较。具体办法是采用“差异的标准误”来进行差异的显著性检验,其公式为:

(式中,S为相同尺度(如T分数的S=10)的标准分数的标准差,rxx和ryy分别是两个测验的信度系数。)

二、信度的估计方法

(一)重测信度

1.含义和计算

重测信度是指用同一个量表对同一组被试施测两次所得结果的一致性程度,其大小等于同一组被试在两次测验上所得分数的皮尔逊积差相关系数。

(式中x及x(_)是第一次测量的实得分及实得分的平均值,y及y(_)是第二次测量的实得分及实得分的平均值,rxx是重测信度)

当信度值较大时,说明前、后两次测量的结果比较一致,测量工具比较稳定,被试的心理特质受被试状态和环境变化的影响较小。

2.使用的前提条件

(1)所测量的心理特性必须是稳定的。

(2)遗忘和练习的效果基本上相互抵消。

(3)在两次施测的间隔时期内,被试在所要测查的心理特质方面没有获得更多的学习和训练。

3.使用的注意事项

同样一个量表,随着两次施测间隔时间不同,它可以有不同的重测信度。因此,在报告重测信度时,应说明两次施测的间隔,以及在此期间内被试的有关经历。

(二)复本信度

1.含义与计算

(1)复本信度是指两个平行的测验测量同一批被试所得结果的一致性程度,其大小等于同一批被试在两个复本测验上所得分数的皮尔逊积差相关系数。

(2)两个复本测验实施的时间不同,复本信度所表达的含义略有不同:

如果两个复本测验是同时连续施测的,则称这种复本信度为等值性系数。等值性系数的大小主要反映着两个复本测验的题目差别所带来的变异情况。

如果两个复本测验是相距一段时间分两次施测的,则称这种复本信度为稳定性与等值性系数。稳定性与等值性系数是对信度的最严格的检验,与其他信度系数相比,此种复本信度最小。

2.使用前提条件

(1)要构造出两份或两份以上真正平行的测验。平行测验就是用不同的题目测量同样的内容而且其测验结果的平均值和标准差都相同的两个测验。

(2)被试要有条件接受两个测验。

3.使用的注意事项

(1)被试在做第二测验时仍会受到练习和记忆等因素的影响,一些解题的策略等技能技巧也会产生迁移效应。

(2)对于稳定性与等值性系数,在报告结果时,也应报告两次施测的间隔,以及在此间隔内被试的有关经历。

(三)分半信度

1.含义及计算

(1)分半信度是指将一个测验分成对等的两半后,所有被试在这两半上所得分数的一致性程度。

(2)分半信度可以和等值性系数一样解释,即可以把对等的两半测验看成是在最短时距内施测的两个平行测验。此外,由于分半信度描述的是两半题目间的一致性,所以它有时也被称作内部一致性系数。

(3)分半信度的计算方法和等值复本信度的计算方法类似,只不过被试在两半测验上得分的相关系数只是半个测验的信度,还必须用斯皮尔曼-布朗公式加以校正:

式中rhh为两半测验分数间的相关系数,rxx为整个测验的信度值。不过,斯皮尔曼-布朗公式只有在两半测验分数的变异数()相等时才能使用。否则,就应选择下述两个等价的公式之一:

弗朗那根公式:

式中分别表示所有被试在两半测验上得分的变异数,表示全体被试在整个测验上的总得分的变异数。

卢仑公式:

式中表示同一组被试在两半测验上得分之差的变异数,其他符号的含义与弗朗那根公式中符号含义相同。

2.使用的前提条件及范围

(1)分半信度通常是在只能施测一次或没有复本的情况下使用。而且,在使用斯皮尔曼-布朗公式时要求全体被试在两半测验上得分的变异数要相等。当一个测验无法分成对等的两半时,分半信度不宜使用。

(2)由于将一个测验分成两半的方法很多,所以,同一个测验通常会有多个分半信度值。

(四)同质性信度

1.含义

(1)定义

同质性信度也称内部一致性系数,它是指测验内部所有题目间的一致性程度。

(2)对同质性信度的说明

当一个测验具有较高的同质性信度时,说明测验主要测的是某一单个心理特质,实测结果就是该特质水平的反映。

如果一个测验同质性信度不高,则说明测验结果可能是几种心理特质的综合反映,这时,测验结果不好解释。一种好的办法是把一个异质的测验分解成多个具有同质性的分测验,再根据被试在分测验上的得分分别做出解释。

2.计算及适用范围

(1)K-R20公式

其中,K是题目数,pi为答对第i题的人数的比例,qi为答错第i题的人数的比例,为测验总分的变异。此公式是由库德和理查德逊提出的,仅适用于(0、1)记分的测验。

(2)K-R21公式

其中,各指标含义与K-R20相同,只是p(_)与q(_)分别表示题目的平均通过率和平均失败率。此公式只有当所有题目的难度接近时才适用。

(3)克隆巴赫α系数

其中,表示所有被试在第i题上的分数变异,其余指标的含义与K-R20相同。此公式是由克隆巴赫提出的,它不要求测验题目仅是(0、1)记分,可以处理任何测验的内部一致性系数的计算问题。

α值还是所有可能的分半信度的平均值,它只是测量信度的下界的一个估计值。即,α值大,必有测量信度高;但α值小时,却不能断定测量信度不高。

(4)荷伊特信度

荷伊特提出用方差分量比描写测验内部一致性的方法:设有n名被试参加一个有K个项目的测试,测验分数的总变异可分解为被试间变异SS,项目间变异SS和人与试题交互作用SS×三部分。荷伊特认为可用MS作为被试方差估计值,用MS×作为误差方差估计值,并可用下式作为测验信度的估计值:

(五)评分者信度

1.含义

评分者信度是指多个评分者给同一批人的答卷进行评分的一致性程度。

2.计算

(1)当评分者人数为2时,评分者信度等于两个评分者给同一批被试的答卷所给分数的相关系数(积差相关或等级相关)。

(2)当评分者人数多于两个时,评分者信度可用肯德尔和谐系数进行估计。其公式为:

其中,K是评分者人数,N是被评的对象数,Ri是第i个被评对象被评的水平等级之和。

(3)当评分者(K)为3~20人,被评对象(N)为3~7个时,信度是否合要求可直接查W表检验。当实际计算的W值大于表中的相应值时,说明评分所得信度较高。若被评对象多于7个,则可计算χ2值,作χ2检验[χ2=K(N-1)W,df=N-1]。若评分中有相同等级出现,则要使用以下公式求W值:

其中,n为相同等级的个数,其他指标与肯德尔和谐系数计算公式含义相同。

(六)分层α系数

对于包含着多种计分方式,或者涉及多种测评维度的试卷的测评信度,其估计方法以分层α系数(αstrat)为宜。其计算公式是:

式中,是测验X某个层级i(同一种计分方式或同一个维度)所有题目的测量信度(如克隆巴赫α系数等),是层级(或题型)i所有题目原始分之和的方差,是整个试卷X所有题目原始分之和的方差,αstrat是测验X的分层信度估计。

(七)成套测验合成分数的信度

1.计算

假设某考生(p)在成套测验上的合成总分(Zp)等于其中k个分测验分数(xp1,xp2,…,xpk)的加权(w1,w2,…,wk)之和。即

式中,w0是用于分数调整的常数,可以为0。wi可以是每个分测验的题目数量在所有试卷题目总数中的比重或其他重要性指标。

与CTT关于真分数及其相关假设类似,合成分数也同样需要假定它等于其对应的真分数与随机误差之和,并假定误差之间彼此独立、数学期望值为0,同时还要假定,只要使用同样的分数合成权重,我们就能够编制出众多平行的分测验。于是,合成分数的信度估计方法为:

式中,是分测验xi的测量信度,是分测验i总分的方差,是所有分测验加权总分的方差,ρzz′是合成分数的信度估计。

2.注意

(1)成套测验合成分数的信度估计公式与分层α公式中分母方差的计算方法非常不同。

(2)在估计成套测验合成分数的信度时,应该首先考察这些分测验的分数是否可以合成。若分测验之间没有必然的合并关系,则不应该求合成分数,当然也就不需要估计合成分数的信度了。

三、提高测量信度的方法

(一)影响测量信度的主要因素

测量信度是测量过程中随机误差大小的反映。在测量过程中凡是能引起测量的随机误差的因素都会影响测量信度,影响测量信度的主要因素有:

1.被试方面

(1)就单个被试而言,被试的身心健康状况、应试动机、注意力、耐心、求胜心、作答态度等会影响测量误差。

(2)就被试团体而言,整个团体内部水平的离散程度以及团体的平均水平都会影响测量信度。当被试团体异质时,会高估信度值;当被试团体较为同质时,会低估信度值;若团体的平均水平太高或太低,会低估测量的真正信度。

2.主试方面

(1)就施测者而言,若他不按指导手册中的规定施测,或故意制造紧张气氛,或给考生一定的暗示、协助等,则测量信度会大大降低。

(2)就阅卷评分者而言,若评分标准掌握不一,或前紧后松,甚至是随心所欲,则也会降低测量信度。

3.施测情境方面

在实施测验时,考场是否安静,光线和通风情况是否良好,所需设备是否齐备,桌面是否合乎要求,空间宽窄是否恰当等都可能影响到测量的信度。

4.测量工具方面

试题的取样、试题之间的同质性程度、试题的难度等是影响测验稳定性的主要因素。

(1)如果一个测验的试题取样不当(或题目数太少、或考察的方面不全面),则难以测查到被试心理特质的全面情况。若是被试采取押题方式应考,则所得结果的随机性更大,那么,这种测量的信度就必然不会高。

(2)当一份测验中的同质性的题目数量增多之后,同一心理特质被考察到的次数就会增多,被试的成绩也就越能被有效地拉开,整个团体的测验分数分布就会更广,从而提高测量的信度。这种效果可用斯皮尔曼-布朗预测公式计算:

其中,K为改变后的测验长度与原来长度之比,ρxx′为原测验的信度,ρzz′为测验长度增加为K倍后的测验的信度。

(3)如果测验的题目太难,则会引起被试的随机猜答,并使得大部分人的得分偏低,整个分数的分布变窄,从而影响测量的信度。如果题目太容易,则大部分被试都将获得高分,同样会使测验分数的分布变窄,影响测量的信度。

5.两次施测的间隔时间

在计算重测信度和稳定性与等值性系数(复本信度之一)时,两次测验相隔时间越短,其信度值越大;间隔时间越长,其他因素带来影响的机会就多,因而其信度值就可能越小。

(二)提高测量信度的常用方法

1.适当增加测验的长度:提高测量信度的一个常用方法是增加一些与原测验中项目具有较好的同质性的项目,增大测验长度。但是增加测验长度时应当注意:(1)新增项目必须与试卷中原有项目同质;(2)新增项目的数量必须适度,避免出现报酬递减的效应。

2.使测验中所有试题的难度接近正态分布,并控制在中等水平。

3.努力提高测验试题的区分度。

4.选取恰当的被试团体,提高测验在各同质性较强的亚团体上的信度。

5.主试者要严格执行施测规程,评分者严格按标准给分,施测场地要按测验手册的要求进行布置,减少无关因素的干扰。

(三)几点说明

1.提高测量信度的方法还有很多,以上只是其中的几种常用方法。

2.本章所讨论的各种信度计算方法仅适用于常模参照测验。

3.目标参照测验的信度问题必须以测量的概化理论(GT)为基础才能进行较好的处理。

4.在估计速度测验的信度时,建议使用重测信度或决策一致性系数等方法,不使用分半信度或分层α系数。限于篇幅,本节不作详细讨论。

5.目前,基于项目反应理论的条件测量信度已经逐步应用于大型测验项目之中。如著名的托福考试、GRE考试等就同时报告了CTT和IRT理论框架下的测量信度和条件测量信度。

6.关于测量的信度要达到多高才被认为可靠,是一个比较复杂的问题。一般来说,标准化能力或学绩测验信度应在0.90以上,人格测验的信度应在0.80以上,教师自编学绩测验的信度应在0.60以上。