戴海崎《心理与教育测量》(第4版)笔记和课后习题(含考研真题)详解
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第5章 测量效度

5.1 复习笔记

一、效度概述

(一)什么是效度

1.效度的含义

效度是指一个测验或量表实际能测出其所要测的心理特质的程度。关于效度的概念,要特别注意以下几点:

(1)效度是一个相对的概念。这种相对性表现在两个方面:效度是相对于一定的测量目的而言的;心理特质是较隐蔽的特性。

(2)效度是测量的随机误差和系统误差的综合反映。

(3)判断一个测量是否有效要从多方面收集证据。

2.变异分解

一组测验分数的总变异包括三部分:真实的(稳定的)、与测量目的有关的变异;真实的、但出自无关来源的变异;随机误差的变异。

在测量理论中,效度被定义为:在一列测量中,与测量目的有关的真实变异数(由所要测量的变因引起的有效变异)与总变异数(实得变异数)的比率,通常用表示,其定义为:

这里rxy代表测量的效度系数,代表有效变异数,代表总变异数。

(二)效度与信度的关系

信度高是效度高的必要而非充分条件,测验的效度受它的信度制约。

二、效度的评估

(一)内容效度

1.内容效度的含义

内容效度是指一个测验实际测到的内容与所要测量的内容之间的吻合程度。估计一个测验的内容效度就是确定该测验在多大程度上代表了所要测量的行为领域。

2.内容效度的应用范围

内容效度主要应用于成就测验,用来测量被试掌握某种技能或学习某门课程所达到的程度。在这种测验中,题目取样的代表性问题是内容效度的主要考察方面。内容效度也适合于某些用于选拔和分类的职业测验。这种测验所要测的内容就是实际工作所需的知识和技能,编制这种测验应首先对实际工作作较细的分析。内容效度不适合用于能力倾向测验和人格测验。

3.内容效度的确定方法

(1)逻辑分析法

内容效度的确定方法主要是逻辑分析法,其工作思路是请有关专家对测验题目与原定内容范围的吻合程度作出判断。其具体步骤是:

明确欲测内容的范围,包括知识范围和能力要求两个方面。

确定每个题目所测的内容,并与测验编制者所列的双向细目表(考试蓝图)对照,逐题比较自己的分类与制卷者的分类,并做记录。

制定评定量表,考察题目对所定义的内容范围的覆盖率、判断题目难度与能力要求之间的差异,还要考察各种题目数量和分数的比例以及题目形式对内容的适当性等,对整个测验的有效性作出总的评价。

(2)统计分析法

克隆巴赫还提出过内容效度的统计分析方法。其具体方法是:从同一个教学内容总体中抽取两套独立的平行测验,用这两个测验来测同一批被试,求其相关。若相关低,则两个测验中至少有一个缺乏内容效度;若相关高,则测验可能有较高的内容效度(除非两个测验取样偏向同一个方面)。

(3)再测法

这种方法的操作过程是:在被试学习某种知识之前做一次测验,在学过该知识后再做同样的测验。这时,若后测成绩显著地优于前测成绩,则说明所测内容正是被试新近所学内容,进而证明该测验对这部分内容而言具有较高的内容效度。

(二)结构效度

1.结构效度的含义

结构效度是指一个测验实际测到所要测量的理论结构和特质的程度,即测验分数能够说明心理学理论的某种结构或特质的程度。

2.结构效度的特点

(1)结构效度的大小首先取决于事先假定的心理特质理论。

(2)当实际测量的资料无法证实理论假设时,并不一定就表明该测验结构效度不高,因为还有可能出现理论假设不成立,或者该实验设计不能对该假设作适当的检验等情况。

(3)结构效度是通过测量什么、不测量什么的证据累积起来给以确定的,因而不可能有单一的数量指标来描述结构效度。

3.结构效度的应用范围

结构效度主要用于智力测验、人格测验等一些心理测验。

4.结构效度的确定方法

(1)步骤

提出理论假设,并把这一假设分解成一些细小的纲目,以解释被试在测验上的表现。

依据理论框架,推演出有关测验成绩的假设。

用逻辑的和实证的方法来验证假设。

(2)结构效度的估计方法

测验内部寻找证据法:可以考察该测验的内容效度;可以分析被试的答题过程;可以通过计算测验的同质性信度的方法来检测结构效度。

测验之间寻找证据法:可以去考察新编测验与某个已知的能有效测量相同特质的旧测验之间的相关;也可以去考察新编测验与某个已知的能有效测量不同特质的旧测验间的相关;通过因素分析的方法来了解测验的结构效度。

考察测验的实证效度法:如果一个测验有实证效度,则可以拿该测验所预测的效标的性质与种类作为该测验的结构效度指标来推论测量的结构效度。这里有两种做法:

a.根据效标把人分成两类,考察其得分的差异。

b.根据测验得分把人分成高分组和低分组,考察这两组人在所测特质方面是否确有差异。若两组人在所测特质方面差异显著,则说明该测验有效,具有较高的结构效度。此外,对于一些被认为是较稳定的特质,若在短期内两次施测的结果差异不太大,则说明该测验符合理论构想。

多种特质-多种方法矩阵法(MTMM):该方法实质是相容效度和区分效度法的综合运用。其原理是,若用多种极不相同的方法测量同一种特质所得的相关系数很高,则说明该测量的相容效度较高;若用多种极为相似的方法测量不同特质所得的相关系数很低,则说明该测验的区分效度较高。

因素分析法:因素分析法是探索测验结构效度或验证测验结构效度的一种十分有效的方法。通常,在测验研发之前,研究者大多已经根据理论或实验研究,对所测验的结构有了较为详细的设计方案。在实测之后,可以分别采用探索性因素分析(EFA)和验证性因素分析(CFA)两种方法研究测验的结构效度。

(三)实证效度

1.实证效度的含义

实证效度,也称效标关联效度,是指一个测验对处于特定情境中的个体的行为进行估计的有效性。即一个测验是否有效,应该以实践的效果来作为检验标准。被估计的行为是检验测验效度的标准,简称为效标。

2.实证效度的种类及作用

根据效标资料搜集的时间差异,实证效度可以分成同时效度和预测效度两种。

(1)同时效度:效标资料是与测验分数同时搜集的。同时效度主要用于诊断现状,在于用更简单、更省时、更廉价和更有效的测验分数来取代不易搜集的效标资料。

(2)预测效度:效标资料是在测验之后根据实际工作成绩来确定的。预测效度的作用在于预测某个个体将来的行为。

3.效标

(1)效标就是衡量一个测验是否有效的外在标准,它独立于测验并可以从实践中直接获得我们所感兴趣的行为。

(2)我们所感兴趣的行为往往是一个观念上的东西(观念效标),它必须用一个数字或等级来进行表达(效标测量)。其中,效标测量的特点有:多样性、复杂性、特殊性、时间性。

(3)效标测量要想较好地体现观念效标,效标测量本身就必须是有效的和可靠的,而且还必须客观、实用。

4.实证效度的确定方法

(1)实证效度的确定步骤

明确观念效标;确定效标测量;考察测验分数与效标测量的关系。

(2)实证效度的估计方法

相关法:实证效度的一种常用估计方法是计算测验分数与效标测量的相关系数(积差相关法、等级相关法、二列相关法、四分相关法等)。

区分法:该方法的思路是,被试接受测验后,让他们工作一段时间,再根据工作成绩(效标测量)的好坏分成两组。这时再回过头来分析这两组被试原先接受测验的分数差异,若这两种人的测验分数差异显著,则说明该测验有较高的效度。

命中率:当用测验作取舍决策时,决策的正命中率和总命中率是测验有效性的较好指标。

a.总命中率:被测验选对了的人数和被淘汰对了的人数之和与总人数之比;

b.正命中率:被测验选出来的人中真正被选对了的人数的比率;

c.负命中率:被测验所淘汰的人中真正应该被淘汰的人数的比率。

基础率、灵敏度和确认度

a.基础率:符合筛选要求的群体在整个人群总体中所占的比率;

b.灵敏度:所有真正符合要求的人中能被测验鉴别出来的人数的比率;

c.确认度:所有不合要求的人中能被测验正确淘汰的人数的比率。

(四)效度验证的举证模式

1.“法庭辩论”范式

效度验证的举证模式把效度概念和验证方法提升到了一种类似“法庭辩论”的新范式。这种“法庭辩论”范式以非形式逻辑的图尔敏论证模式为理论基础。其基本思想是,效度验证是从数据出发,通过“收集证据和理论阐述”来支持或反驳关于“分数含义和作用的所有说辞”的一个辩论过程。其中,支持分数“说辞”的辩者负责提供有利证据并进行合理解读,反对分数“说辞”的辩者负责举出“反例”以挑战其中的某些“说辞”。

2.解读好坏的标准

根据上述范式,效度验证就是一个建立分数解读论点的过程。这种解读的好坏主要取决于以下三个标准:

(1)分数解读是否明确,任何含糊解读都会损害测量效度。

(2)逻辑论证是否完整,即考试表现与结果解读之间必须有真正合理的逻辑关系,而且这种逻辑链条必须是完整的,任何环节的遗漏都会影响测量效度。

(3)推论和假定是否合情合理,即关于分数含义和作用的解读或假设必须是合情合理的。这种合情合理的分数解读或许被认为是理所应当的,或许是得益于一系列的观察和分析,也可能是来自某种严格的实证研究。

三、提高测量效度的方法

(一)影响测量效度的因素

凡是与测量目的无关的、稳定的和不稳定的变异来源都会影响测量的效度。即测验本身的构成、受测被试的特点、施测的过程、阅卷评分、分数的转换与解释等一切与测量有关的环节都可能影响测量的效度。

1.测验的构成

当组成测验的试题样本没有较好地代表欲测内容或结构时,测量的内容效度或结构效度必然会不高。同时,若题目语义不清、指导语不明、题目太难或太易、题目太少或安排不当等,都会降低测量效度。一般而言,增加测验的长度可以提高测量信度,进而为提高测量效度提供可能。

2.测验的实施过程

一个测验在实施过程中,如不遵从指导语的要求、或出现意外干扰、或评分计分出现差错等,都会降低测量效度。

3.接受测验的被试

(1)被试的应试动机、情绪、态度、身体状态等,都会影响测量信度,造成较大的随机误差,进而影响测量的效度。

(2)就整个被试团体而言,如果缺乏必要的同质性,则很可能会得到不恰当的效度资料。

4.所选效标的性质

(1)由于同一个测验可以有不同的效标,同一个观念效标也可以有不同的效标测量,所以在评价测量效度时,所选效标的性质是很重要的考虑因素。

(2)在考虑效标与分数的相关时,有一个因素是必须重视的,即测验分数与效标之间是否符合线性关系的问题。因为皮尔逊积差相关的前提之一是二变量间具有线性关系,否则会得出错误的效度结论。

5.测量的信度

测量信度是测量的随机误差的反映,而任何误差的增加都会降低测量的效度。所以信度不高的测验不可能具有很高的测量效度。

(二)提高测量效度的方法

要想提高测量效度,就必须设法控制随机误差、减小系统误差,同时,还要选择好特别恰当的效标,把效度系数准确地计算出来。提高测量效度的方法如下:

1.精心编制测验量表,避免出现较大的系统误差。

2.妥善组织测验,控制随机误差。

3.创设标准的应试情境,让每个被试都能发挥正常的水平。

4.选好正确的效标、定好恰当的效标测量,正确地使用有关公式。