戴海崎《心理与教育测量》(第4版)笔记和课后习题(含考研真题)详解
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

5.2 课后习题详解

1什么是测量效度?它与信度的关系怎样?

答:(1)测量效度

效度是指一个测验或量表实际能测出其所要测的心理特质的程度,是测量的随机误差和系统误差的综合反映。一组测验分数的总变异包括三部分:

真实的(稳定的)、与测量目的有关的变异;

真实的、但出自无关来源的变异;

随机误差的变异。

在测量理论中,效度被定义为:在一列测量中,与测量目的有关的真实变异数(由所要测量的变因引起的有效变异)与总变异数(实得变异数)的比率,即:

这里rxy代表测量的效度系数,代表有效变异数,代表总变异数。

(2)测量效度与信度的主要关系

信度高是效度高的必要而非充分的条件;

测验的效度受它的信度制约。

2什么是内容效度?测验编制者和使用者应分别从哪几个方面来把握内容效度?

答:内容效度是指一个测验实际测到的内容与所要测量的内容之间的吻合程度。估计一个测验的内容效度就是去确定该测验在多大程度上代表了所要测量的行为领域。

内容效度主要应用于成就测验,用来测量被试掌握某种技能或学习某门课程所达到的程度。在这种测验中,题目取样的代表性问题是内容效度的主要考察方面。内容效度也适合于某些用于选拔和分类的职业测验。这种测验所要测的内容就是实际工作所需的知识和技能,编制这种测验应首先对实际工作作较细的分析。内容效度不适合用于能力倾向测验和人格测验。其确定方法有:

(1)逻辑分析法

内容效度的确定方法主要是逻辑分析法,其工作思路是请有关专家对测验题目与原定内容范围的吻合程度作出判断。其具体步骤是:

明确欲测内容的范围,包括知识范围和能力要求两个方面。

确定每个题目所测的内容,并与测验编制者所列的双向细目表(考试蓝图)对照,逐题比较自己的分类与制卷者的分类,并做记录。

制定评定量表,考察题目对所定义的内容范围的覆盖率、判断题目难度与能力要求之间的差异,还要考察各种题目数量和分数的比例以及题目形式对内容的适当性等,对整个测验的有效性作出总的评价。

(2)统计分析法

克隆巴赫还提出过内容效度的统计分析方法。其具体方法是:从同一个教学内容总体中抽取两套独立的平行测验,用这两个测验来测同一批被试,求其相关。若相关低,则两个测验中至少有一个缺乏内容效度;若相关高,则测验可能有较高的内容效度。

(3)再测法

这种方法的操作过程是:在被试学习某种知识之前做一次测验,在学过该知识后再做同样的测验。这时,若后测成绩显著地优于前测成绩,则说明所测内容正是被试新近所学内容,进而证明该测验对这部分内容而言具有较高的内容效度。

3什么是结构效度?测验编制者和使用者分别应怎样把握结构效度?

答:结构效度是指一个测验实际测到所要测量的理论结构和特质的程度,即测验分数能够说明心理学理论的某种结构或特质的程度。结构效度主要应用于智力测验、人格测验等一些心理测验方面。

(1)结构效度的确立步骤

提出理论假设,并把这一假设分解成一些细小的纲目,以解释被试在测验上的表现。

依据理论框架,推演出有关测验成绩的假设。

用逻辑的和实证的方法来验证假设。

(2)结构效度的估计方法

测验内部寻找证据法

a.可以考察该测验的内容效度。

b.可以分析被试的答题过程。

c.可以通过计算测验的同质性信度的方法来检测结构效度。

测验之间寻找证据法

a.可以去考察新编测验与某个已知的能有效测量相同特质的旧测验之间的相关。

b.也可以去考察新编测验与某个已知的能有效测量不同特质的旧测验间的相关。

c.通过因素分析的方法来了解测验的结构效度。

考察测验的实证效度法

如果一个测验有实证效度,则可以拿该测验所预测的效标的性质与种类作为该测验的结构效度指标来推论测量的结构效度。这里有两种做法:

a.根据效标把人分成两类,考察其得分的差异。

b.根据测验得分把人分成高分组和低分组,考察这两组人在所测特质方面是否确有差异。若两组人在所测特质方面差异显著,则说明该测验有效,具有较高的结构效度。此外,对于一些被认为是较稳定的特质,若在短期内两次施测的结果差异不太大,则说明该测验符合理论构想。

多种特质——多种方法矩阵法

该方法实质是相容效度和区分效度法的综合运用,其原理是若用多种极不相同的方法测量同一种特质相关很高(用极为相似的方法测量不同特质相关很低),则说明测量效度较高。

因素分析法:在测验研发之前,研究者可根据理论或实验研究,对所测验的结构设计较为详细的方案。在实测之后,可以分别采用探索性因素分析(EFA)和验证性因素分析(CFA)两种方法研究测验的结构效度。

4什么是实证效度?它与内容效度和结构效度有何异同?

答:(1)实证效度

实证效度是指一个测验对处于特定情境中的个体的行为进行估计的有效性。即一个测验是否有效,应该以实践的效果来作为检验标准。被估计的行为是检验测验效度的标准,简称为效标。根据效标资料搜集的时间差异,实证效度可以分成同时效度和预测效度两种。

同时效度:效标资料是与测验分数同时搜集的。同时效度主要用于诊断现状,在于用更简单、更省时、更廉价和更有效的测验分数来取代不易搜集的效标资料。

预测效度:效标资料是在测验之后根据实际工作成绩来确定的。预测效度的作用在于预测某个个体将来的行为。

(2)与内容效度和结构效度的异同

相同点

这三种效度都是从不同角度来衡量测验的效度,相互补充,共同验证测验的有效性。

不同点

a.它们是估计测验效度的不同方面:内容效度是确定测验在多大程度上代表了所要测量的行为领域,结构效度是确定测验实际测到所要测量的理论结构和特质的程度,实证效度是对于特定情境中的个体的行为进行估计的有效性。

b.它们的应用范围不同。内容效度主要应用于成就测验,结构效度主要用于智力测验和人格测验,实证效度主要应用于能力倾向测验。

c.确定它们的方法也不同。确定内容效度的主要方法是逻辑分析法,确定结构效度的方法包括测验内部寻找证据法、测验之间寻找证据法等,实证效度的确定方法包括相关法、区分法和命中率法。

5什么是效标和效标测量?效标测量有何不足?

答:(1)效标就是衡量一个测验是否有效的外在标准,它是独立于测验并可以从实践中直接获得的人们所感兴趣的行为。

(2)人们所感兴趣的行为往往是一个观念上的东西(观念效标),它必须用一个数字或等级来进行表达(效标测量)。

效标测量要想较好地体现观念效标,效标测量本身就必须是有效的和可靠的,而且还必须客观、实用。如果一个测验有实证效度,则可以拿该测验所预测的效标的性质与种类作为该测验的结构效度指标来推论测量的结构效度。这里有两种做法:

根据效标把人分成两类,考察其得分的差异。

根据测验得分把人分成高分组和低分组,考察这两组人在所测特质方面是否确有差异。若两组人在所测特质方面差异显著,则说明该测验有效,具有较高的结构效度。此外,对于一些被认为是较稳定的特质,若在短期内两次施测的结果差异不太大,则说明该测验符合理论构想。

(3)效标测量的不足

效标测量具有多样性和复杂性。同一个观念效标可以有多个效标测量,而且每一种效标行为往往都是由多种特质构成的,因此,效标测量是件极为复杂的事。

效标测量具有特殊性和时间性。由于效标测量多种多样,所以有些效标测量只可以反映测验在某一特殊方面的有效性程度,即在一种情况下有效的测量,在另一种情况下未必有效。这就要求测验的编制者和使用者特别小心。

一般来说,如果效标测量要想较好地体现观念效标,效标测量本身就必须是有效的和可靠的,而且必须客观和实用。

6已知rxx=0.31,rxy=0.42,若希望把效度系数提高到0.65和0.70,则测验长度要增加几倍?

答:测验长度与效度的公式如下:

整理得:

时,

时,

所以,要想把效度系数提高到0.65,测验长度需要增加6.42倍;要提高到0.70,测验长度需要增加13.80倍。

7复习有关教育与心理统计知识,弄清各种相关系数的计算方法与使用条件。

答:(1)Pearson相关

Pearson相关是最常用的相关,主要用于测量两个变量间线性相关的程度和方向,一般用于等距或等比的数据。Pearson相关系数用r来表示,它的计算方法如下:

其中,表示x和y的协方差,即两者共变的程度,用原始数据表示为:

SSxSSy表示x和y各自方差的乘积。

(2)Spearman相关

Spearman相关的显著性检验是一种非参数检验方法。一般在两种情况下会用到Spearman相关的显著性检验:

当研究考查的变量为顺序型数据时;

当研究考查的变量为线性、不考虑分数分布是否正态的数据时。

它的计算方法为:在计算Spearman相关系数时,首先要保证X和Y是顺序型数据,无论它们原始的值就是顺序型的,还是经过等级转换而成的。在进行等级转换的时候,最小的值等级为1,第二小的等级为2,依此类推。之后,使用Pearson相关公式对顺序型数据进行计算,即可得到Spearman相关系数,该系数用rR表示。

其中,D为同一个个体的X和Y各自排序后等级的差。

(3)点二列相关

点二列相关用于一列数据为正态等距或等比变量,另一列为二分命名变量的情况下,考查两个变量之间的关系。点二列相关的相关系数记为rpb,其公式如下:

其中,是与二分命名变量的一个值对应的连续变量的平均数,是与二分命名变量的另一个值对应的连续变量的平均数,p是指二分命名变量中某一个值的比例,而q则指另一个值的比例。St表示等距或等比数据的标准差。

(4)Kendall和谐系数

Kendall和谐系数就是用来表示多列等级变量相关程度的指标,最为常见的应用情况就是K个评定者对N个事物进行等级评定,考查这K个评定者之间评分的一致性。可见,Kendall和谐系数也是等级相关系数的一种。Kendall和谐系数的公式如下:

其中,Ri为每一个被评价事物的K个等级之和,K为评定者的个数,N为被评价的事物的个数。

8假设某学者自编了一套神经类型测验,并且在几十万人中进行了试用。试问:该测验是否一定有效?

答:测验的有效性,即测验的效度,是指一个测验或量表实际能测出其所要测的心理特质的程度。分为内容效度、结构效度和实证效度等,可以分别从这三个方面来探讨一下该测验是否有效:

(1)从内容效度方面来看

内容效度是指一个测验实际测到的内容与所要测量的内容之间的吻合程度。通常来讲,内容效度的确定方法是:专家评定法和统计分析法。

明确欲测内容的范围,包括知识范围和能力要求两个方面。这种范围的确定必须具体、详细,并要根据一定目的规定好各纲目的比例。

确定每个题目所测的内容,并与测验编制者所列的双向细目表(考试蓝图)对照,逐题比较自己的分类与制卷者的分类,并做记录。

制定评定量表,考察题目对所定义的内容范围的覆盖率、判断题目难度与能力要求之间的差异,还要考察各种题目数量和分数的比例以及题目形式对内容的适当性等,对整个测验的有效性作出总的评价。

克隆巴赫还提出过内容效度的统计分析方法。其具体方法是:

a.从同一个教学内容总体中抽取两套独立的平行测验,用这两个测验来测同一批被试,求其相关。若相关低,则两个测验中至少有一个缺乏内容效度;若相关高,则测验可能有较高的内容效度(除非两个测验取样偏向同一个方面)。

b.第二种判断内容效度的方法是再测法。这种方法的操作过程是:在被试学习某种知识之前做一次测验,在学过该知识后再做同样的测验。这时,若后测成绩显著地优于前测成绩,则说明所测内容正是被试新近所学内容,进而证明该测验对这部分内容而言具有较高的内容效度。

从题目看来,这种测验是由某学者自编的,缺少专家的评判,也没有相应的统计分析方法,所以,该测验实际测验出来的内容是否与想要测验的内容相吻合,值得商榷。

(2)从结构效度方面来看

结构效度是指一个测验实际测到所要测量的理论结构和特质的程度,或者说它是指测验分数能够说明心理学理论的某种结构或特质的程度。结构效度的确定方法:

提出理论假设,并把这一假设分解成一些细小的纲目,以解释被试在测验上的表现。

依据理论框架,推演出有关测验成绩的假设。

用逻辑的和实证的方法来验证假设。

从题目上来看,题目中没有交代清楚该测验编写的理论依据,因此测验的结构效度也值得怀疑。

(3)从实证效度方面来看

实证效度,也称效标关联效度,是指一个测验对处于特定情境中的个体的行为进行估计的有效性。即一个测验是否有效,应该以实践的效果来作为检验标准。被估计的行为是检验测验效度的标准,简称为效标。该题目中没有涉及到效标的界定,所以也不能够从实证效度的角度来探讨其有效性。

总之,非常值得肯定的一点是该测验的施测样本比较大,在某种程度上可以减少由于样本选择所带来的随机误差,因为无论是随机误差还是系统误差都会影响到测验的效度,随机误差减小可以增加测验的效度,但是该测验的系统误差,如:测验的内容效度、结构效度和实证效度方面资料不足,因而可能影响到该测验的有效性。

9假设需要编制一套小学高年级学生的阅读能力测验,试设计一个效度验证方案。

答:效度是指一个测验或量表实际能测出其所要测的心理特质的程度。分为内容效度、结构效度和实证效度。

(1)内容效度

内容效度是指一个测验实际测到的内容与所要测量的内容之间的吻合程度。通常来讲,内容效度的确定方法是:专家评定法和统计分析法。

明确欲测内容的范围,包括知识范围和能力要求两个方面。这种范围的确定必须具体、详细,并要根据一定目的规定好各纲目的比例。

确定每个题目所测的内容,并与测验编制者所列的双向细目表(考试蓝图)对照,逐题比较自己的分类与制卷者的分类,并做记录。

制定评定量表,考察题目对所定义的内容范围的覆盖率、判断题目难度与能力要求之间的差异,还要考察各种题目数量和分数的比例以及题目形式对内容的适当性等,对整个测验的有效性作出总的评价。

克隆巴赫还提出过内容效度的统计分析方法。其具体方法是:

a.从同一个教学内容总体中抽取两套独立的平行测验,用这两个测验来测同一批被试,求其相关。若相关低,则两个测验中至少有一个缺乏内容效度;若相关高,则测验可能有较高的内容效度(除非两个测验取样偏向同一个方面)。

b.第二种判断内容效度的方法是再测法。这种方法的操作过程是:在被试学习某种知识之前做一次测验,在学过该知识后再做同样的测验。这时,若后测成绩显著地优于前测成绩,则说明所测内容正是被试新近所学内容,进而证明该测验对这部分内容而言具有较高的内容效度。

因此,若要编制一套小学高年级学生的阅读能力测验,需要经过专家评定,由专家来对测验的有效性作出总的评价,或者利用统计分析法,即复本法和再测法来计算此套测验的内容效度,确保测验内容覆盖了所要测量的内容。

(2)结构效度

结构效度是指一个测验实际测到所要测量的理论结构和特质的程度,或者说它是指测验分数能够说明心理学理论的某种结构或特质的程度。因此,若要编制一套小学高年级学生的阅读能力测验,需要说明测验编制所依据的理论。具体的结构效度的确定方法为:

提出理论假设,并把这一假设分解成一些细小的纲目,以解释被试在测验上的表现。

依据理论框架,推演出有关测验成绩的假设。

用逻辑的和实证的方法来验证假设。

(3)实证效度

实证效度,也称效标关联效度,是指一个测验对处于特定情境中的个体的行为进行估计的有效性。即一个测验是否有效,应该以实践的效果来作为检验标准。被估计的行为是检验测验效度的标准,简称为效标。

因此在编制完成后,应将其用于小学高年级学生,看他们的测验成绩是否与其真实阅读能力相符。

10以高中学业水平考试为例,试运用效度验证的举证模式,阐述关于分数含义和作用的各种论点,并收集各种支持或反对这些论点的证据、理论等。

答:效度验证的举证模式把效度概念和验证方法提升到了一种类似“法庭辩论”的新范式。这种“法庭辩论”范式以非形式逻辑的图尔敏论证模式为理论基础。其基本思想是,效度验证是从数据出发,通过“收集证据和理论阐述”来支持或反驳关于“分数含义和作用的所有说辞”的一个辩论过程。其中,支持分数“说辞”的辩者负责提供有利证据并进行合理解读,反对分数“说辞”的辩者负责举出“反例”以挑战其中的某些“说辞”。