一、心理测量与心理测验
我们在前面以及后面多处的叙述中可以看到经常出现的两个词“心理测量”与“心理测验”,这二者含义是相同的吗?如果不同,它们之间的关系或区别何在?其实这是两个含义有别而且又非常容易混淆的概念。
桑代克
人们对测量并不陌生。比如我们平时经常会借助尺子来测量身高,用秒表来测量运动员跑步的成绩,用磅秤来测量体重。这些测量,都是对长度、时间、重量等物理现象进行的测量,这样的测量我们称之为物理测量。心理测量与物理测量的思想基础和原则是一致的。美国心理学家和教育家桑代克(Edward Thorndike, 1874—1949)曾说过,任何现象,只要是存在的,总有一种数量;美国教育测验学家麦柯尔(W.A.MacCall)也说过,凡有数量的必能测量。这两句名言也成了心理测量存在的基础。心理现象存在差异是不可争辩的事实,这种差异意味着数量的存在,因而应该能够根据某种规则进行测量。
综上所述,我们可以说,心理测量一般是指依据一定的心理学理论,使用一定的操作程序来对人的能力、人格、心理现象、心理特征等进行的测量,并对测量的结果进行一定的量化。它已经是心理学范畴的一门重要学科。
从广义上说,任何对人的心理所进行的研究都涉及对心理的测量。如心理物理法对人的心理量与物理量关系的测量,观察法、调查法、访谈法等都是进行心理测量的方法。但我们更渴望一种标准化的工具,就像制作尺子测量长度、制作秤来测量重量一样,几乎所有人都可以按照相应的方法来利用这一工具,而不是用经验者的估计对事物进行测量。在心理学上,我们把测量的工具称为量表。其实在被测的人看来,他所接触到的仅仅是一系列需要通过思考来回答或者是通过计算来解答的题目;而对于主持测量的人来说,另外还包括合适的测验对象、测验的环境、计分的方式、对分数的处理方式、解释分数的方法等等。在严格意义上来说,心理测验就是符合这种要求的一种量表。我们日常见到的娱乐性成分占很大比重的一些小测验比比皆是,只不过我们对这些测验的要求不是很苛刻。虽然心理测量不仅仅限于用心理测验进行,也可以使用其他各种方式来获得数据,但我们在心理测量这门学科中所说的测量主要是指用心理测验进行的测量。
因此,我们可以通俗地说,心理测验是以测题方式来完成心理测量的一种具体手段。观察法、访谈法、问卷法、实验法、心理物理法等方法虽然也是心理测量的常用方法,但心理测量作为一门学科,是以研究编制心理测验的理论与实践为主。
安娜斯塔西
在心理测量科学中,如果用专业术语来描述的话,对心理测验最为流行并且得到公认的定义来自美国心理测量学家安娜斯塔西(Anne.Anastasi, 1908—2001),她将心理测验定义为“对行为样本的客观的和标准化的测量”。在这个定义中,规定了一个测验所具备的以下五个最重要的基本特征。
第一,行为样本。心理测验在测量个体差异时,往往也只能使用少数的行为来进行观察,从而推测被测验者(有时亦称被测者、被试、受测者、来访者)的心理特征。在医院里面,医生在分析患者的血型或其他疾病时,往往只需要抽取极少量的血样进行化验。再例如,要想了解一定年龄儿童的运算能力,就可以通过给他们提供一些数学问题来测量儿童的运算能力。而在选择有代表性的数学问题时,就必然要考虑题目的难易程度、题目的数量、题目内容涵盖的范围。题目太难了,绝大多数的人都答不出,题目太容易了,绝大多数的人都能答对了,这都不能有效考查一组儿童运算能力的差异;题目太少,偶然因素会占有很大的成分,不能对测验结果进行正确评估,题目多了固然会减少偶然性,但总不能让儿童做几天题吧?因为这既不经济,也决不现实;题目内容涵盖的范围也很重要,应该是选择这个年龄的儿童能做上的、能够通过掌握的知识计算出来的各个方面。所以,我们就需要一整套有代表性的题目来引发他们的行为。这些行为必须能够提供给我们足够有用的信息,能充分反映被测验者的行为特征,还要表现出一定的区分度,以便能把不同的被测对象区分开来。我们进行测量是为了研究个别差异的,如果一组被测者不能在测验中表现出个别差异,它就不会是一把好的尺子。我们把这样的一组具有代表性的行为称为行为样本。测题的作用就是引发他们的行为。
第二,标准化。就是指测验的编制、实施计分和对测验分数的解释必须保持一致。对所有被测验者来说,进行测量的条件必须都相同,得出的分数才能够进行比较。而这一标准化过程并非如我们想象得那样简单。事实上,从编制测验开始,直到施测过程都存在着标准化的问题。首先,要有专门的测验编制者按照科学的程序来编制测验,这本身就已经是一个极其复杂的过程,我们在下文中会有专门的介绍;在测验实施过程中,还要对所有被测者都有相同的指导语和计分程序。也就说,在测验实施过程中,对所有被试的条件都要相同。这一步骤说起来容易但做起来却很难。比如指导语的控制,是否完全一致的话语就算是标准化呢?一般来说是这样的,但是有些时候,却并非如此。比如说,一个母语不是英语和母语是英语的人同时进行测验,那么在指导语的理解上就可能会有差别,可能会带来不同的结果,引起不同的行为,我们这时就不应再局限于语句上的一致,而尽量让两人都真正理解让他们做什么,怎么做。这一问题也存在于中国各地持有不同方言的被试中。完全的平等是很难做到的,但在实施中需要有经验的主试来尽量地控制,从而尽量减少误差。与其追求表面词句的相同,不如追求功能上的一致。
作为一个测验的标准化内容,还有一个更重要的部分是制定“常模”。我们如何比较个别差异呢?需要有一个固定的点,就像尺子有一个零点(或原点)一样,一个长度有多长,是根据它相对原点的距离而言的,如果没有一个固定的原点,就不能够进行比较。现代心理和教育测量的知识已告诉我们,人类行为几乎没有绝对测度的事实。在个别差异的研究中,人们早已不再追求绝对测度了,而是以全体可能适测对象的平均数作为参照点。而将个体差异的标准差作为量表单位的基础。我们通过看一个人的测验分数在全体平均数之上或之下有多远来解释其测验分数,这个平均数也就是常模。换句话说,常模就是一个心理量表的原点,或者说是平均水平。就智力测验来说,如果他在平均数之上很远的位置,就可以说这个人很聪敏,智力水平较高,在常模之下很远的位置,就只能说此人很愚笨。
常模是怎样确定的呢?因为要测量总体中所有人在某一测验上的成绩是不可能的,所以我们在确定常模时往往是通过选取一组被试来代表总体,这样他们的平均成绩就可以代表总体的平均成绩,每一个人的成绩可以通过与常模的比较而得知其在总体中的位置了。例如,一组正常10岁儿童能完成某一数学测验100题中的30题,30题的分数就是一般10岁儿童在这一测验上的常模。常模是否可靠,关键在于是否有一个代表性的被试样本(不是前述的行为样本,前述的行为样本是测题,而这里的样本是被试,即人),使其基本上能代表全体被试。那么,如何才能建立一个有代表性的样本呢?这就要求既要有合适的数量,而且还必须是要根据随机抽样或分层抽样原则挑选出来的。
随机抽样亦称几率抽样或概率抽样。就是从总体中不加任何分组、划类、排队等,完全随机地抽取调查单位。特点是:每个样本单位被抽中的概率相等,样本的每个单位完全独立,彼此间无一定的关联性和排斥。通常只是在总体单位之间差异程度较小和数目较少时,才采用这种方法。例如,考察一个班级学生的情况时,由于条件限制,只能在整个班级的60人中抽取10名,那么就可以通过学号来抽取,把每个号码写在一张小纸条上,折起来放在一起,然后随机从中抽取10个小纸条。或者根据概率统计书籍附录中都附有的随机数表,从任一位置开始,连续获取10个数字,就把这些学号的学生作为样本。
分层抽样也叫类型抽样。就是将总体单位按其属性特征分成若干类型或层,然后在类型或层中随机抽取样本单位。特点是:由于通过划类分层,增大了各类型中单位间的共同性,容易抽出具有代表性的调查样本。该方法适用于总体情况复杂,各层次之间差异较大,层次较多的情况。例如考察民众对政府某项决策的意见时,就应该按比例地在工人、农民、学生、知识分子、民族、甚至考虑年龄性别因素等都要抽取一些。
第三,客观性。心理测验的客观性是指测验的整个过程都是客观的,不受任何主观因素的影响,尤其是主持测验的人的主观判断、支配等影响。不仅如此,在测验题目的难易选择、难易程度编排等方面也必须体现出测验的客观性。对于比较专业的测验来说,这些都是需要经过科学的、严谨的计算和分析才能进行的。事实上,这也是心理测量的一个很高的追求,是很难完全做到的,在很多测验中,特别是人格投射测验中,整个测验的实施和解释过程都具有较强的主观性,在很大程度上依赖于主持测验者的经验。
第四,信度。通俗地说,信度当然是测验的可信程度了。那么,对于一个已知的测验来说,我们如何来评价它是否为一个很好的测验呢?一般来说,用来评价一个测验的指标有两个,即信度和下文所说的效度。信度是指一个测验结果的一致性。它既包括在时间上的一致性,也包括内容上的一致性和不同评分者间的一致性。如果一个儿童测得智商为100,几天后再次以同样的测验测得的智商却为80,那么应该说这个测验肯定是不可靠的。如果同一儿童针对同一测验给出的答案,一个评分者给出的分数是80,另一个评分者给出的分数是120,那么这一测验也是不可信的。如果两道测题宣称都测量同一个心理特征,那么受测者在这两个测量上应该具有一致的反应。如果一个人在这一题上答“是”,另一题上答“否”,那么又该如何判断受测者的这个心理特征呢?这样的测验也是不可信的。所以一个真正的测验,必须提供信度指标,测验的使用者要考虑选择合适的信度资料,作出对测验结果比较恰当的预测和解释。
第五,效度。效度是指测量结果的有效性和正确性。我们说一个测验有效,就是说它测验到了它所要测量的东西。效度是心理测验中最重要的一个问题。如果一个测验没有效度的证明,就不知道它测量到了什么东西,因此我们也就不能从测验成绩中获得任何有用的信息或作出正确的解释。正如你要测量一个学生身高,如果用尺子测量就是有效的;但是如果使用磅秤去称重呢,尽管说结果是可信的,但这一工具是无效的,因为它没有测量到我们所要测量的东西。测验的效度也可以用不同的指标来表示。例如,人们认为智力可以预测学业成绩,那么一个智力测验是否有效,就可以看一个人在智力测验上的得分与他的学业成绩是否相关。如果能够预测,就可以认为这个智力测验具有一定的效度。也有一些测验不是被用来进行预测的,而是用来测量人的内部心理结构。例如,现代的大五人格理论(five factor model, big鄄five model)认为人格有五个维度,那么根据大五人格理论编制的测验,就应该能够区分出人格的这五个基本特征。一般会用五个分测验分别测量这五个维度的人格特征。人们对这五个基本维度上的得分进行计算,如果它们之间是相互独立的,就可以认为存在着这五个维度。否则我们很难相信这个测验是有效的。
尽管心理学家为心理测验制定了五个标准,希望心理测量能够像物理测量那样准确可靠,但是,毕竟心理测量不会像物理测量那样直观、准确和易于驾驭。因为心理测量不可能像物理测量那样,在肉眼监督下直接进行、并且能对误差进行一定限度内的控制,而只能是间接测量。我们只能根据被测者对测验题目的反应来推测他的心理品质。而且在进行推测的过程中,在很大程度上要依赖于我们对于心理现象的认识,然而,关于心理现象的理论并不像物理学的理论那样精确、严谨、严格和深入。更加值得一提的是,由于地理、文化、伦理、传统、语言、教育等多方面的影响,不同的资深学者对于同样的心理现象可能有着完全不同的观点、解释及测量的方法。但无论如何,他们的一个共同追求是提高测量的精确程度。那么,我们的心理测量能精确到什么程度呢?
心理测验与学生考试不同。对于考试来说,几乎都可分出好坏程度,几乎所有的情况都是分数高的学生成绩好、值得鼓励和表扬;而学习成绩低甚至不及格的学生需要督促和鞭策。多数心理测验的结果则与此截然不同。例如,喜欢红色的人可能热情而奔放、喜欢蓝色的人可能温柔而稳重,你能说哪个更好、哪个不好?从小讨厌音乐而喜欢体育的人可能会成为体育明星、从小讨厌体育而喜欢音乐的人可能会成为音乐家,你能说哪个好一些、哪个不好一些?
心理测验涉及很多方面。测验的题目、计分及答案(甚或没有标准答案)都与传统考试有所不同。这在前面的两个例子中都看到了的。
正因为如此,在制定量表的时候,由于将要测量的内容不同,也由于制定量表的单位和参照点不同,所以,不同量表的精确度可能会有所不同。有些量表可能只是为了对不同的类型的人进行区分,有些是要对同一类型的人进行排序,更多的量表,还期望着除了被测者的前后顺序,还希望知道他们在这一心理特征上相差的程度到底有多远。据此我们可以把测量分为四种水平,如果将测量从低级到高级排列,分别是名称量表、顺序量表、等距量表和比例量表,高级的量表除了具有包括低级量表的条件假设和功能外,还具有本身的特点。
第一,名称量表。它是最低水平的一种测量量表,只是用数字代表事物或者给事物分类,但没有任何数量上的意义,只具有区分的功能,不意味着大小、多少或顺序。例如学生的学号就是一种名称量表,它仅仅是作为一个符号来表示对应的学生而已,因为学生的姓名可能会重名。有时亦以某一数值表示相应的属性,例如用1来代表男性,用0来代表女性;名称量表不能做数量化分析。既不能比较大小,又没有顺序上的意义,更不能作加减乘除等运算。
第二,顺序量表。它比名称量表要精确一些,其中的数字不仅指明了类别,同时指明不同类别的大小或具有某种属性的程度。这种顺序却不能表明各种类别之间的距离。它只是按照某种规则对被研究对象排序而已。例如,体育比赛中的名次就是顺序量表。第一名比第二名的名次少1,第二名比第三名的名次也少1。但同样相差1,并不表示其距离相同,更不能说明各名次之间的差距是多少,而且这之间的距离可能是各种测量方式,例如,对于短跑或长跑,测量方式是时间;对于跳高或跳远,其测量方式又是长度(高度),等等。
第三,等距量表。它不仅表示大小关系,而且有相等的单位。例如温度计就是一个等距量表。60度与40度的差异等于30度与10度之间的差异。智力测验中的 IQ 分数也可以看做是一种等距量表。等距量表能够进行加减运算,可以用多种统计方法来处理表中的数据,如平均数、标准差、积差相关等等。但是等距量表没有约定的零点,也不存在倍数关系。例如我们不能说智商120的人智力水平是智商60的人的两倍。更能说明这一点的是,你能说摄氏25℃是摄氏零下5℃的多少倍?
第四,比例量表。是最高级和最精确的测量水平,也是科学家们心中的理想量表。它既有等距的单位,又有绝对零点,用比例量表进行的测量,不仅能知道事物在某种特征上相差多少,还可以知道他们之间的倍数关系。例如长度测量就是比例量表。我们完全可以说6米是3米的2倍。
那么,我们极为关心的心理测量是在哪种水平上呢?严格地说来,在大多数情况下,心理测量更多的是一种顺序量表,但心理测验学家正在努力,力图使心理测量在等距的统一单位下进行。这样才能更好地理解人的心理并进行比较。所以我们现有的大多数测验都作为等距量表,而不可能达到比例量表。我们可以发现,对于心理测量来说,做到真正的等距量表是相当困难的。因此,心理测量的间接性和它所能达到的精确程度,时刻提醒我们对待心理测量结果时不可能像对待物理测量结果时那样有信心和把握。
心理测量这门学科所研究的正是如何编制测验的理论与实践的学科。
至此,相信读者对心理测验已经有了一些初步的了解。那么你能否再来思考一下,我们在生活中遇到的各种各样的所谓心理小测验,它们是不是一个标准化的心理测验呢?记忆力测验举例:下面为成人读者提供14个问题,给你一个小时的时间。每答上1题可得1分,答不上得0分。
1.小学六年级(或小学的最后一年)班主任的名字?
2.小学六年级(或小学的最后一年)时,班级一位男同学、一位女同学的名字?
3.初中时代读过的印象很深的一本小说?
4.现在的好朋友中,结识最早的是谁?哪一年结识的?
5.最近的一次应酬中,同桌吃饭的人的名字?
6.你最早喜欢唱的一首歌曲是什么?在哪一年?
7.你能记住10位朋友或同事的电话号码吗?
8.你的初恋是在哪年?初恋情人的名字?
9.你踏入社会的第一个工作单位的领导名字?
10.你第一次乘坐火车的时间?事由?
11.昨天你最后一次回家休息前,最后看到的熟人是谁?
12.昨天晚饭吃的菜都还记得吗?
13.记得你前天穿的外衣吗?
14.最近一次体育活动(打牌或打球等)的伙伴都是谁?
15.能说出两位亲人(父母、兄弟、姐妹或子女)的生日吗?
这个测验改编自早期一本趣味测验书籍。如果你能够得到12—14分,说明你记忆力很惊人、情感丰富、亦有较高情商;如果你得到10—11分,说明你记忆力很好,并且恋旧;得到8—9分,记忆力一般;得到6—7分,记忆力很一般,或者可能不愿留恋和回味过去的事情;5分或以下者,你的记忆力很成问题了,或者整天无所事事、大脑混沌。