四、测验分数探秘
在现代社会中,“分数”在很多时候决定了我们的命运。高考有分数线,平时考试有及格线,有时候一分之差,两个人的命运可能就是霄壤之别了。很多中年人在青少年时期都听到老师和学生之间广泛流传的顺口溜——“分,分,分,学生的命根”。在以考试来筛选哪些人可以进入更高一级学府进行深造的中国社会里,这句话不无道理。人们总是喜欢高分,喜欢超过别人。在进行心理测验时,也常常如此。
例如,在学校的一次考试后,一个孩子放学回家后会对妈妈说,我考试得了90分。妈妈可能会问:满分是多少?满分是100分还是150分,妈妈的反应肯定是会不一样的。如果满分是100分,她会很高兴;但如果满分是150分,会是什么表现呢?妈妈会猜想,是孩子没考好呢,还是题目太难呢。如果是因为太难,那么可想而知,其他孩子的分数也不会高。所以接着会问,其他同学考得怎么样;或者问,你排在第几名?如果孩子的名次比较靠前,那么不管得分多少,都会感到满意。这时我们更关心的是考试的相对成绩。
也有一些时候,我们也许不太关心考试中的名次,而更关心是否能及格。大学生经常问的一个问题就是“考试通过了没有”,而不太关心考试结果是得了65分,还是70分。因为达到60分就可以得到学分或者证书,否则就意味着补考或重修。这时名次可能并不重要,重要的是达到及格的标准,这意味着能力水平达到了一定的规定或需要的标准。
理解心理测验的成绩与考试成绩的道理没有什么太大的区别。在心理测量中,与以上两种情况相类似,我们根据计分方式的不同也有两类测验,一类是常模参照测验,一类是标准参照测验。大多数的心理测验属于前者,采用常模计分。我们在前面对测验基本特征的介绍中谈到过常模,所谓常模记分,也就是看一个人的测验分数在总体中的位置。因为在编制测验时,不可能把该测验的所有适用人群都进行测试,这既不经济也不必要,因此总是从总体中抽取一个可以代表总体的样本,计算其平均分,代表总体成绩的平均数。这样的话,把一个测验分数与之相比较也就相当于与总体进行比较。常模实际上也就是总体的代表性样本的平均成绩。
在教育领域往往更多使用标准参照测验。实际上标准参照测验的记分也是可以放在常模记分的框架之下的,因为如何设定标准,与整个人群的平均成绩有很大的关系。例如英语四六级考试中,往往是先设定了让多少比例的人数通过考试,而后再设定通过的标准,只是在标准参照测验中,我们不太关注更细微的个体之间的分数差异,而特别关注分界点而已。
但是在心理测验中,最终的分数形式可能与考试成绩的形式有所不同。一个人在测验中的直接得分,称为原始分。原始分本身常常没有意义或仅具有有限的意义。只有与常模相比较才能得到有意义的解释。因此在心理测验中,常常把原始分数与常模比较之后,转化成另外一种新的形式,称为量表分数,这样使我们能够直接从量表分数中就可以得到一个被测者的测验分数在人群中的相对位置,并给予具有一定意义的解释。与他人比较有很多种方法,相应有不同类型的常模。
与他人进行比较的一个简单方法是排序。在心理测验中,常使用百分位法来表示一个人的成绩在总体中的位置,使用百分位数的好处是总体的大小可变。例如学生可能会关心自己在考试中的名次,同样是第一名,在班里考第一与在全校考第一的意义显然不同,因为总体的人数变了。而百分位数解决了这一问题,用一个人的分数在总体中所处的百分位数来表示。例如测验手册中可能提供了这样的表格:
原始分为65的女孩与所有女孩相比,她处于百分位为95的位置。意思是95%的女孩分数比她低,但如果与所有人相比,则有99%的人比她低。一般来说,百分位数与总体分数的分布有关,如果分数在中间分布较密,那么其实际水平差异可能不大,却会导致百分位数的巨大变化。而在两端,百分位数差异不大,但其实际水平却差异很大。百分位数不是一个等距的量表。标准分数系统克服了百分位数的这一缺陷。
标准分数系统是根据这一事实,即我们发现人类的很多属性分布呈常态分布或近似常态分布。如果测验分数呈常态分布,68%的被测者得分将处于平均数的一个标准差范围内,95%的被试将处于两个标准差范围内。换句简单的话,就是说大多数人都处于中等水平,高低两端的人较少。常态分布中,知道了一个分数与平均分之间的差就可以知道它在总体中的位置。通过把原始分数转化为标准差的比率或倍数,那么,得到的标准分数既表示了相对位置,又表示了分数总体分布的密度。
所谓常态分布,在数学上一般称为“正态分布”,是由德国数学家高斯(Carl Friedrich Gauss, 1777—1855)首先发现的,亦称“高斯分布”。其分布密度函数太过复杂,这里不赘述。在统计学中,考察的数据都是有限多个的,即便符合常态分布,也都是近似的。
标准差又叫做“均方根差”,简称“均方差”,是指资料中各个数值与算术平均数相减之差的平方和的算术平均数的平方根。其计算公式:
其中,σ代表标准差;x 代表各数值;代表这组数值的算术平均数;n代表这组数值的个数。
标准差是统计学中经常用到的一个概念。它能有效地表示一组数据的离散程度。高尔顿提出,个人的测验分数可以根据个人分数与整体平均分的差异量来描述;平均分代表了一组被试的平均水平;而标准差表示了一组被试分数分布的离散程度,标准差着重研究的是整体。标准差越大,表明这组数据的离散程度越大,即数据越参差不齐,分布范围越广。这正像足球队员一样:一个队每人的年龄都是20,平均年龄也是20;而另外一个队的年龄从15到65不等,平均年龄也恰好是20,你能说这两个队的足球水平是一样的吗?又例如,一个国家每人年收入都是1万美元,平均收入自然也是1万美元;而另外一个国家的平均人收入是1万美元,但有的年收入100万美元以上,有的没有收入甚至负债。平均收入都是一样,但是很显然后者社会稳定程度不如前者。这就是引入“标准差”这一概念的缘故,因为平均数已经不足以评价一组数据了。标准差的值越小,表明该组数据离散程度越小,即数据越集中、整齐,分布范围越小。不仅是在教育与心理学研究中,即使是在其他领域,标准差大好还是小好,都要看所分析的问题而定。如果某班考试成绩分布标准差极大,对老师的教学是不利的,而且平均分数也失去了意义。因为对待水平相差很大的学生来说,可能要采取不同的教学方法和教学进度。而在选拔性的测验中,如果某一测题得分的标准差极小,甚或为零,则这一题失去了区分能力,不能对学生进行区分,那它就是一个质量较差的题目。标准差与分数分布有关,如果了解分数分布的规律,那么标准差则提供给我们被试在总体中所处位置的参考。
当原始分的分布近似常态分布时,使用标准分数有许多优点。标准分数的差异与原始分的差异是成比例的。用于计算平均数及相关系数等指标时,使用标准分数与使用原始分数得出的结果一致。也就是说使用标准分数,没有改变原始分数的分布。这是与一般百分位数不同的。但如果原始分数没有呈现常态分布,则不宜使用标准分数。在心理测量中,大多数人的心理功能都近似于常态分布,这给心理学家带来了方便。当然并不是所有的分数分布都能用常态分布来表示。心理学家并不一定相信常态分布是人类特点的某种自然分布,有时具有一定的人为性,或为计算方便,而通过转换使之成为常态分布。
标准分数系统在统计上是看某个人的分数,在平均数之上或之下的标准差之倍数来表示的(后文相关章节有具体计算公式),因此标准分数既有正数,也有负数,多数也是小数。但在心理测量中,心理学家为了方便起见,他们不希望处理小数或负数的分数,为此他们制定了许多其他的标准分数系统,使之更符合人们的日常习惯。常用的有 T 分数、离差智商、标准九分等。所以我们在一个测验中看到的最终得分,在形式上与考试分数常常是不同的。所以要理解测验分数,必须首先知道你的分数是从哪个分数系统中推导出来的。例如,在智力测验中,会给出智商,人们的平均智商是100,也就是说一个智商100的人,其智力水平刚好处于人类的平均水平线上,而不是小学里考试的百分制,智商100的人并不是智力最优秀的人,而是智力一般的人。相反的情况,如果你是在百分位常模系统中得到的分数是100,那么显然,你在这一项测验上的分数是最高的,因为其他的人都在你的得分之下。
常模记分的重要特点是其相对性。大多数测验都用常模法进行计分和解释。一个被试的原始分数测出来以后,如何进行解释的最重要部分是选择合适的常模群体,即怎样把他的原始分数转化为量表分数或常模分数。测验手册中一般提供了多个常模群体。怎样选择最合适的常模呢?有很多测验是按不同年龄的被试建立不同的常模,或者对不同地区分别建立地区常模,或对不同性别分别建立常模。同一个原始分放在不同的常模群体中会有不同的结果,所以这一步很重要。否则的话,测验的解释就无效了,这一点很容易被理解。
因此我们在选择一个量表时必须要考虑的一个问题就是常模的适用性。特别是国外的测验,在使用之前必须经过修订,而修订比起编制测验来说,工作并不轻松,文化差异可能造成各种各样的困难,我们甚至需要对测题进行修改。而且即使是著名的英国心理学家瑞文(J. C. Raven)所编制的瑞文智力测验,尽管其声称是具有文化平等性的智力测验,也需要进行修订。因为不同国家的群体在同一套测验上的结果一定会产生差异,一个中国被试只有放在中国常模中进行对照才能得到公正的评价。在美国心理测验发展史上,智力测验就曾经受到过猛烈的抨击,因为一些测量者把智力测验用于黑人时,发现黑人的智力不如白人,其中一个主要的原因就是,当时那些智力测验的常模都是根据白人样本来制定的,而黑人和白人在受教育的机会、程度、社会经济地位等方面都远远不如白人。这种不公平的比较,加深了种族歧视,引起社会动荡,甚至发生游行示威活动以抗议心理测验。
这也是我们在日常生活中面对一些自测的小测验的结果时要慎重对待的原因之一。有很多时候,那些自测小测验既有趣,也有一定道理,可能也是专业人士精心编制的,但是往往没有建立一个完备的常模,所以我们也看到这些测验往往没有给出适用的人群,不像那些正式出版的标准化测验那样对不同的人群给出不同的常模,所以我们在看待这些小测验的分数时,不妨带着一些游戏的心态,给生活添一些乐趣而已。