2.3 纵向量表
美国教育协会(American Council on Education)和美国国家教育测量学会(National Council on Measurement in Education, NCME)共同组织编写的《教育测量》(Educational Measure-ment)一书被人们称为“教育测量领域的《圣经》”。在2006年《教育测量》第4版出版之前,教育测量领域曾广泛使用“纵向等值”(vertical equating)概念。纵向等值的意思是,对于一些伴随年龄和学习过程持续发展的能力,如阅读能力、写作能力、语言能力、数学能力等,需要编制开发从低到高水平不同的测试量表。例如,测试汉语作为第二语言能力水平的《中国汉语水平考试》(HSK)就包含从低到高的6个级别的考试,一级水平最低,六级水平最高。通过分数比较将不同级别的6个测验组成一个整体量表的过程被称为“纵向等值”。
考虑到不同级别的考试难度,并不相等,从2006年以后,人们不再将这种在不同水平的考试之间建立可比性的过程称为“垂直等值”,而是称为“垂直量表化”(vertical scaling),将这种由多个不同水平的测试组成的量表称为“纵向量表”(vertical scale)。
在《教育测量》第4版中,使用了一个上位概念,将在不同的测试之间建立可比性的过程统称为“连接”(linking)。将“连接”划分为三种:等值、预测(prediction)和量表化(scaling)。在所测量构念相同、水平相同的不同测验版本的分数之间建立连接的过程,被称为“等值”。在所测量构念相同、但水平不同的不同测验分数之间建立连接的过程,被称为“量表化”。在所测量构念不同的测验分数和效度标准变量(validity criterion variable)之间建立联系的过程,被称为“预测”。
在进行成长评估的时候,为了对学生的成长进行评估,需要在特定时段(如一学期或一学年)的开始时和结束时进行两次测试。两次测试需要使用不同的试卷。两次测试所使用的试卷,需要进行分数等值,才可以进行比较。否则,如果第二次测试的分数提高明显,我们无法知道分数提高是因为学生获得了“成长”还是因为第二次测试的试卷比较容易。
有时候,我们需要做跨学期,跨学年,甚至是跨几个学年的成长评估。例如,要对学区内多所初中的教学效果进行比较,需要在初一入学时和初三毕业时进行两次测试。面对初一新生使用的测试试卷,很可能并不适用于初三毕业生。这时,不能对两份试卷进行“等值”,而是需要“量表化”,需要将两份难度不同的试卷放到一个统一的量表之上。
在美国各州的成长评估中,采用较多的评估工具是纵向量表《智者平衡评估联盟测试系统》(The Smarter Balanced Assessment Consortium, SBAC)和《大学学习和就业准备联合测试》(Partnership for the Assessment of Readiness for College and Career, PARCC)。SBAC和PARCC都将《共同核心国家标准》(Common Core State Standards, CCSS)作为成长评估的依据。CCSS是美国从学前班到高中(K-12)教育的国家标准。
SBAC和PARCC的编制都曾受到联邦政府的资助,资助来自作为2009年奥巴马总统颁布的《2009美国复苏与再投资法案》组成部分的“力争上游”教育资助计划。“力争上游”计划的资助总额度是43.5亿美元。
从2010年到2014年,SBAC测试系统的开发获得了联邦政府1.78亿美元的资助。在此期间,华盛顿州政府作为联邦资金的财务管理人。2014年联邦拨款结束后,智者平衡评估联盟成为加州大学洛杉矶分校(UCLA)教育和信息研究所的一个常设公共机构。现在,SBAC系统,由联盟成员共同进行管理,制定预算和相关政策,运行系统,继续进行研究和开发,不断对系统进行改进和完善。PARCC的开发则获得了联邦政府1.86亿美元的资助。