国家的知识资本
上QQ阅读APP看书,第一时间看更新

附录2A 数据建设的方法论

为了找到测量不同国家国民知识的共性方法,如表2.1中所示,我们将1964—2003年不同的ISATs(国际学生成绩测试)的信息加以综合,转换为每个国家一个标准。我们的加总方法背后的总体思想是基于经验标定——也就是说,我们使用每次ISAT分数的总体分布信息来比较国家的表现。这种方法与通过心理方法测量不同,它通过引入共同元素对不同测试进行校准。在现实中,国际测试都是独立进行的,一直没有尝试对不同测试和整个时期提供共同的尺度。 这一观点建立在Nelson和Phelps(1966),Welch(1970),Schultz(1975)以及Galor和Moav(2000)独到的见解之上。

不同测试间无法做出统一测量是利用不同ISAT做比较时的主要缺点。这些测试并不使用相同的问题,甚至也没有将答案映射到分数上的统一方法或统一尺度。 值得注意的是,通过使用重叠的测试项目,近期的PISA和TIMSS已经被设计联结起来。如下文所述,我们为了一些目标如将图8.1描绘的测试的长期趋势放在一起,利用了这种联系。早期测试主要采用将分数归总为“百分比正确”的方式,但不同测试中不同问题的难度是不同的,因此这些分数在不同测试中不具有可比性。后面的测试已经使用了一种更复杂的测量方法,这种测量方法基于项目反应理论(IRT)而建立,通过表现出来的难度来测量不同问题,然后将答案映射到预设的测量集上,从而产生涉及所有参与国的一个给定的国际平均值和标准差。但是这种映射基于的问题在不同的测试中是不同的。更为复杂的是,同一组参与国在不同测试中差别很大,从而使分别设计的标准不可比较。

因此,要对不同测试不同时间的ISAT表现做出比较,我们需要将不同国家在不同测试中的表现映射到一个共同的测量标准上,这就需要将不同测试的成绩水平和变化进行标准化。

可比水平

为了使ISAT的水平具有可比性,我们需要了解不同测试中什么样的测试成绩水平代表相同的基础知识水平。这类信息可以从美国获得。自1969年以来,NAEP的测试结果提供了具有代表性的9岁、13岁、17岁美国学生样本在数学、科学和阅读方面跨期可比较的分数。虽然这是长期内对教育表现进行比较可持续获得的唯一国际信息,但其仍然非常适合我们的目的,因为美国也是唯一参加了每次ISAT的国家。给定美国学生成绩的时间序列数据,我们可以由此测量每个ISAT相对于美国已知的、跨期可比的NAEP测试的水平。图2A.1显示了可以得到的这三个年龄组的NAEP数学和科学结果。 然而,近期的标准设定尝试没有提供能够覆盖两个测试制度或与早期测试联系起来的基准。尽管有一些明显变化,但美国学生在1969—1999年的表现相对平稳。

首先,我们计算1999年与任一更早时间节点间的美国成绩的差异,表示为国际PISA2000研究的SD(标准差):

其中,U是相对于1999年的时间为t,年龄为a,学科为s的美国学生的标准化成绩差异,NAEP是特定年龄、特定学科和特定时间的NAEP测试分数,SDUS,PISA是在PISA测试中美国学生参加特定学科的标准差,SDUS,NAEP是在美国NAEP测试中特定年龄和特定学科的标准差。 请注意,NAEP测试的变化导致很难对较为近期的PISA和TIMSS测试也使用这种方法,但这并不重要。一方面,NAEP科学测试在2009年做了修订,采用的新的度量数据与之前年份不可比。另一方面,近期的PISA和TIMSS评估已经被设计得能够使学科调查跨时间可比,这正是从NAEP测试中所得到的。NAEP分数在2—4年时间间隔内是可查的,在没有NAEP的年份的值可以通过在可获得数据的年份之间进行线性插值获得。

仅此还无法获得在不同测试中对所有国家进行统一测量的标准。虽然我们知道在每次测试中每个参与方是高于还是低于美国的成绩,但我们需要使不同ISAT中测试分数的国际差异变得可比较,从而确定“多少”在其上,“多少”在其下。

图2A.1 美国1969—1999年学生成绩(NAEP)

注:在NAEP中9岁、13岁和17岁学生的数学和科学成绩。

资料来源:美国教育部(2008)

可比差异

对不同ISAT测试分数差异找出一个统一的测量标准,比对测试成绩水平找出统一测量标准更有难度。这是因为,无法获得不同国家成绩差异变化趋势的明确的外部信息,而且原有测试和参与方的多样性排除了不同测试间直接比较的可行性。

实现可比性的一种方式是找到一组国家进行分析,这组国家需要满足以下条件:我们可以合理地假设测试成绩跨国差异的大小是相对恒定的,其成员在不同测试中参与了足够多的次数。这一组国家还必须相对稳定,教育系统随着时间变化也要相对稳定,ISAT测试总的注册人数没有发生重大变化。

因此,我们对一组国家采用两个标准,作为成绩随时间变化的一个标准化基准。首先,这些国家需要在整个ISAT观测期,也就是自1964年起,位于OECD国家中相对同质且经济发达之列。其次,这些国家在1964年已经实现中等教育入学率为100%。鉴于数据的限制,根据这两个标准,我们删除了2001年45—54岁群体中(在第一次ISAT测试中大致处于初中阶段的人群)超过半数未达到高中教育(OECD,2003a)的所有国家。13个国家满足这些稳定性条件,我们称它们为“OECD标准化组”(OSG)国家。 NAEP数学和科学测试在1977/1978—1996年的标准差,以及1984年至1996年NAEP阅读测试的标准差,由美国教育部(2008年)报告。且没有之前NAEP测试和1999年测试的标准差信息,且可用的标准差是随时间相对稳定的,所以,我们在一段时期内对每个年龄段每个学科可获得的标准差简单地求取平均值。PISA只测试15岁的学生,但却与NAEP测试有三个相同的科目。

假设1964年之后OSG国家的跨国差异没有显著变化,可以用它们对不同的ISAT设计一个可比较的标准。我们运用参加任一特定ISAT测试的OSG国家的标准差来确定适当的特定学科的方差,通过(2A.2)将国家i的原始测试得分O(假定年龄为a,科目为s)在时间t转变为转换的测试成绩X

每次ISAT的测试得分X都具有以下分布特征。第一,在OSG国家X的平均值为零(通过每个国家的原始测试成绩减去OSG的平均值得到)。第二,特定学科在OSG国家之间的标准差与同一组国家在PISA测试中的标准差是相同的(通过除以OSG国家在特定测试中的标准差再乘以相同国家在相应PISA测试的标准差获得)。这种重新标定的测试成绩现在实际上成了一个测量标准,使不同测试间的差异具有可比性。

通用测量标准下的成绩

最后,我们使用上文得到的美国教育成绩的时间序列数据来调整不同ISAT的水平设定,从而使它们跨时间可比。这可以通过对测试分数I进行标准化处理得到:

通过上式对方差调整后的测试分数X做进一步调整,从而使每次测试中美国的成绩水平等于美国在PISA测试中特定学科的成绩加上基于NAEP得到的特定年龄、特定学科的调整因子U,如通过方程(2A.1)所得。

公式(2A.3)运用共同标准测量了每次ISAT中参与国的成绩,不同的ISAT测试因此变得可比。通过这种方法,跨国和跨期标准化测试成绩I将PISA标准投射到所有其他的测试。

我们有理由相信OECD国家内部标准化得分的比较结果,所有这些国家都参与了近年来明确评估OECD学生技能的测试。我们不好把握那些其结果与测量的OECD成绩相距甚远的国家。尤其是,与原始测试分数测量差距较大的国家,例如低于平均值两个标准差,可能不太具有代表性,因为这些测试可能太难,提供不了什么有用的信息。我们的线性变换容易受到这些国家相当大的扰动。

认知能力的核心测量是一个国家参加过的ISAT测试的标准化数学和科学测试成绩的简单平均值。表2A.1给出了参与任一数学和科学测试的77个国家和地区的基本测量。 OSG国家是奥地利、比利时、加拿大、丹麦、法国、德国、冰岛、日本、挪威、瑞典、瑞士、英国和美国。荷兰也符合这两个标准,但并没有按照我们的标准所要求的国际可比的PISA2000数据。我们的增长回归样本包含了下表A组中的50个国家和地区。 基础国际测试数据来源于Beaton、Martin等人(1996),Beaton、Mullis等人(1996),Lee和Barro(2001),Martin等人(1997),Martin等人(2000),Martin等人(2004),Mullis等人(1997,1998),Mullis等人(2000),Mullis等人(2003),Mullis等人(2004),OECD(2001,2003b,2004),以及作者基于早期测试数据的计算。

表2A.1 1964—2003年各个国家和地区成绩综合数据

将不同测试综合为统一标准可能需要关注的一个问题,是注册比例各不相同,尤其是在中学阶段。为了检测这会在多大程度上影响对认知技能的测量,我们计算出来自第四章测试分数变化趋势的测量和注册率变化的相关性。结果表明二者是相互正交的,这就可以降低因为注册的不同变化对此处所得结果造成偏差的担忧。 由于缺乏经济产出数据或因在增长分析中按照排除标准而被从样本中剔除,有认知技能数据的77个国家中有25个国家并没有包括在增长数据库中。被剔除的国家包括15个前共产主义国家,3个以石油生产为主导产业的国家,2个小国,3个新成立的国家,和2个缺乏早期数据的国家。此外,还有2个离群点,尼日利亚和博茨瓦纳,它们被排除在大多数模型之外(见第3章)。

由哈努谢克和基姆科(Hanushek and Kimko,2000)提出并使用的认知技能测量方法无法解释跨期测试的不等方差,而是假定方差恒定。 如第3章所述,学校选择和测试排除对增长模型影响的直接估计证实,潜在的测试问题不会影响增长估计(附录3B)。我们的测量与哈努谢克—基姆科的测量高度相关(r=0.83),但重要的问题是其与增长的关系。对两组共同拥有的30个样本的数据,我们使用认知技能的可选标准估计了第3章的增长模型。虽然两个版本的测试分数标准在模型中都是强的和显著的,但使用新的标准会使统计精确度显著提高(t=7.43相对于t=4.02),模型的解释力也同样显著提高(调整后R2=0.80相对于调整后R2=0.61)。在新的测量标准中,测试分数测量中的信号作用相对于噪声而言也大大增加了。