国家的知识资本
上QQ阅读APP看书,第一时间看更新

2.4 测量知识

本书的一个关键要素,是找到一种办法,能够同等测量不同国家人们的知识。从多个方面来看,这是发展了近半个世纪的人力资本概念的深化。这一特定改进在对一国内部进行各种分析时十分重要,在进行跨国比较时也非常必要。 正如本章跨国增长分析所描述的,人力资本在国家内部分析中往往是由教育数量作为代理量。这样分析很必要,部分原因是容易获取数据,不过部分原因还在于,一个给定国家不同学校教育之间知识水平的差异要大于学校教育内部知识水平的差异。不过,这个假设仍值得商榷;参见Hanushek等人(2015)。

本章的其余部分将重点研究一种测量国家知识资本的逻辑一贯的方法。事实证明,与使用教育程度作为一个国家总人力资本的标准指标相比,这一方法有很大的不同。在本书的其余章节,我们将证明知识资本是经济增长的关键因素,知识资本的差异能够解释先前难以解释的众多“发展之谜”。

为了构造一个衡量不同国家技能的共同标准,我们转而研究学生成绩的国际测试。这些测试提供了不同国家在数学、科学和阅读能力方面一致的测量方法,但是如下文所讨论的,它们也存在一些分析上的挑战。在本章的剩余部分,我们描述了这些测试,以及如何将其融入衡量国家技能差异的方法之中(我们将在第3章和第4章进一步讨论它们的应用和解释)。

虽然我们讨论了现有广泛的国际评估,但我们首要关注的还是找到能够与1960—2000年经济增长联系起来的测量方法。因此,正式的人力资本测量框架将不包括近期学生的表现,因为他们在相关研究期间还没有成为劳动力。

现有国际测试和参与率情况概述

大多数人并不了解国际测试可以用来直接比较不同国家学生的知识,直到最近公众才关注到这一点。实际上,学生成绩的国际评估主要集中在数学和科学两个领域,这种评估在半个世纪前就开始了。各国参与一直以来都是自愿的,但最近已扩展至所有OECD成员和其他国家,这一指标也就成为衡量认知技能的有效和可靠指标。

20世纪50年代末和60年代初,国际测试由一系列学术会议发起,学者们在一起设计了数学、阅读理解、地理、科学和非言语能力等测试项目。 参阅“IEA简史:50年教育研究”http://www.iea.nl/brief_history.html(2014年4月22日)。这部分的阐述由Hanushek和Woessmann(2011a)的更新版本材料提供支撑。为此,在1959—1962年开展了一项探索性研究(Foshay,1962),从而产生了1964年12个国家自愿参加的第一届国际数学研究测试(FIMS)。在这第一次重要测试之后,国际教育成绩评价协会(IEA)推动合作探索,举行了一系列包含更多国家的测试。在IEA持续努力推动之下,近期OECD正在开展一项测试项目。 同时一些更为特殊的测试被提了出来,其中一部分以区域为基础。相较于IEA和OECD测试,这些测试在其关注点、发展趋势和质量上差异很大,一般在分析研究中用得很少。在截止2010年的10个额外测试中,6个涉及拉丁美洲(ECIEL,LLECE,SERCE)和非洲(SACMEQ I和II,PASEC)的区域性测试。如后面附录2A和第5章所讨论的,IEA和OECD测试对于这些地区发展中国家的许多学生来说太难了,因此提供的成绩差异信息不可靠;因此,这些区域性考试更适合这些国家。Hanushek和Woessmann(2011a)提供了这些评估的基本信息,在第5章我们把拉美测试加入分析之中。本章的其余部分集中分析IEA和OECD测试信息。

这些国际测试项目有一些共同的要素。每一次测试都包含一批自愿参与的国家。根据事先达成的协议和抽样方案,这些国家支付参与费,并管理各自的测试活动。由于参与取决于个人决策,因此不同时间甚至特定测试的不同子部分参与的国家都不相同。这些测试也因为它们的关注点和倾向科目不同而有所差异。例如,IEA测试的最新版本是国际数学和科学趋势研究项目(TIMSS),这项测试是根据国际面板数据开发的,但涉及中小学课程中常见的内容;而OECD测试(特别是国际学生评估项目,即PISA计划)旨在测量更实用的知识和技能。 关于覆盖率和测试的一个独立分析由Neidorf等人(2006)给出。其测试科目的范围在不同时间有所不同,在数学和科学评估之外补充了阅读测试。 其他一些关于外语、公民教育和信息技术的测试也一直在进行。这些研究涉及的样本国家更少,并且在一般情况下没有重复测试。我们在讨论中很少涉及它们,部分是因为它们很少被分析。鲜少有人尝试将不同时间的测试成绩处理成可比较的数据,这种情况直到最近才有所改观。此外,测试已经几乎完全具有横截面数据性质,而不考虑学生个人成绩的变化。 IEA举行的第二次国际数学测试(SIMS)有一年的学生可以追踪研究收集纵向面板信息,但这样的设计并没有重复进行。最近的创新已经可以获得不同国家的面板数据;例如参见,Brunello和Rocco(2013)以及Hanushek、Link和Woessmann(2013)。最近,一些国家已经尝试用PISA连续测试学生,从而用扩展结果获得这些人的面板数据。

IEA和OECD所举办的测试覆盖面最广,测试都是定期进行的。表2.1提供了主要的国际测试情况,包括参加测试的学生年龄(或年级)、科目和参与的国家数目。到2012年,共举行了19次测试,其中绝大部分测试包括了基于科目和年龄的子模块。

参与IEA和OECD组织的重要测试的国家迅速增加。虽然1990年只有29个国家参加了这些测试,但到2012年已经累计达到102个国家。尽管只有美国参与了所有19次测试,但其他32个国家也参加了10次或以上不同的评估。图2.2展示了以OECD国家和非OECD国家为标准划分的1964—2012年参与IEA和OECD测试的情况。如该图所示,测试所覆盖的发达国家远多于发展中国家。并且参与一次或两次不同测试组织的国家很多出现在2000年之后(我们的增长分析大部分需要排除这些情况)。重要的是,那些参与10次及以上测试的国家已经积累了跨期表现的信息,其参与的测试可以追溯到20世纪90年代或者更早,并且我们在下文会利用这些跨期信息。

我们在此强调两个问题:测试设计各不相同,这些测试的结果可否用于跨国比较?单个国家不同测试的结果可否加总计算?虽然各种测试具有不同的关注点和视角,但它们都是彼此高度相关的,也就表明不同的测试对于技能的测量有一个统一的维度。 参见Mullis、Martin、Foy和Drucker(2012),Mullis、Martin、Foy和Arora(2012)以及OECD(2013b)关于最近正在进行的三大核心国际测试循环的详细研究。具体来看,主要关注课程重点的TIMSS测试与主要关注知识实际应用的PISA测试在国家层面都是高度相关的。例如,19个国家中八年级学生2003年的TIMSS测试和15岁学生2003年的PISA测试之间的相关系数数学为0.87,科学为0.97,在21个国家参加的1999年的TIMSS测试和2000/2002年的PISA测试中二者在数学和科学测试中的相关系数都是0.86。 仍然参见布朗等(2007)的研究。

表2.1 国际学生成绩测试历史概览

图2.2 国际学生测试的国家参与概况

注:各国家和地区参加的19个IEA和OECD测试如下,FIMS,FISS,FIRS,SIMS,SISS,SIRS;TIMSS(1995,1999,2003,2007和2011);PISA(2000/02,2003,2006,2009和2012);PIRLS(2001,2006和2011)。参与国家和地区的总数为102个。

如下文所述,这些相关性支持了我们利用不同的学生测试集合作为可比较的成绩测量尺度。同时,也支持了我们的推断,可以将这些测试作为包括国家知识资本在内的基本技能测量尺度。

时间连续的认知技能国际测量

我们的分析始于研究测量认知技能的一些新的总体指标。 同样的PISA评估在2000年和2002年分别举行(对不同国家),因此我们把这两次测试作为一次单一的评估——PISA2000/2002。在国家层面的一以贯之的测试也延续到其他国际评估。基于课程的学生测试TIMSS和基于实践测试的国际成人扫盲调查(IALS)在国家层面也高度相关(Hanushek and Zhang,2009)。理想情况下,我们能够测量劳动力中工人的技能,但我们的分析都来自在校学生的测试数据,他们直到测试之后的一段时间才会成为劳动力。这就产生了一个权衡:将更多近期测试考虑进来有利于评估和观测更多国家,但同时也要强调一个国家更加偏重于学生而不是劳动力的测量标准。 这部分与附录2A一起,直接引用了Hanushek和Woessmann(2012a)的研究。在下面的增长分析中,我们首先把测试范围扩展到2003年,然后基于更严格的选择进行扩展的稳健性检验,研究这种选择的影响。 即使对一些国家来说测试已经进行了近40年,但依赖以学生为基础的技能测量清楚地表明,为什么不能使用增长模型的面板数据估计的原因变得很清晰。任何面板数据的研究都需要在不同的节点及时测量劳动力的认知技能,而对学生技能的零星测量是不可能做到这一点的。已经由国际成人扫盲调查(IALS)提出了不同国家面板估计的可能性,因为它测试的是成年人而不是学生(见Coulombe and Tremblay,2006;通过OECD的国际成人能力测评项目[PIAAC]可以看到一个更近期的成年人调查)。然而,这样的分析需要很强的假设,它要求将可观测的技能年龄模式与劳动力技能随时间的变化对应起来。而且,增长和考试成绩的大部分变化都是在不同国家之间、而不是在单个国家之内跨期发现的,这就意味着在增长分析中面板数据并不能有效地做出最精确的识别和估计。

1964—2003年,举行了12次关于数学、科学和阅读的不同国际测试(见表2.1)。这些测试产生了36种按照学年(年龄)测试组合的测试结果(例如,1972年八年级学生的科学成绩作为第一届国际科学研究测试的一部分,数学成绩作为15岁组2000年PISA成绩的一部分)。这些评估旨在识别一些常见的预期技能,这些技能当时都是用当地语言测试的。这样的测试在数学和科学方面比阅读容易,因此大部分测试侧重于数学和科学。每次测试都是重新构建的,都没有试图与之前的测试联系起来,这种状况直到最近才有所改变。

我们希望能够在国家层面构建一致的标准,从而能够进行比较,例如将1972年13岁孩子的数学成绩与2003年13岁孩子的数学成绩进行比较。 通过增加新的国际测试、更多的国家、跨期以及国家内部维度,这里所提出的测量扩展了Hanushek和Kimko(2000)的早期研究,并且还解决了早期计算遗留的一系列问题。附录2A评估了早期测量和这里提出的方法之间的差异对于增长模型的重要性。我们还希望比较不同国家的表现,甚至是一些没有参与某一特定评估的国家。最后,我们希望能够跨越不同年代、年龄甚至科目有效汇总学生的成绩。构建这些测量方法的具体步骤以及最终的数据,列于附录2A。在这里,简要描述一下我们所使用的方法。

由于在OECD样本中测试是呈正态分布的,所以,我们构建的国家整体得分汇总方法重点关注原始分数均值和方差的变化,将这些变化放入结果的正态分布中。因为美国参与了所有的评估,提供了以美国不同年龄学生不同时期的跨学科表现作为绝对成绩水平的外部信息,所以,测试的难度水平可以跨越时间维度进行比较。美国从1969年起通过NAEP(全国教育进步评估项目)随机抽取不同年龄和学科的学生进行连续的成绩测试。利用这些NAEP分值随时间的分布,就可以将美国在不同国际测试中的成绩连续映射到一个共同的标准上。

其他国家每次测试的成绩要与美国可比,也要求有一个共同的尺度。由于每次评估的参与方和测试构思都有不同,因此不能假定每次测试的分数方差是相同的,也就是说,任何两个测试中10分的差异可能意味着不同的结果。我们的方法是建立在教育体系较为发达,并且随时间相对稳定的一组国家可观测变量的均值之上的。 我们的研究并不是比较国际成绩差异的唯一方法或尝试。Lee和Barro(2001)研究了另一组跨国横截面早期系列测试分数,并且Barro(2001)将它应用到增长模型中。Angrist、Patrinos和Schlotter(2013)最近使用了由Altinok和Murseli(2007)提出的方法,得出一种新的和扩展的国家面板数据集。我们选取13个OECD国家建立OECD标准化组(OSG),在20世纪60年代(第一次测试的时间)这些国家一半或更多的人口接受了中学教育。对于每一个评估,我们将OSG国家参与特定评估的平均得分方差校准为同一子集之内的2000年PISA测试(所有OSG国家参加了这一测试)的可观测方差。这种方法的关键假设是,教育体系相对稳定的一组国家平均表现的方差不会随时间明显改变。

通过将调整后水平(基于美国NAEP分数)和调整后方差(基于OSG)相结合,我们可以直接计算标准化分数,从而可以反映所有国家在所有评估中的可比较表现。每个年龄组和学科都标准化为2000年OECD国家平均得分为500、个人标准差为100的PISA标准。然后我们将按照所设想的,合计不同时间、年龄、学科的分数。

我们能够对1964—2003年参与过任意一次国际评估的77个国家的技能打出总分(见附录表2A.1)。不过,在后文关于增长的分析中,我们几乎完全依赖于拥有连续性经济数据的50个国家。

国际测试方案随时间不断改进,近期评估采用了更加谨慎的样本选取规则,对于排除学生的范围和现代心理测试程序都进行了严格限制。然而早期测试与现行标准的一致性匹配度较差。这种测试质量的变化可能会部分影响我们的分析,因为早期(但较差的)测试涉及我们所观测的经济增长期内的相关劳动力成员,而对近期测试涉及的学生,则无法观测到他们成为劳动力的情况。因此,我们的估计大多数依赖于这样的假设:一个国家的平均得分随时间趋于相对稳定,国家间平均得分的差异是劳动力技能相对差异的良好指标。

这一假设在下文进行了部分检验,尽管可观测到的成绩有一些变化,但国家的整体排名非常稳定。观察我们在增长分析中所使用的50个国家参与的693场不同测试,73%的方差落在国家之间。剩余的27%包括国家成绩的时间变化,以及检测的随机噪声。在平均化过程中,我们可以将随机噪声最小化,但这将弱化国家之间随时间推移的差异。在第4章,我们将对有足够观测值可以分析系统化变化的国家子集使用成绩的代际变化,而不是测试噪声。对于得分趋势分析中采用的15个国家来说,85%的方差落在各国之间,剩余国家内部的15%更多是成绩系统性变化的反映。

最后,由于评估能够对测试学生认知技能进行测量,因此排除率(例如残疾儿童)或差生入学率和出勤率会影响估计。然而对这些问题的直接研究表明,增长分析不受这类测试变化的影响,至少1995年以来的测试数据很充分。 Hanushek和Kimko(2000)以及Barro(2001)所研究的总分,假设不同测试方差为常数,但这种情况是无论如何都不会发生的。我们的方法符合Gundlach、Woessmann和Gmelin(2001)的思想。正如附录3B所述,更大的排除范围和更高的入学率与较高的平均成绩直接相关,但这些因素引起的变化与增长率是正交的,所以它们不会使增长模型中技能的估计参数出现偏差。

全球知识资本模式

1964—2003年参加过任一国际测试的77个国家和参与地区测试的9个拉丁美洲国家在标准化测试中的平均表现见图2.3(后者见下文第5.2节)。当我们将知识资本的测量方法按地区排列时,一些清晰的模式就会出现。

区域之间和区域内部平均成绩的变化都很大。值得注意的是,我们的样本中,撒哈拉以南非洲、拉丁美洲表现最佳的国家与西欧、英联邦中的OECD成员表现最差的国家之间有很大的差距。 最早的一些测试存在的问题可能更为严重,但它们所报告的信息对于任何分析来说都是不充分的。即使是乌拉圭这个在全球测试中表现最好的拉美国家,其平均成绩整整低于OECD平均成绩0.7个标准差,这就意味着乌拉圭的平均成绩处于OECD成绩分布的第25百分位。秘鲁是在全球测试中表现最差的拉美国家,其学生的平均成绩低于OECD平均成绩接近2个标准差,这就意味着秘鲁的平均成绩处于OECD成绩分布的第4百分位。

这些区域比较引人注目的一方面是,知识资本的差异与关于个人回报和增加教育的普遍研究结果并不直接相关。例如,萨卡罗普洛斯和帕特尼斯(Psacharopoulus and Patrinos,2004)估计,虽然拉丁美洲和撒哈拉以南非洲国家在全世界的成绩最差,但在这些地区平均增加一年的学校教育带来的收入增加是最高的。但是,如附录2B中所阐明的,个人工资的回报可能与一个国家的平均教育质量无关。通常假设,计算教育质量带来的收入包括了各级教育带来的全部收入,这样与受教育年限相关的收入梯度与成绩就没有直接关系了。

然而区域内的成绩差异值得注意。乌拉圭和秘鲁之间的差异意味着,即使在拉美内部平均成绩也存在不止一个完整标准差的差距。在西欧内部,表现最出色的瑞士和表现最差的葡萄牙之间的差距仅为稍高于0.5个标准差。虽然我们习惯性地认为东亚国家的成绩应该在评估的顶部位置附近,而图2.3显示实际上印尼和菲律宾的表现落在非洲和拉丁美洲的表现范围之内。

图2.3 按区域划分的国际学生成绩测验的平均得分

注:分数是指,1964—2003年从小学到中学结束所有数学和科学国际测试的平均得分,使用调整的数据能够将不同国际测试的成绩放在一个共同的标准上。增长分析中涉及的国家和地区用黑色表示;其他测试国家和地区为灰色;灰色标识的拉美国家在区域测试里增加了。

此外,这种分布不仅反映了受教育年限与绝大多数以前研究所用标准的区域间差异。如图2.4所示,教育程度(在1960—2000年的平均受教育年限)与测试成绩正相关,这一结果的范围是值得注意的。 如图1.1的区域增长图所示,联邦OECD国家和地区包括的发达国家指前英国殖民地:澳大利亚、加拿大、新西兰和美国。覆盖80个国家的受教育年限和测试成绩的相关系数为0.67。但这种相关性主要来自简单地从发展中国家(左下角)到发达国家(右上方)画一条线。在这些按照发展水平划分的集群里,教育程度和成绩的相关性要低得多。此外,如下文所示,这些集群内成绩的变化对于说明不同国家增长率的差异非常重要。和过去很多研究中隐含的假设相反的是,教育程度并不是知识的好的代理指标。

图2.4 不同国家和地区的受教育年限和教育成就

注:图中标出了平均受教育年限(1960年和2000年的平均值)与国际学生成绩测验平均得分(包含拉美地区的测试方法)的关系。作者的计算,详见说明书。国家和地区代码请参阅表2A.1和5A.1。

从这些描述中可以直观地看出,知识资本在世界各地分布非常不均匀。这种变化在地区内部保持平稳,意味着很多对世界各国的简单分类已经非常不恰当。