四、对我国中国发展指数的分析
总指数和单项指数的不同指数值及其排序,已经可以反映出我国31个省级行政区的综合发展水平和其在健康、教育、生活水平与社会环境等方面的发展形势;为了进一步研究31个省级行政区在发展中的不同特点,我们使用多元统计中的系统聚类分析方法,用2005年31个省级行政区四个单项指数的数值作为聚类变量;聚类分析能够将一批样本(或变量)数据根据其诸多特征,按照其性质上的亲疏程度,在没有先验知识的情况下进行自动分类,并产生多个反映综合发展水平的分类结果。最终分类的要求是类内部的个体在特征上具有相似性,不同类间的个体特征的差异较大。
所谓“没有任何的先验知识”是指没有事先指定分类标准;所谓“亲疏程度”是指在各变量(特征)取值上的总体差异程度。需要说明的是,聚类分析的结果是对所选定变量特征的反映,我们所选择的变量(四个单项指数)符合聚类的要求,因为聚类的过程是在我们所选定变量的基础上对样本数据(31个省级地区)进行分类,因此分类的结果是各个变量综合计量的结果,我们选定的变量与聚类分析的目的是一致的。
聚类分析是依据各种距离来度量个体间的“亲疏”程度的。从各种距离的定义来看,所选择的每个变量都会在距离中做出“贡献”。我们这里采用的是系统聚类中的离差平方和的方法来计算距离,一般认为该方法是系统聚类中比较有效的方法;用统计分析SAS软件的CLUSTER过程得出聚类分析的结果,并采用SAS软件该过程输出的半偏R2(SPRSQ),R2(RSQ),CCC统计量,伪F统计量(PSF),伪t2统计量(PSt2)来判断最终的分类标准。在系统聚类时,每聚一类都会给出这些统计量的计算结果。
在本文附录2中,列出了我国2005年31个省级地区中国发展指数四个单项指数的聚类过程表,附录3给出了该聚类的谱系图。从聚类过程表和聚类判别的标准,我们可以看出在类的数目从4类变为3类时,半偏R2值从0.0547变成0.1261,较之前的值突然增加;R2却突然减小(从0.773变为0.647);此外,在从4类合并成3类时,伪t2统计量也突然增加(从8.5突变为15.7)。根据以上这些标准,我们判定我国31个省级行政区的分类数最终应该选择4类,即把我国31个省级行政区划分为4类比较合理。
根据聚类分析的谱系图,我们得到了反映不同综合发展水平的分类结果(类内省区按照2005年中国发展指数总指数得分大小排序):第一类(2个省区):北京、上海;第二类(5个省区):天津、浙江、江苏、广东、福建;第三类(12个省区):辽宁、吉林、山东、内蒙、河北、山西、黑龙江、湖南、河南、湖北、新疆、陕西;第四类(12个省区):重庆、海南、广西、宁夏、江西、四川、安徽、青海、甘肃、云南、贵州、西藏。图1(A)给出了各类在我国地图上的地理分布,为了便于读者进行比较,我们在图1(B)给出了使用与图1(A)完全相同方法得出的2004年中国发展指数四个单项指数的聚类地理分布图。
图1(A)我国2005年省级行政区中国发展指数四个单项指数的聚类分布
图1(B)我国2004年省级行政区中国发展指数四个单项指数的聚类分布
由于聚类分析是按照各个地区中国发展指数的四个单项指数的数值来进行的,所以聚类分析的结果与各个地区中国发展指数的总指数排序不尽相同,存有微小的差异。聚类分析结果反映了各个地区在中国发展指数的四个单项指数上的相似性和差异性;总指数的排序则反映了各个地区在人文社会发展总水平方面的优劣顺序。
聚类分析的结果展示出2005年我国31个省级行政区,在健康、教育、生活水平和社会环境四个单项指数上的地区分布状况。从图1(A)可以看出,各类的地理分布区域特征明显,除了北京和上海是我国的特大都市,聚为一类之外,东南沿海的四个省区(江苏、浙江、福建、广东)和天津市聚为一类;其他两类在地理分布上也有明显的地理相邻、区域环境明显相似的特点。它反映出我国经济社会发展中的一种区域结构性特征。
图2展示出聚类分析结果各类的中国发展指数和单项指数的数值比较,各个类在中国发展指数体系中的指数值可以帮助我们定义各个类的特征。可以看到,聚在第一类的北京和上海,健康水平、教育水平和生活水平都明显高于其他三类地区,而第四类的12个省区则在健康水平、教育水平和生活水平都明显低于其他三类地区。换言之,第一类在计算健康水平、教育水平和生活水平三个单项指数的9个指标上都要优于其他三类地区;而第四类地区在这9个指标的观测值上要劣于其他三类地区。
图2 2005年我国省级地区聚类分析中国发展指数总指数和单项指数比较
关于四类地区之间在中国发展指数和单项指数方面的差异性,从图3中可以得到有关的结论:在四类地区之间,健康指数的地区差异最大,社会环境指数的地区差异最小;第三类的12个省区在总指数和单项指数上与全国的平均水平最为接近;二、三、四类地区之间在中国发展指数体系总指数和单项指数方面的差异相对较小,而第一类地区的北京和上海与它们的差异较大;从四个单项指数的协调发展来看,第二类5个省区在健康、教育、生活水平和社会环境四个方面的发展相对协调;而第一类地区在社会环境方面的发展落后于该类其他三个单项指数。
图3 2005年我国四类地区的中国发展指数及其分指数离散程度比较
为了研究对单项指数进行聚类分析的动态变化,我们使用与上述2005年数据进行聚类分析完全相同的方法,对2004年我国31个省级地区的单项指数进行了聚类分析;相应的聚类谱系图、最终分类结果的地理分布图和聚类过程表分别列在了本文的附录4、图1(B)和附录5。
2004年聚类分析的结果,也是将我国31个省区按照总指数的四个单项指数聚为四类,判定的方法与前面聚类分析的方法相同,这里不再赘述。与2005年的聚类结果相比,2004年的聚类结果和2005年的情况非常相似(参见图1(B)),这反映出我国社会经济发展的区域结构性特点比较明显和稳定。
2004年和2005年聚类结果存在差异的地方如下:
从2004年到2005年,第四类省区数从11个增加为12个:海南省在2005年聚类分析中从2004年的第二类退出,进入到第四类;重庆市在2005年的分析中从2004年的第三类退出,进入到第四类;陕西省在2005年的分析中从2004年的第四类退出,进入到第三类。第三类省区数维持不变(12个):2005年,重庆市从2004年的第三类退出,陕西省加入;2005年第二类省区数从2004年的6个减少为5个:减少的省区是海南省;第一类省区保持不变(2个)。虽然个别省区在两次聚类分析时所在的类别有变化,但总体来看,我国2004年和2005年社会经济发展水平的地区分布格局变化不大。
我们在对15个指标进行初步分析时,发现“城乡居民人均消费比”的数值普遍较大,应当对相应反映出的社会经济问题引起关注。我们认为,“城乡居民人均消费比”在一定程度上可以测量城乡差距;因为消费与收入呈正相关的关系,而消费的数据质量一般好于收入的数据质量;在收入中,消费是主要的支出部分,消费占收入的比率相对比较稳定,用“城乡居民人均消费比”反映城乡差距比较客观。在我国31个省级地区中,2005年“城乡居民消费比”小于200%的省区仅有上海(189.25%),即上海城镇居民消费比乡村居民多89.25%,或城镇居民消费是乡村的1.89倍;“城乡居民消费比”指标大于350%的省区依次有:西藏(499.90%)、重庆(402.56%)、贵州(396.76%)、云南(391.11%)、甘肃(358.83%)、陕西(350.99%)6个省区,即城镇居民与乡村居民的消费差距在3倍以上。
总体来看,我国经济发达地区的城乡差距相对较小,落后地区的城乡差距相对较大;我国南北部地区的城乡差距基本相近,东西部地区的城乡差距比较显著。我们认为,在我国现在社会经济发展进程中,城乡差距较大的问题应当引起社会的关注。