1.4 研究创新点
与现有研究相比,本书以人口普查数据的深度应用为研究对象,对人口空间化的模型方法和人口属性信息空间化的方法与应用进行了系统深入的研究。具体而言,研究创新点体现在以下五个方面:
第一,基于空间计量模型中MGWR和GTWR模型的人口空间化模型研究。现有的人口空间化研究中,统计建模方法多采用多元线性回归模型,忽视了人口分布影响因素的空间异质性与尺度依赖性;GWR模型中变量采用固定带宽的参数估计方法,无法揭示人口分布影响因子的多尺度差异,造成局部参数估计不稳健、精度虚高等问题。MGWR模型既可将变量的空间自相关性和空间异质性整合考虑在一起,又可通过变量带宽可变性有效解决地理单元的尺度问题。基于上述原因,本书采用多元线性回归、GWR、MGWR和GTWR模型进行人口空间化对比研究。
第二,基于细粒度地理大数据的人口空间化时空分辨率提升方法研究。现有的人口空间化研究多基于人口普查统计数据,以及地形地貌、土地利用类型、夜间灯光、POI等多源数据展开,人口数据集多为规则格网和年度数据,时空分辨率较低。而地理大数据提供了“自上而下”感知人口分布的新数据,能够更好地保留人口空间分布的细节信息。因此,本书将城市建筑物轮廓及楼层数据与住宅小区AOI数据进行融合,识别出住宅小区范围内的建筑物,并利用建筑物轮廓与楼层信息,计算出建筑物的面积信息,然后以此为权重,在格网人口基础上进行建筑物精细尺度的人口数量模拟,并尝试整合传统数据与腾讯位置大数据,以进行动态人口数据估算,从而提高从微观精细视角理解城市动态人口分布特征与规律的能力。
第三,基于机器学习的人口空间化模型研究。与多元线性回归、地理加权回归相比,机器学习模型为数据所驱动,没有固定的模型,结构灵活,能拟合因变量与自变量之间的非线性关系,不用考虑多元变量的共线性、过拟合等问题,适合城市地区精细尺度的人口空间化研究。现有针对这一方向的研究尚处于起步阶段,本书对机器学习中集成模型的应用研究进行探索,提出随机森林-XGBoost-多尺度地理加权回归堆叠集成模型,有助于提高人口空间化拟合精度,在模型筛选、建立和融合上也为其他社会经济数据空间化的研究提供了新思路和新方法。
第四,基于人工人口合成的人口属性空间化模型研究。人口属性数据空间化是人口空间化研究的难点之一,本书借鉴人工人口生成方法,以国家统计局试点的开放人口微观数据和世界微观人口数据库为基础,采用迭代比例拟合、迭代比例更新和改进遗传算法三种方法,进行人工个体属性数据合成,探索了两种人口微观数据源、三种合成办法的效率与优势,并针对当前我国政府统计部门关于人口数据管理以及人工人口数据的生成与应用情况提出相应的对策建议。
第五,基于人工人口的疫情传播研究。现有相关研究多从流行病学及医学领域展开,方法上多以统计数据为基础,采用统计分析和数理建模等方法,从宏观层面进行预测分析。对于全球大流行传染病,社会个体属性特征及社会个体之间的接触是疫情发展的关键要素,而以个体为基础,利用仿真模型,从下至上刻画传染病传播路径、不同防控措施的效果的研究较少。本书以新型冠状病毒感染(COVID-19)疫情为例,对大型城市人工人口的构建及其在疫情防控中的应用展开研究,人工人口数据集因其属性真实,且接近城市人口统计特征,在建模时保证了城市疾病传播的个体异质性与群体联动性,因此在疫情防控仿真研究中具备良好的应用价值。