大数据与劳动力市场研究
上QQ阅读APP看书,第一时间看更新

导言

2008年国际金融危机对我国就业市场形成的冲击,是促使我们利用大数据开展劳动力市场分析和研究的直接动因。2008年年底,我本人应邀到广东省人力资源和社会保障厅做学术报告,报告结束后,顺便到广州和东莞等地做实地考察。企业停产,市场冷清,就业已出现问题,这是在那时得出的最直观的判断和结论。回京后,来自北京亦庄开发区的消息显示,中国最大的芯片制造企业——中芯国际的海外订单已经接近为零,这进一步证实了我在广东时的感受和判断。国际金融危机对中国就业市场,特别是农民工就业市场的直接影响,已显现无疑。但问题是,当时判断宏观就业状况的指标——登记失业率仍然徘徊在4%左右,没有明显变化。理论上讲,国家统计局提供的调查失业率较为敏感,问题在于,这一数据具有保密性质,对外不公开。另外,就数据本身而言,也仅是年度数据,没有月度或季度数据,由此也无法及时分析和判断短期经济波动对我国就业市场的影响。面对这一现实,我们下决心将中国就业研究所的研究工作重点进行调整和转移,即从过去重点关注就业和失业测量、劳动力市场中介服务、就业能力提升等影响中国就业长期战略问题的研究[1],转向关注中国就业市场波动,包括季度变化、周期变化和趋势变化的分析和监测上来。

2009年4月,在国家人力资源和社会保障部就业促进司、国家统计局人口和就业统计司、国家发展和改革委员会就业和收入分配司的大力配合和支持下,中国就业研究所正式启动了中国就业季度分析会。因曾长期与智联招聘合作,我们开始尝试运用智联网络招聘大数据,探讨和分析中国就业市场的景气程度变化。

作为一家开展专业网站招聘的公司,应当说,智联招聘天然具有开展短期就业市场分析和预测的大数据优势。具体体现在如下方面:

一是数据量大。智联招聘部署的大数据生态系统,数据的采集、存储和计算量都非常大。截至2017年年底,拥有个人简历9 000万份,最近12个月活跃简历超过30%,即有约3 000万份之多。智联招聘服务过的企业超过350万家,每季度有60万~70万家。每天处理TB级的新数据和PB级的历史数据,分析数以千万计的产品数据、数以亿计的用户信息和搜索关键词。

二是数据变化速度快。高速数据处理是大数据系统应具备的核心能力,智联招聘非常关注数据的时效性,其数据增长速度快,处理速度也快,时效性要求高。比如,智联搜索引擎要求几秒钟前的简历和职位能够被用户查询到,个性化推荐算法要求实时完成推荐。这也是智联大数据区别于传统数据挖掘的显著特征。为了解决这个难题,智联大数据系统开发了特别的解决方案和技术,通过大规模的服务器集群对实时数据流进行高速处理,每天能处理数十亿条更新信息。

三是数据的种类多。智联的数据种类和来源具有多样化的特点,包括结构化的各种业务系统关系表数据,半结构化的简历和职位数据、日志数据,非结构化的图片及文档数据,这对数据的处理能力提出了很高的要求,需要从各类数据来源中发现客户、洞察客户和服务客户。

四是重视大数据价值挖掘。低密度价值是大数据的一大特征,如何结合业务逻辑并通过强大的机器学习算法来挖掘数据价值,是大数据时代最需要解决的问题,也是大数据应用的根本。智联招聘通过并行化技术对海量的结构化数据进行计算处理,通过自然语言处理(NLP)技术分析简历、职位和文档数据,通过深度学习技术处理各种图片数据,通过非监督机器学习技术发现各种类型数据之间的关联性,上述这些手段使得智联招聘能够获得多类型有效信息。智联招聘每天对超过PB级的数据进行分析与建模,运用一切技术提取信息,为企业、个人创造新的机会和价值。

五是数据客观真实。大数据是自然观察到的数据,数据的客观性和真实性成为大数据应用的最大优势。大数据中的内容与真实世界中发生的息息相关,需要保证数据的准确性和可信赖度。智联招聘采取数据融合技术,即通过结合多个数据来源创建更准确、更有用的数据点,应用了鲁棒优化技术和模糊逻辑方法等先进的数学方法来进行数据可靠性和真实性的判断,通过大数据的分析处理,解释结果和预测未来。

正是基于智联招聘大数据的上述特点或优势,我们提出了一个直接的研究目标:开发一个能够灵敏反映中国就业市场变化冷暖程度的“温度计”,也即后来向社会正式公布的中国就业市场景气指数,简称CIER指数。[2]期初,除与国家人力资源和社会保障部就业促进司、国家统计局人口和就业统计司、国家发展和改革委员会就业和收入分配司等单位联合举办中国就业季度分析会之外,会后还将有关会议资料编辑成册,并以《中国就业市场季报(内部报告)》的形式,提交给政府相关部门,作为内部决策参考。包括:主题报告《中国就业形势分析——基于智联招聘和苏州工业园区数据》《中国就业政策解读》《CIER指数与宏观经济指标的关联性分析》《苏州工业园区季度人力资源分析报告》《专家视点》等。这些成果后来陆续以《中国就业战略报告(2015)——金融危机以来的中国就业季度分析》和《中国就业战略报告(2016)——经济新常态下的就业市场景气指数变化》等著作公开出版。

经过2009年第一季度至2014年第四季度5年20个季度的数据分析和研讨会交流,2015年年初,在中国就业研究所成立10周年的专题讨论会上,经过与智联招聘商讨,在《中国就业市场季报(内部报告)》的基础上,我们决定将“中国就业市场竞争指数”改为“中国就业市场景气指数”,撰写《中国就业市场景气报告》,并定期向社会公开发布。截至2019年1月,已公开发布15期《中国就业市场景气指数(CIER)报告》。

迄今为止,利用智联招聘大数据开发的中国就业市场景气指数(CIER指数),已成为及时反映我国就业市场冷暖程度的“温度计”。CIER指数与我国宏观经济的各项指标变化,诸如国内生产总值(GDP)增长、采购经理指数(PMI)、居民消费价格指数(CPI)等高度相关。经过季度、趋势和周期分解后,这种变化的规律性更加显现。趋势成分表明,长期来看,CIER指数有一个明显向上的趋势,这一趋势源于人口结构以及劳动年龄人口变动的大趋势。从总量看,劳动力供给与需求的缺口逐年拉大,需求大于供给的趋势日趋明显。CIER指数季节成分表明,每年的第一季度和第二季度,季节成分都在低位运行,劳动力需求相对供给而言低迷,就业市场景气程度走低;第三季度和第四季度,季节成分持续拉升,劳动力需求相对供给而言更为旺盛,就业市场景气程度升高。CIER指数的周期成分与宏观经济景气程度有较强的同步性。从近几年看,2015年全年CIER指数(周期成分)持续走低,这与当年的宏观经济状况相吻合;2016年全年以及2017年上半年,CIER指数(周期成分)企稳走高,2017年下半年至今,CIER指数逐渐下降,契合了我国当前宏观经济不确定变化的大趋势,如图1所示。

图1 2015—2018年CIER指数分解

资料来源:智联招聘(www.zhaopin.com)。

通过对CIER指数变化的分析,我们监测到2015年以来中国就业市场互联网行业就业冷暖程度急剧变化、东北地区就业困难上升,以及外汇、外资和外贸对就业产生部分影响等状况。

近年来受“双创”政策的带动,互联网、电子商务和物流等行业增长迅速,这些行业CIER指数表现十分抢眼。2015年以来,互联网行业就业市场景气指数经历了一个不断上升的过程。2015年第一季度位列第二,为5.6,之后一直位列第一,至2017年第三季度达到12.62的最高值。此后,该行业热度开始下降,2018年第一季度位列第二,第三季度位列第四。2017年第三季度达到历史高峰12.6,之后降至2018年第三季度的4.2。

近年来,东北地区经济增长令人忧虑,就业也同样如此。2017年,东部、中部、西部均出现用工需求增长以及CIER指数上升的情况,东北地区的样本城市平均CIER指数仅为1.2,比上一季度下降了0.22,比2016年同期下降了0.2。分城市看,长春、哈尔滨、大连和沈阳的CIER指数变动与整体一致。除大庆外,长春、哈尔滨、大连和沈阳的CIER指数均小于1,沈阳仅为0.58,经济衰退导致这些城市招聘需求人数均小于求职申请人数,劳动者就业困难程度明显加大。2018年第三季度,CIER指数呈现东部、中部、西部以及东北地区依次递减的趋势,分别为1.72,1.5,1.25和0.87。尽管东北各城市的CIER指数环比略有回升,但景气度仍低于1,就业形势依然严峻。

近几年外汇、外资和外贸备受关注。国家外汇管理局公布的数据表明,中国外汇储备总额2014年6月底达到39 932亿美元的最高峰。随后开始下降,截至2017 年1月31日,中国外汇储备规模为29 982.04亿美元,连续7个月下滑,并自2017 年2月以来首次低于30 000亿美元。外汇的这种变动与部分外商独资企业撤资有一定关系。这也势必会传导到就业市场。通过观察中国就业市场景气指数可以证实这一点。从2015年第三季度开始,外商独资企业用工需求增加垫底,特别是2015年第四季度,急剧下降(-10%)。2017年第三季度民营企业的CIER指数最高,为1.68。此外,股份制企业、合资企业和国有企业的CIER指数均高于1,分别为1.50,1.35和1.25。而外商独资企业和上市公司的CIER指数均低于1,表明这两个类别的企业中,招聘需求人数要小于求职申请人数。尤其是外商独资企业,CIER指数仅为0.59,就业形势明显变差。自2017年第四季度开始,情况有所改观。由于需求增加,供给大幅减少,外商独资企业CIER指数一路上升,至2018年第三季度达到1.39,超过国有企业、合资企业和民营企业。随着中美贸易摩擦带来的影响逐渐显现,贸易/进出口行业作为直面冲击的垂直领域,进一步受到波及。2018年第三季度,该行业整体招聘需求同比下降53%,相比2018年第一季度(2%)和第二季度(13%),下滑幅度进一步扩大。贸易行业招聘职位数量下滑较明显的地区主要集中在东部和西部,这些地区的许多城市对贸易的依存度较高,如深圳、宁波、重庆等。从城市等级看,新一线城市该行业招聘需求同比下降71%,降幅最为明显。其中,贸易依存度较高的新一线城市受到的影响更大,如东莞、宁波和苏州等。

中国就业市场景气指数公开发布后,产生了较大的社会影响,引起了国内外各界的高度关注。2016年第3期《哈佛商业评论(中文版)》以《僧多粥少的2016年,哪些行业就业形势最好?》为题,刊登了《中国就业市场景气报告》的主要内容。全球最大也是最权威的财经咨询传媒集团——彭博新闻社对此给予了持续报道,并将CIER指数纳入其数据库。摩根士丹利、中信证券等国内外金融机构也在宏观经济分析中对此指数加以引用。2006年以来,中央电视台(《新闻联播》《朝闻天下》《经济半小时》),《人民日报》,新华社,《求是》杂志,《第一财经日报》等也进行了广泛深入报道,我本人多次接受媒体专访。仅从2015年8月就业市场景气指数第一次正式对外发布到2008年第二季度,《第一财经日报》发表的与CIER指数相关的稿件已达到20余篇。

有幸的是,我本人作为国家“十三五”规划专家委员会委员,有机会运用我们这项研究成果,多次针对国内就业领域的问题及对策发表意见,提供政策建议。2015年我本人撰写的《当前的就业形势:现状、问题及对策》研究报告,获得习近平总书记的重要批示。2017年1月13日,我应邀参加李克强总理主持的《政府工作报告(征求意见稿)》座谈会,现场用PPT方式详细展示了基于智联网络大数据撰写的中国就业市场景气报告的主要内容,得到了李克强总理的充分肯定和好评。座谈会结束后,李克强总理与我本人握手告别时,专门鼓励我:“你做的这项研究工作非常重要!”

坦率地讲,利用网络大数据开展就业市场的分析和监测,为政府提供决策咨询,其重要性无论如何强调都不过分。但对一个学术机构、一个学者而言,更有必要利用大数据来分析和研究劳动力市场的运行规律,为劳动经济学的知识体系做出贡献。这是我们这一代学者过去未曾实现,今后和未来有待完成的一项重要使命和责任。为此,在与智联招聘合作开展中国就业市场景气指数编制,发布《中国就业市场景气报告》的同时,我们也开始尝试利用智联网络大数据开展就业相关问题的实证研究工作。比如,运用VAR模型、方差分解、格兰杰因果检验和脉冲响应分析等时间序列分析方法,探讨CIER指数与宏观经济变量之间的关系,对未来劳动力市场以及宏观经济变化趋势进行预测;采用生存分析模型,分析劳动力市场景气对企业岗位空缺持续时间的影响;使用中国就业研究所发布的CIER指数,反映劳动力市场紧张程度,并结合相关数据对劳动者工资和劳动力紧张程度之间的关系进行研究,验证不完美劳动力市场中的工作搜寻匹配模型(DMP模型)等。

2007年第7期《中国人民大学学报》,邀请我主持了“大数据与劳动力市场研究”专题,刊发了包括我本人在内的多位作者撰写的有关运用大数据开展劳动力市场研究的学术论文。这些论文,既总结回顾了近年来国际上利用大数据开展失业率分析的进展,也展示了我国学者利用大数据完成的一些新的研究成果;既有老一代经济学家对此问题独到的理解和认识,也有年轻一代学者开展这一研究的心得和体会。2017年12月9日,在《经济研究》编辑部等单位联合举办的“首届劳动经济学前沿论坛”上,我本人应邀以“大数据与劳动力市场分析及预测——基于CIER指数研究的思考”为题发表演讲,详细展示了基于所采用的智联网络大数据构建的“中国就业市场景气指数”,从不同行业、不同职业、不同区域、不同企业等角度,探讨了就业市场景气指数与宏观经济景气指标的动态关联性,系统介绍了我们利用这一指数所开展的实证研究成果,以及未来的构想。与会者对我们利用网络大数据深入开展中国劳动力市场研究产生了浓厚的兴趣,并给予了充分的肯定。《经济研究》杂志社张永山社长在会议主持时谈道:“从这里我们真正看到了中国劳动经济学的学术研究前沿!”

毫无疑问,利用大数据开展就业市场研究和分析仍然面临许多挑战和困难,需要我们去应对和解决。首先,数据质量有待提升。在大数据时代,算法、运算能力,特别是高质量的数据,已成为有效利用和顺利开展大数据研究和分析的主要障碍和困难。相对算法、运算能力而言,目前就业市场的数据质量仍是最大的短板。长期以来,由于国内对劳动力市场基础设施建设,特别是职位体系平台建设,包括职业大典中涉及的职位名称、工作内容、任职资格等重视不够,导致现有职位空缺和招聘需求信息存在天然的缺陷和不足,使得我们利用现有大数据开展就业市场的深度研究、精准分析和及时预测,都受到很大的限制。我们已经开始与一些互联网公司,如58同城等加强合作,研究借鉴国际劳工组织提供的《国际标准职业分类》(Inter-national Standard Classification of Occupations,ISCO),美国劳工部《美国标准职业分类》(Standard Occupation Classification,SOC)手册,国家人力资源和社会保障部组织编写的《中华人民共和国职业分类大典(2015年版)》,但因这些工作量巨大,过程十分复杂,时间投入、经费支持都十分有限,这项工作也只是刚刚起步。其次,现有的大数据往往针对特定市场群体,覆盖面和代表性也有缺陷,需要对其进行客观的评估,结合抽样调查数据,特别是工作场所抽样调查数据,来弥补现有大数据代表性不足的缺陷等。未来的道路仍很漫长,需要更多的学者投入更多的精力来关注这一工作。衷心期望本书的出版能够为推动中国劳动力市场大数据的研究和分析,进而推动中国劳动经济学理论和实践的不断发展和进步,做出一些贡献。


注释

[1]自2004年中国就业研究所成立以来,我们出版了“中国就业战略报告”系列丛书,包括《变革中的就业环境与中国大学生就业》《面向市场的中国就业与失业测量研究》《劳动力市场中介与就业促进》《“双转型”背景下的就业能力提升战略研究》等。

[2]中国就业研究所(China Institute for Employment Research,CIER)。