人力资源大数据应用实践:模型、技术、应用场景
上QQ阅读APP看书,第一时间看更新

一、数据收集

1.获取数据

大数据时代难道会缺数据?会也不会。会是因为大数据时代的原始数据是泥沙俱下的漫天洪水,而我们想要的是可以饮用的一泓清泉。之所以不会,是因为通常情况下数据科学家都会有办法。

数据科学家需要对大数据原始数据的来源和构成了然于胸。从数据产生角度,现阶段大数据的几大数据源包括:

(1)内容数据:主要来自网络和社交数据。泛社交网络生成的文本、音频和视频等数据,随着3D游戏、视频直播和虚拟现实等应用的普及,这一类型数据的数据量还会快速增加。

(2)观测数据:主要来自探测器和机器生成数据。由传感器记录的各种数据,包括科学实验的数据、工程测量的数据,甚至包括生活中使用的智能穿戴设备记录的数据。以天气预报为例,分布在各处的气象站有大量的传感器在采集各种气象数据,包括温度、湿度、风向和风速等,从这些数据中抽取出有价值的信息进行分析才有可能相对准确地预测未来的天气。所有的科学和工程领域都有大量的传感器数据生成,对这一类型数据的收集和使用是一个非常重要的课题。其中科学观察产生的数据量可能会超出大部分读者的想象,比如高能粒子对撞机、受控核聚变装置和射电望远镜等都会产生大量的观察数据,这些设备每天可以轻松的产生PB(Petabytes)量级以上的数据。

(3)用户数据:以用户为中心集成的数据。包括用户个体识别(Biometrics)和用户行为数据,例如人脸识别、指纹识别、用户浏览记录,用户消费记录和用户信用记录等。

(4)业务数据:主要来自于各种信息系统,包括股票交易数据,物流数据和商品销售数据等,最典型的例子是电商平台产生的交易数据。

2.收集数据

以数据源的状态不同,大数据技术在应用过程中对数据源的使用主要呈现两种状态。

第一类,稳定的数据源能够提供充足的数据。这种情况在IT行业内部比较普遍,数据在每时每刻不断地大量地生成,比如互联网平台的日志数据,又如电商平台的交易记录等,因此如何使用大数据技术快速有效地处理这些数据是问题的关键。

第二类,先确定了大数据分析要达到的目的或者要解决的问题,根据确定的商业理解来构建算法和数据模型,然后再回溯获取所需的数据。当大数据技术与其他行业相结合时,这种情况就比较常见,例如在人力资源领域里面要用大数据技术分析某一类型岗位的需求度,就需要行业和不同公司提供这一类型岗位所需的知识背景、能力技能和健康状态等方面的数据。而且随着算法模型逐渐演化得更复杂,需要补充更多更全面的数据。

根据大数据技术应用的经验,获取和补充数据对于大多数非IT领域在应用大数据过程中是必不可少的。这些数据的获取通常有几种来源和方法。第一,从互联网获得。例如需要获取数据来建立行业基准,通过爬虫程序从互联网上抓取数据是一个有效的方法。优点是实现成本不高,自动化和智能化程度可以不断提升,能够在短时间内获取大量的数据。缺点是获取的数据良莠不齐,噪音高,需要花大量的时间和精力进行辨别和清洗。第二,从现有的软件和工具获得。大中型企业大多有内部管理软件,例如企业资源计划系统(ERP),客户关系管理软件(CRM)和人力资源管理(HRM)等;小企业可能更多的使用Microsoft的Excel和Access。这一类型的数据质量较高,可以持续地集成到大数据平台,并且能够反映每个企业最真实的状态。缺点是数据量有限,扩展困难。在实际应用过程,通常把以上两种方法配合起来使用,如果数据量不足以支撑深层次的数据挖掘,还需要与管理制度相结合逐渐按照规范充实数据。

在数据收集的过程中,数据科学家有一个强大而有效的武器,那就是爬虫技术(Web Crawler)。网络爬虫又被称为网页蜘蛛或是网络机器人。网络爬虫可以系统性和持续性地从互联网上获取数据。网络爬虫根据其实现技术的不同功能各有强弱。最新的网络爬虫使用了大数据存储和计算技术,完全可以被称为网络巨兽,可以把互联网上的数据鲸吞而下,而且永远不满足,如同传说中的神兽饕餮一般,你所熟知的搜索引擎,例如百度和Google的背后都有一个这样的网络巨兽。