Spark机器学习进阶实战
上QQ阅读APP看书,第一时间看更新

1.4 机器学习综合应用

机器学习的应用贯穿古今,《草船借箭》是三国赤壁之战里的著名桥段,借箭由周瑜故意提出(限十天造十万支箭),机智的诸葛亮一眼识破这是一条害人之计,却淡定表示“只需要三天”。后来,有大雾天帮忙,诸葛亮再利用曹操多疑的性格,调了几条草船诱敌,终于借足十万支箭,立下奇功,如图1-6所示。

图1-6 草船借箭与大数据

“草船借箭”和大数据有什么关系呢?

首先它涉及数据收集,收集多元化的“非结构”类型的数据;其次涉及数据分析,基于对风、云、温度、湿度、光照和所处节气的综合分析得到大雾天的预测,便于实施草船借箭。

机器学习已经“无处不在”,应用遍及人工智能的各个领域,包括数据挖掘、计算机视觉、自然语言处理、语音和手写识别、生物特征识别、搜索引擎、医学诊断、信用卡欺诈检测、证券市场分析、汽车自动驾驶、军事决策等。

下面我们从异常检测、用户画像、广告点击率预估、企业征信大数据应用、智慧交通大数据应用等方面介绍大数据的综合应用。

1.4.1 异常检测

异常是指某个数据对象由于测量、收集或自然变异等原因变得不同于正常的数据对象的场景,找出异常的过程,称为异常检测。根据异常的特征,可以将异常分为以下三类:点异常、上下文异常、集合异常。

异常检测的训练样本都是非异常样本,假设这些样本的特征服从高斯分布,在此基础上估计出一个概率模型,用该模型估计待测样本属于非异常样本的可能性。异常检测步骤包括数据准备、数据分组、异常评估、异常输出等步骤。

使用某新闻App用户行为数据进行异常检测实践,详见第9章。

1.4.2 用户画像

用户画像的核心工作就是给用户打标签,标签通常是人为规定的高度精炼的特征标识,如年龄、性别、地域、兴趣等。由这些标签集合能抽象出一个用户的信息全貌,每个标签分别描述了该用户的一个维度,各个维度相互联系,共同构成对用户的整体描述。

构建用户画像的第一步就是搞清楚需要构建什么样的标签,而构建什么样的标签是由业务的需求和数据的实际情况共同决定的。用户画像能够用于产品定位、竞品分析、营收分析等,为产品设计方向与决策提供数据支持和事实依据。在产品的运营和优化中,根据用户画像能够深入理解用户需求,从而设计出更适合用户的产品,提升用户体验。

使用某新闻App用户行为数据构建用户画像的流程和一些常用的标签体系实践,详见第10章。

1.4.3 广告点击率预估

互联网广告是互联网公司主要的盈利手段,互联网广告交易的双方是广告主和媒体。为自己的产品投放广告并为广告付费;媒体是有流量的公司,如各大门户网站、各种论坛,它们提供广告的展示平台,并收取广告费。

广告点击率(Click Through Rate, CTR)是指广告的点击到达率,即广告的实际点击次数除以广告的展现量。在实际应用中,我们从广告的海量历史展现点击日志中提取训练样本,构建特征并训练CTR模型,评估各方面因素对点击率的影响。当有新的广告位请求到达时,就可以用训练好的模型,根据广告交易平台传过来的相关特征预估这次展示中各个广告的点击概率,结合广告出价计算得到的广告点击收益,从而选出收益最高的广告向广告交易平台出价。

构建用户画像后,进行CTR模型的训练实践,详见第11章。

1.4.4 企业征信大数据应用

征信是指为信用活动提供信用信息服务,通过依法采集、整理、保存、加工企业、事业单位等组织的信用信息和个人的信用信息,并提供给信息使用者。征信是由征信机构、信息提供方、信息使用方、信息主体四部分组成,综合起来,形成了一个整体的征信行业的产业链。

征信机构向信息提供方采集征信相关数据,信息使用方获得信息主体的授权以后,可以向征信机构索取该信息主体的征信数据,从征信机构获得征信产品,针对企业来说,是由该企业的各种维度数据构成的征信报告。

关于企业征信大数据的技术架构,以及企业征信大数据在不同场景的应用,详见第12章。

1.4.5 智慧交通大数据应用

智慧交通大数据应用是以物联网、云计算、大数据等新一代信息技术,结合人工智能、机器学习、数据挖掘、交通科学等理论与工具,建立起的一套交通运输领域全面感知、深度融合、主动服务、科学决策的动态实时信息服务体系。基于人工智能和大数据技术的叠加效应,结合交通行业的专家知识库建立交通数据模型,解决城市交通问题,是交通大数据应用的首要任务。

交通大数据模型主要分为城市人群时空图谱、交通运行状况感知与分析、交通专项数字化运营和监管、交通安全分析与预警等几大类。

关于通过人群生活模式划分和道路拥堵模式聚类,以及相关结果分析,实现交通数据的价值,让城市交通更加智慧等,详见第13章。