2.1 移动大数据的挖掘
移动大数据是客观存在的,企业和商家应该学会如何去挖掘数据,把它们变成自身的信息资产并从中获取商业价值,这是移动大数据挖掘的目的和意义所在。
2.1.1 移动大数据挖掘的含义
在移动互联网应用中产生的真实的、大量的、有噪声的、随机的数据源,需要从中提取隐含其中的具有潜在价值的信息和知识,这一数据处理的过程就是移动大数据挖掘。
这一定义有四个层面的含义,如图2-1所示。
图2-1 移动大数据挖掘的含义理解
数据挖掘所提取的信息和知识可以提供多种用途,如信息管理、查询优化、决策支持等,甚至还可以作用于数据本身,为其提供维护的依据。如此来说,数据挖掘是一门交叉学科,移动互联网下的数据挖掘更是如此,如图2-2所示。
图2-2 移动大数据挖掘的技术应用
2.1.2 移动大数据挖掘的基础设施
在移动互联网时代,利用大数据的分析、处理而实现对信息的掌控是企业和商家抢占先机的关键所在。想要完成数据的信息提取,一套针对碎片化、可扩展性的数据挖掘的基础设施是不可或缺的。移动大数据挖掘的基础设施由四个方面组成,如图2-3所示。
图2-3 移动大数据挖掘的基础设施
关于移动大数据挖掘的基础设施,具体内容如下。
1.云计算数据中心
云计算数据中心是传统数据中心发展的结果,也是云计算背景下新的业务需求和资源利用模式与数据中心的完美结合,还是企业进行大数据信息挖掘的重要平台和重要的基础设施,如图2-4所示。
图2-4 云计算数据挖掘中心的特点和价值
2.存储服务器
在移动大数据挖掘过程中,存储是其中非常重要的一环,因为大数据庞大的体量使得其无法用传统的服务器和SAN(Storage Area Network,简称SAN,指存储区域网络)方法来进行存储,这就需要建立一个大数据存储专用平台,即需要利用Hadoop平台完成处理。
在Hadoop平台,用户可以在不了解数据分布式底层细节的情况下,充分利用集群的威力进行高速运算和存储,如图2-5所示。
图2-5 Hadoop平台的数据存储与计算
其实,大数据的存储主要是考虑其处理能力和存储容量的可扩展性,在这一方面,有三种方法可以解决移动大数据的存储问题,如图2-6所示。
图2-6 移动大数据存储方法和存储器
3.虚拟化模式
上述提到的Hadoop平台利用分布式架构对大数据进行分析和处理,可以说它是所有大数据解决方案中最具成长性的平台。但是Hadoop平台昂贵成本等问题带来的挑战不容小觑,这需要花费大量精力去应对,对许多企业来说比较困难,因而急需一种解决方案来解决移动大数据的处理难题。在这一发展形势下,引入了虚拟化解决方案,如图2-7所示。
图2-7 虚拟化模式的移动大数据挖掘
4.虚拟数据中心
相对于以上三种移动大数据挖掘的基础设施来说,虚拟化的网络同样具有其优势,如图2-8所示。
图2-8 虚拟数据中心的移动大数据挖掘
2.1.3 各行业移动大数据的来源
在移动互联网时代,大数据可谓是无处不在,其来源也是多样化的,包括用户个人、企业组织、社会团体、政府部门等各个方面。而在经济飞速发展的当今社会中,市场这一主要领域无疑是移动大数据的主要来源之一,其中包含的各行业的移动大数据就是一个典型的代表。
其中各行业都占据相当大比例的传统文本数据是目前最大的数据来源,但它也是目前结构化程度最低的数据源。
至于其他形式的数据源,它们各有其行业来源,如图2-9所示。
图2-9 各行业的移动大数据来源
各行业的移动大数据来源的具体内容如下。
1.电信行业
主要用于社交的电信行业在执行社交网络分析的过程中就已经对庞大的数据量进行了处理,因此可以说,基于电信行业的社交网络数据本身就是一种移动大数据源。
2.车险行业
在车险行业内,移动大数据的来源主要是汽车内置的传感器与黑盒收集和掌握的相关信息数据,即车载信息服务数据,包括汽车信息诸多方面,如图2-10所示。
图2-10 车载信息服务数据的内容
3.销售业
基于移动LBS等的发展和移动终端用户的增加,时间和位置的信息一直在迅猛增长,如图2-11所示用户使用移动终端能在地图上查看到自己所在的位置。
图2-11 手机地图的定位功能
随着这一应用的进一步扩大,企业也意识到了基于LBS的移动终端用户的位置与时间方面的数据信息对其自身发展策略的制定方面的影响,于是它们开始尝试从用户那里收集有关用户的时间和位置方面的信息,企业开始进入大数据领域。关于销售业方面的移动大数据由此展开并得以收集、分析和处理。
4.零售制造业
在零售制造业内,所产生的移动大数据主要是射频识别(RFID)数据,其中RFID最重要的一个应用是资产跟踪。在这一过程中,其犹如一个商品标签一样,可以通过位置的转移、时间的变更等来获取相关数据。其他如图书馆、食品安全溯源等方面的应用的数据获得原理也是如此。
5.博彩行业
博彩行业的筹码跟踪是一种特殊的RFID应用,能准确地获得玩家的赌注数据和其他相关的如积分方面的数据等,这些总称为筹码跟踪数据,也是移动大数据的组成部分。
6.视频游戏
在视频游戏中,遥控数据是指用来捕捉游戏活动状况的信息,也是移动大数据的来源之一。之所以称为遥控数据,是因为其数据信息的获得是通过游戏遥控技术来实现的,利用这一技术收集移动大数据有着明显的个性特征,如图2-12所示。
图2-12 视频游戏的移动大数据来源