2.7 大数据分析方法
大数据分析是将描述型、诊断型、预测型和指令型模型用于数据,以回答特定的问题或发现新的见解的过程。大数据分析的核心在于模型和算法。与传统的数据分析方式不同,大数据分析要对数量巨大的数据进行统计性搜索、清洗、聚类、分类等分析工作,其更看重挖掘数据之间的关联性,找出多个变量之间存在的某种规律,并利用这些规律做进一步的预测、分析。
2.7.1 大数据分析方法分类
大数据分析方法可分为四大类。
(1)描述型:发生了什么?
这是最常见的大数据分析方法。利用可视化工具,能够有效增强描述型分析方法的效果。
(2)诊断型:为什么会发生?
通过评估描述型数据,诊断分析工具能够让数据分析师深入分析数据,钻取到数据的核心。例如,可按照时间序列维度进行数据读入、特征过滤和数据钻取等操作,以便更好地进行数据分析和诊断分析。
(3)预测型:可能发生什么?
预测型分析方法是基于预测模型,针对事件未来发生的可能性,预测一个可量化的值。在充满不确定性的环境下,预测能够帮助人们做出更好的决定。
(4)指令型:需要做什么?
对“发生了什么”“为什么会发生”和“可能发生什么”进行分析,以帮助用户决定应该采取什么措施。通常情况下,指令型分析方法不是单独使用的,而是在前面三种方法完成之后使用的。
2.7.2 大数据分析步骤
一般说来,数据库里的知识发现(Knowledge Discovery in Database,KDD)是指从大量数据中提取出有效模式的非平凡过程,该模式是新颖的、可信的、有效的、可能有用的和最终可理解的。而数据挖掘被认为是KDD中的一个步骤,是指利用某些特定的知识发现算法,在一定的运算效率限制下,从数据库中提取出人们感兴趣的模式。数据挖掘是一门交叉学科,涉及机器学习、模式识别、统计学、智能数据库、知识获取、数据可视化、高性能计算机和专家系统等多个领域。
数据挖掘的两个高层次目标是预测和描述。预测的基本任务包括分类、归类、时间序列分析和预测。描述的基本任务包括聚类、总结、关联规则和序列发现。数据库技术只是将数据有效地组织和存储在数据库中,并对这些数据做一些简单分析,但无法获得大量隐藏在数据内部的有用信息。而机器学习、模式识别、统计学等领域却有大量提取知识的方法,但没有和实际应用中的海量数据结合起来,很大程度上只是对实验数据或学术研究发挥作用。数据挖掘从一个新的角度将数据库技术、机器学习、模式识别和统计学等结合起来,从更深层次发掘存在于数据内部有效的、新颖的、具有潜在效用的,乃至最终可理解的模式。数据挖掘技术具有丰富的算法(人工神经网络、遗传算法等),能从海量的交互、高维、无序的自变量数据库中发现潜在的且能够导向因变量的有用信息。
大数据分析的第一步是数据的“抽取—转换—加载”(Extract-Transform-Load,ETL),这就是通常所说的“数据处理三部曲”。该环节需要将来源不同、类型不同的数据抽取出来,然后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。
经过数据准备之后,下一步就是模式发现。模式发现是数据挖掘过程中的核心阶段,首先要确定挖掘任务和挖掘算法,然后通过对历史数据的分析,结合用户需求、数据特点等因素,得到供决策使用的各种模式与规则。不同的算法有着各自的适用条件和应用领域。例如,神经网络算法能够以任意精度逼近任意非线性映射,对处理含噪声和非线性数据具有较大的优势;而遗传算法在解决非线性问题时不依赖于问题模型的特性,不仅具有鲁棒性和全局最优性,还具有高效率和并行性等特点;主元分析法在解决非线性数据时能够实现数据简化、数据压缩、建模等;偏最小二乘法对多因变量的回归建模具有较为明显的优势。可利用数据挖掘的不同算法,将多维的、非线性的工艺生产、设备运行条件作为因变量,对工艺条件进行优化,为大型生产设备运行提供智能预报、预警。
最后,要将挖掘出来的模式与规则以一种直观、容易理解的方式呈现给用户,即可视化过程。
2.7.3 数据挖掘方法
目前,数据挖掘方法包括以下几种。
1.降维
降维是将数据从高维度降到低维度的过程,可以有效地解决工业大数据高维度的问题和所谓的“维数灾难”。有研究学者认为,降维是聚类分析或分类分析的一种,但由于目前所需要处理的数据均为高维度的数据,常常将其作为数据的前处理过程,所以本书将降维作为单独的一种分析方法进行介绍。降维算法可以分为两大类:线性降维算法和非线性降维算法。线性降维算法主要有主成分分析(PCA)、投影寻踪(PP)、局部学习投影(LLP)及核特征映射法。非线性降维算法主要有多维尺度法(MDS)、等距映射法(ISOMAP)、局部线性嵌入法(LLE)及拉普拉斯特征映射法。
2.相关性分析
相关性分析是通过对规模庞大的信息进行量化处理,建立各类信息之间的联系。相关性分析就是研究数据与数据之间的关联程度。该分析方法一直是统计学中的研究热点,已经在金融、心理学和气象学领域得到广泛应用。
相关性主要用来表述两个变量之间的关系,是两变量之间密切程度的度量。在分析两个变量的相关性方面,最传统的方法就是使用Pearson 相关系数,但该方法只能表示两个变量之间的线性相关程度,对于非线性的关系偏差较大。很明显,这种相关性分析方法无法对强非线性关系的工业数据进行处理和分析。
目前,常用的多变量相关性分析方法有Granger因果关系分析、典型相关分析、灰色关联分析、Copula分析和互信息分析等,这些分析方法都存在一定的不足和缺陷。例如,Granger因果关系分析不能给出定量的描述;典型相关分析不适用于分析时间序列的问题;Copula 分析对数据分布的规则度要求很高;灰色关联分析的理论基础研究还有待进一步完善;互信息分析的计算复杂度较高,但随着计算手段的不断完善和计算速度的不断提高,互信息分析方法得到了广泛应用。
3.聚类与分类
聚类分析是通过一定的规则将已有的数据集合划分成新的类别,而新的类别在性质上是相似的,所以它是研究数据间物理上或逻辑上相互关系的技术。聚类分析获得的结果可以作为下一步研究的基础数据。
聚类分析的划分算法包括 K-means 算法、K-medoid 算法,层次算法包括 BIRCH算法、CURE算法,密度算法包括DBSCN算法、OPTICS算法,网格算法包括STING算法、WaveCluster算法等。聚类分析是数据挖掘算法中一种非常重要的算法,是一种无监督学习方案,可以用来探索数据。对经过聚类分析的数据可以进一步进行数据预测和内容检索等,从而提高数据挖掘的效率和准确性。聚类算法通常可以分为基于划分的聚类、基于层次的聚类、基于密度的聚类、基于网格的聚类及基于模型的聚类五大类。
分类分析是指根据数据集的特点构造一个分类器,再利用这个分类器对需要分类的样本赋予类别。其与聚类分析最大的不同就是,分类分析在对数据进行归类之前已经规定了分类的规则,而聚类分析在归类之前没有任何规则,在归类之后才得到每个类别的特点。
目前,分类算法也有很多种,按照各算法的技术特点可以分为决策树分类法、Bayes分类法、基于关联规则的分类法和基于数据库技术的分类法等。每类分类方法中又存在多种算法,如决策树分类法中较早使用的是C4.5算法,后来为了适应数据量的不断扩大,又在其基础上开发了SLIQ(Supervised Learning in Quest)算法和SPRINT算法;Bayes分类法中应用比较普遍的是网络算法;基于关联规则的分类法中,CBA(Classification Based on Association)算法应用最为普遍;GAC-RDB算法是基于数据库技术的分类法的典型代表。
4.基于数据的预测分析
基于数据的预测分析是一个从功能上定义的广义概念,就工业生产而言,过程工业中产品质量和产率的预测、生产操作中的优化、生产装置的故障诊断等都可以归入此范畴。常用的预测分析方法是各种神经网络算法及其与各种优化算法的结合。
目前,应用相对成熟的神经网络有BP神经网络、GRNN神经网络、RBF神经网络等。神经网络算法通过模拟生物的神经网络进行信息处理,有着不断自我学习的优势。神经网络算法具有以下优点。
● 理论上能够逼近任意非线性映射。
● 善于处理多输入输出问题。
● 能够进行并行分布式处理。
● 自学习与自适应性强。
● 可同时处理多种定性和定量的数据。
5.遗传算法
遗传算法是基于生物遗传、进化机制的自适应概率优化算法,具有鲁棒性强、应用范围广、简单通用等特点。遗传算法搜索最优解的方法是模拟生物进化过程中发生的复制、交叉、变异等现象,遵循“适者生存、不适者被淘汰”的进化规则,留下适应环境能力强的个体,使结果群体不断地向最优解的方向进化,最终通过解码得到满足要求的最优解。遗传算法全局搜索能力强,能解决高维空间的优化问题,而且在数据库领域能较好地处理不同属性之间的关系,所以当数据库容量非常大时,或者需要解决范围大、复杂的优化问题时,采取遗传算法是一个非常有效的选择。
6.模式识别
模式识别是数据挖掘的主要方法之一。它是一种借助计算机对信息进行处理、判决分类的数学统计方法。模式识别大致可以分为统计模式识别和句法模式识别两大类。统计模式识别将每个样本用特征参数表示为多维空间中的一个点,根据“物以类聚”的原理,同类或相似样本点间的距离应较近,不同类样本点间的距离应较远。这样,就可以根据各样本点间的距离或距离的函数来判别、分类,并利用分类结果做出预测。统计模式识别是工业优化中的常用方法。
7.支持向量机
支持向量机主要用于有限数据的分类、回归和预报建模。早在20世纪60年代,以数学家Vapnik 为代表的学派就开始努力建立一套能保证从有限样本中得出预报能力最强的数学模型的“统计学习理论”(Statistical Learning Theory,SLT),并于1992年和1995年先后提出分类和回归的支持向量机(Support Vector Machine,SVM)。
支持向量机的基本思想可以概括如下:首先通过非线性变换将输入空间变换到一个高维空间,然后在这个新空间中求取最优线性分类面,而这种非线性变换是通过定义适当的内积函数实现的。SLT和SVM算法在很大程度上解决了模型选择与过拟合问题,小样本、非线性和维数灾难问题,以及局部最小点问题等。
8.专家系统
数学模型可以描述那些直接或间接影响相关组件健康状态的物理过程。物理模型大多由特定领域的专家建立,通过对大量历史数据的分析来确定模型参数。将基于物理模型的方法用于设备的健康状态预测时,需要模型设计者掌握与系统监控相关的专业理论和方法。当然,在实际应用中,运用先验经验为一个物理系统建立精确的数学模型通常是一件非常困难的事情。常常因为无法简化模型或重要影响因素难以检测分析,造成物理模型应用受限。鉴于此缺点,不需要物理模型的基础知识分析方式显得更适合工程问题。