2.4.2 基于机器学习的方法_智能预测性维护-QQ阅读男生科幻网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

2.4.2　基于机器学习的方法

随着物联网及其应用技术的兴起，数据采集和处理技术已经足够成熟，可以批量或实时地生成、传输、存储和分析各种数据，基于机器学习的方法越来越受到工业界的关注。

（1）机器学习的方式

机器学习是一门涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多领域的交叉学科，研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能，是使计算机更智能的根本途径，其应用遍及人工智能的各个领域。机器学习流程如图2.9所示，根据输入数据（训练集）的不同，机器学习的方式主要可以分成监督学习和无监督学习两种。

图2.9　机器学习流程

①监督学习监督学习是指从有标记的训练数据中推导出预测函数，有标记的训练数据是指每个训练实例都包括输入和期望的输出，主要应用于分类和回归问题的预测。监督学习从给定的训练数据集中学习出一个函数，当新的数据到来时，可以根据这个函数预测结果。监督学习的训练集要求包括输入和输出，也可以说是特征和目标。训练集中的目标由人标注，标注为连续数值的问题（如温度）被称为回归，标注为离散值的问题（如图像类别）被称为分类。

监督学习的输入数据被称为训练数据，每组训练数据有一个明确的标识或结果，如对防垃圾邮件系统中的垃圾邮件、非垃圾邮件，对手写数字识别中的1、2、3、4等，建立预测模型的时候，监督学习建立一个学习过程，将预测结果与训练数据的实际结果进行比较，不断地调整预测模型，直到模型的预测结果达到一个预期的准确率。

分类是在已有数据的基础上学会一个分类函数或构造出一个分类模型，即分类器，能够把数据库中的数据记录映射到给定类别中的某一类，进而用于数据预测。分类器是对样本进行分类方法的统称，包含决策树、逻辑回归、朴素贝叶斯、神经网络等算法。

回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法，是应用极其广泛的数据分析方法，可用于预测和控制等问题。回归分析按照涉及变量的多少，可分为一元回归分析和多元回归分析；按自变量和因变量之间的关系类型，可分为线性回归分析和非线性回归分析。一元线性回归分析只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示；多元线性回归分析包括两个或两个以上的自变量且因变量和自变量之间是线性关系。

②无监督学习无监督学习的目的在于从样本数据中得到样本的内在结构或者特征之间的关联。发现相似样本的问题称为聚类，希望分析样本在数据空间中分布的问题称为密度估计，旨在寻找一个更简洁数据表达的问题被称为数据降维，发现特征之间关联关系的问题被称为关联规则挖掘。

聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程，其目标是在相似的基础上收集数据来分类。聚类源于数学、统计学、计算机科学、生物学和经济学等多个学科。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等，采用k-均值、k-中心点等算法的聚类分析工具已被加入许多著名的统计分析软件包中，如SPSS、SAS等。

从机器学习的角度讲，簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同，无监督学习不依赖预先定义的类或带类标记的训练实例，需要由聚类学习算法自动确定标记，而分类学习的实例或数据对象有类别标记。聚类是观察式学习，而不是示例式学习。

聚类分析是一种探索性的分析，在分类的过程中，不必事先给出一个分类的标准，聚类分析能够从样本数据出发，自动进行分类。聚类分析所使用方法的不同，常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析，所得到的聚类数未必一致。

数据降维是将高维数据化为低维度数据的操作，降维方法可分为线性降维和非线性降维。线性降维包括主成分分析PCA、独立成分分析ICA、线性判别分析LDA、逻辑框架分析LFA、局部保持投影LPP。非线性降维又分为基于核函数和基于特征值的方法，基于核函数的方法包括核主成分分析KPCA、核独立成分分析KICA、核判别分析KDA，基于特征值的方法包括等距特征映射ISOMAP、局部线性嵌入LLE、拉普拉斯特征映射LE、局部切空间排列LTSA、最大方差展开MVU等。

关联规则最初是针对购物篮分析问题提出的。假设分店经理想更多地了解顾客的购物习惯，特别是想知道哪些商品顾客可能会在一次购物时同时购买。为回答该问题，可以进行购物篮分析。该过程通过发现顾客放入购物篮中的不同商品之间的关联，分析顾客的购物习惯。这种关联的发现可以帮助零售商了解哪些商品频繁地被顾客同时购买，从而帮助他们制定更好的营销策略。

1993年，Agrawal等人首先提出关联规则概念，同时给出了相应的挖掘算法，但是算法性能较差。1994年，他们建立了项目集格空间理论，并提出了著名的Apriori算法，至今Apriori算法仍然作为关联规则挖掘的经典算法被广泛讨论。

③其他的机器学习方式有关机器学习方式，还有一些从上述两种学习方式中演化而来的半监督学习、强化学习、迁移学习和自我学习等。

半监督学习介于监督学习和无监督学习之间，输入数据部分被标识，预测时模型首先需要学习数据的内在结构以便合理地组织数据。算法主要包括一些常用监督学习算法的延伸，这些算法首先试图对未标识数据进行建模，再对标识的数据进行预测，如图论推理或拉普拉斯支持向量机等。

强化学习又称再励学习、评价学习或增强学习，是从动物学习、参数扰动自适应控制等理论发展而来的，用于描述和解决智能体（Agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题，在智能控制机器人及分析预测等领域有许多应用。其原理是：如果Agent的某个行为策略导致环境正的奖赏（强化信号），那么Agent以后产生这个行为策略的趋势会加强，Agent的目标是在每个离散状态发现最优策略以使期望的折扣奖赏和最大。

迁移学习可以从现有数据中迁移知识，帮助将来的学习。机器学习假设训练数据与测试数据服从相同的数据分布，然而许多情况下，这种同分布假设并不满足。通常可能发生的情况是训练数据过期，即好不容易标定的数据要被丢弃，而另外有一大堆新数据要重新标定。迁移学习的目的是将从一个环境中学到的知识用来帮助新环境中的学习任务，当前只有少量新的标记数据，但有大量旧的已标记数据（甚至其他类别的有效数据），可以通过挑选这些旧数据中的有效数据，加入当前的训练数据中，训练新的模型。

自我学习首先通过未标注的自然图像提取一组特征，这样任何一个标注和未标注的图像都可以用这组特征表示出来，由于每一个标注后的样本都被表示成了这些特征（捕捉了图像高层结构），可以将表示后的标注样本训练成一个分类器进行分类。

自我学习和半监督学习一样，当前手头上只有少量训练样本（小样本），但是周围手头上还有大量无标注样本（无标签）。举一个经典分离大象和犀牛的例子：监督学习是指手头有大量大象和犀牛的已标记样本，接下来训练分类器进行分类；迁移学习是指手头上有大量羊的样本和马的样本（大异种样本），少量的大象和犀牛样本（小样本），接下来就要从羊和马的样本中选出有效的样本分别加入大象和犀牛的标记样本（弱标签）中，然后用监督学习的方法训练分类器；如果手上仅有少量大象和犀牛的已标记样本（小样本弱标签），另外有一堆大象和犀牛的没有标记的数据（数据中要么是大象要么是犀牛，没有其他物种），半监督学习就是利用这些样本训练分类器，实现分类；无监督学习是从无标签样本中得到数据的内在结构或特征关联；自我学习是手上仅有少量大象和犀牛的已标记样本（小样本弱标签），另外有一大堆自然图像（自然图像就是有大象和犀牛的图片在内的各种物种的图片）。

（2）机器学习的常用算法

根据算法的功能和形式的类似性，可以把算法分类，比如说基于树的算法、基于神经网络的算法等。然而，机器学习的范围非常大，有些算法很难明确归类。而对于有些分类来说，同一分类的算法可以针对不同类型的问题。

①回归算法回归算法（图2.10）是试图采用对误差的衡量来探索变量之间关系的一类算法，是统计机器学习的工具。在机器学习领域，回归有时候是指一类问题，有时候是指一类算法。常见的回归算法包括最小二乘法、逻辑回归、逐步式回归、多元自适应回归样条以及本地散点平滑估计。

图2.10　回归算法

②基于实例的算法基于实例的算法（图2.11）常常用来对决策问题建立模型，先选取一批样本数据，然后根据某些近似性把新数据与样本数据进行比较，来寻找最佳的匹配。基于实例的算法常常也被称为基于记忆的学习。常见的基于实例的算法包括k-近邻法、学习矢量量化、自组织映射算法等。

图2.11　基于实例的算法

③正则化算法正则化算法（图2.12）是线性回归算法的延伸，解决了回归算法中许多输入特性容易过度拟合的问题。正则化方法通过增加人为惩罚模型系数来防止过拟合，对算法进行调整。常见的正则化算法包括岭回归、最小绝对收缩和选择算子回归、弹性网络等。

图2.12　正则化算法

④决策树算法决策树算法（图2.13）根据数据的属性采用树状结构建立决策模型，用来解决分类和回归问题（解决了线性回归不能轻易表示特征的非线性关系问题）。常见的决策树算法包括分类及回归树、ID3、C4.5、卡方自动侦察法、单层决策树、随机森林、多元自适应回归样条以及梯度推进机等。

图2.13　决策树算法

⑤贝叶斯算法贝叶斯算法（图2.14）是基于贝叶斯定理的一类算法，主要用来解决分类和回归问题。常见的贝叶斯算法包括朴素贝叶斯算法、平均单依赖估计以及贝叶斯置信网络。

图2.14　贝叶斯算法

⑥基于核的算法基于核的算法（图2.15）把输入数据映射到一个高阶向量空间，使一些分类或者回归问题能够更容易解决。常见的基于核的算法包括支持向量机、径向基函数和线性判别分析等。

图2.15　基于核的算法

⑦聚类算法聚类就像回归一样，有时候人们描述的是一类问题，有时候描述的是一类算法。聚类算法通常按照中心点或者分层的方式对输入数据进行归并，试图找到数据的内在结构，以便按照最大的共同点将数据进行归类（图2.16）。常见的聚类算法包括k-均值算法以及期望最大化算法。

图2.16　聚类算法

⑧关联规则算法关联规则算法通过寻找最能够解释数据变量之间关系的规则，来找出大量多元数据集中有用的关联规则（图2.17）。常见的关联算法包括Apriori算法和Eclat算法等。

图2.17　关联规则算法

⑨多层人工神经网络算法多层人工神经网络算法（图2.18）模拟生物神经网络，是一类模式匹配算法，通常用于解决分类和回归问题。多层人工神经网络算法是机器学习的一个庞大的分支，有几百种不同的算法，深度学习也是其中的一类。重要的多层人工神经网络算法包括感知器神经网络、反向传递、Hopfield网络、自组织映射、学习矢量量化等。

图2.18　多层人工神经网络算法

⑩深度学习算法深度学习算法是对多层人工神经网络算法的发展，近期赢得了很多关注。在计算能力变得日益廉价的今天，深度学习试图建立大得多也复杂得多的神经网络。很多深度学习的算法是半监督式学习算法，用来处理存在少量未标识数据的大数据集。常见的深度学习算法包括受限玻尔兹曼机、深度置信网络、卷积网络（图2.19）、堆栈式自动编码器等。

图2.19　深度学习算法

⑪降维算法像聚类算法一样，降维试图通过分析数据的内在结构（图2.20），以非监督学习的方式利用较少的信息来归纳或者解释数据。这类算法可以用于高维数据的可视化或者用来简化数据以便监督式学习使用。常见算法包括主成分分析、偏最小二乘回归、Sammon映射、多维尺度、投影追踪等。

图2.20　降维算法

⑫集成学习算法监督学习的目标是学习出一个稳定的且在各个方面表现都较好的模型，但实际情况往往不理想，有时只能得到多个有偏好的模型（在某些方面表现比较好的弱监督模型）。集成学习使用图2.21所示的多个弱分类器，如决策树、神经网络、贝叶斯分类器、k-近邻等，构成一个强分类器，然后把结果整合起来进行整体预测。在这种情况下，即便某一个弱分类器得到了错误的预测，其他弱分类器也可以将错误纠正回来，其难点在于究竟集成哪些独立的较弱的学习模型以及如何把学习结果整合起来。

图2.21　集成学习模型

常用的集成学习算法包括Boosting、Bootstrapped Aggregation（Bagging）、AdaBoost、堆叠泛化、梯度推进机等。其中，Bagging使用复杂的基模型，试图通过减少复杂模型的过度拟合来平滑模型的预测，Boosting使用简单的基模型，试图通过提高简单模型预测的灵活性来提高模型的总体复杂性。当基模型是决策树时，Bagging和Boosting对应的集成学习算法分别是随机森林和提升树。

集成学习在各个规模的数据集上都有很好的策略。对于大数据集，可以划分成多个小数据集，学习多个模型进行组合；对于小数据集，可以利用Bootstrap方法进行抽样，得到多个数据集，分别训练多个模型再进行组合。

（3）基于机器学习的故障预测

基于机器学习的故障预测与决策流程如图2.22所示，包括数据准备、数据处理、特征工程、预测建模、训练、仿真与测试、维护决策等步骤[25]。

图2.22　基于机器学习的故障预测与决策流程

①数据准备预测性维护问题的常见数据元素可以总结如下。

a.故障历史：设备内部零件或部件的故障历史记录，如航班延误日期、飞行器部件故障日期和类型、ATM取款交易故障、列车门故障、电梯门故障、制动盘更换日期、风机故障日期和断路器命令故障等。

b.维护历史：设备的错误代码、维护活动或组件更换的维修维护历史记录，如航班错误记录、ATM交易错误记录、列车维护记录和断路器维护记录。

c.设备状态和使用情况：从传感器采集的机器操作状态数据，如飞行路线和时间、从飞行器发动机采集的传感器数据、自动柜员机的传感器读数、火车事件数据、来自风力涡轮机的传感器读数、电梯和互联的汽车实时数据等。

d.设备特征：描述机器发动机大小、制造商和型号、位置的特征信息，如断路器技术规格、地理位置、汽车规格描述（如品牌、型号、发动机尺寸、生产设备）等。

e.操作者特征：操作者的特征，如性别、过去经验等。

通常情况下，故障历史包含在维护历史中（例如以特殊错误代码或部件的订购日期的形式存在）。在这些情况下，可以从维护数据中提取数据。另外，不同的业务领域可能含有影响故障模式的各种其他数据源，没有详尽列出，应该在建立预测模型时通过咨询相应领域专家来标识。

给定上述数据源，在预测维护中观察到的两个主要数据类型是临时数据和静态数据。故障历史记录、机器条件、修复历史记录、使用历史记录几乎总是带有指示每个数据的收集时间的时间戳。机器特性和操作员特性通常是静态的，通常描述机器的技术规格或操作员的属性。这些特性有可能随时间改变，并且如果这样，应当被视为加有时间戳的数据源。

②数据处理在进入任何类型的特性工程或标签工程之前，需要先按照创建功能所需的形式来准备数据。最终目标是为每个设备或资产在每个时间单位生成一个数据记录，并将其特征和标签输入到机器学习算法中。为了准备干净的最终数据集，应该采取一些预处理步骤。第一步是将数据收集的持续时间划分为时间单位，其中每个记录属于资产的时间单位。数据收集也可以划分为诸如操作的其他单位，为了简单起见，选择使用时间作为单位。

时间的测量单位可以是秒、分、小时、天、月、季度、周期等，选择的依据取决于数据准备过程的效率，或者依据设备从一个时间单位到另一个时间单位的状态变化，或者特定领域的其他因素。换句话说，在许多情况下，从一个单位到另一个单位，数据可能不会显示任何差异，时间单位可以不必与数据采集的频率相同。例如，如果每10s收集一次温度值，则在整个分析过程中将会增加案例的数量，而不会提供其他任何附加信息，较好的策略可以选择一个小时为时间单位。

③特征工程特征工程是将原始数据转化为特征，更好地表示预测模型处理的实际问题，提升对于未知数据的准确性。特征工程是用目标问题所在的特定领域知识或者自动化的方法来构造、提取、删减或者组合变化得到特征，其内容如图2.23所示。

图2.23　特征工程的内容

原始特征或数据，如人体的各种生理指标（以描述健康状况）、数字图像中每点的灰度值（以描述图像内容）是直接测量获得的，往往不用于机器学习中，主要有以下几个原因。

•原始数据不能反映对象的本质特征。

•高维原始数据不利于分类器设计：计算量大，如对于一幅像素为1024×768的灰度图像，灰度级为256级，直接表示需要786432B，进行训练识别所需的空间、时间和计算量都无法接受；冗余，原始数据空间中，大量的数据都是相关性强的冗余特征；样本分布稀疏，对于有限训练样本而言，在高维的原始数据空间中分布十分稀疏。

•如果将数量过多的测量值不做分析，直接用于分类特征，不但耗时，而且会影响分类效果，产生维数灾难的问题。

针对以上原始特征或数据的特性和不足，为了设计出更好的分类器，通常需要对原始数据的测量值集合进行分析，经过变换和选择处理，组成有效的识别特征，处理方式包括：

•在保证一定分类精度的前提下，减少特征维数，进行降维处理，使分类器实现快速、准确、高效的分类；

•去掉模棱两可、不利于分类的特征，使提供的特征具有更好的可分性，分类器容易判别；

•提供的特征不应重复，去掉相关性强但是没有增加更多分类信息的特征。

因此，特征工程的目的是发现重要特征，分为特征构造、特征提取和特征选择三方面。

特征构造一般是通过对原有的特征进行四则运算构造新特征。例如，原来的特征是x₁和x₂，那么x₁+x₂就是一个新特征，或者当x₁大于某个数c的时候，就产生一个新的变量x₃，并且x₃=1，当x₁小于c的时候，x₃=0，可以按照这种方法构造出很多特征。

原始特征的数量可能很大，需要通过变换（映射）把高维特征空间降到低维空间，这些二次特征一般是原始特征的某种组合。特征提取就是将n个特征{x₁，x₂，…，x_n}通过某种变换，产生m个特征{y1，y2，…，y_m}（m<n）作为新的分类特征（或称为二次特征）。例如主成分分析PCA、因子分析、线性判别分析LDA都可以对原始数据进行特征提取，主成分分析对原始数据进行降维后的每个主成分就代表一个新的特征，因子分析可以把潜在变量后面的潜在因子找出来。卷积神经网络的卷积层也是一个特征提取过程，一张图片经过卷积的不断扫描，就会把原始图片里面的部分特征逐步提取出来。实际上，主成分分析本身就是初始变量的线性组合，其本质也属于特征构造，但是，一般的特征构造是指简单的四则运算。

特征选择是从n个度量值集合{x₁，x₂，…，x_n}中，按某一准则选出供分类用的子集Cm_n，作为降维（m维，m<n）的分类特征，组合数目很大，需要一些算法去避免穷尽搜索。常用的特征选择方法有过滤式、包装式、嵌入式。

过滤式特征选择是通过评估每个特征和结果的相关性来对特征进行筛选，留下相关性最强的几个特征。核心思想是：先对数据集进行特征选择，然后再进行模型的训练。过滤式特征选择的优点是思路简单，往往通过皮尔森相关系数法、卡方检验法、互信息法等方法计算相关性，然后保留相关性最强的N个特征，就可以交给模型训练；缺点是没有考虑到特征与特征之间的相关性，从而导致模型最后的训练效果没那么好。

包装式特征选择是把最终要使用的机器学习模型、评测性能的指标（如均方根误差MSE、AUC等）作为特征选择的重要依据，每次采用完全搜索（如动态规划、分枝界定）、启发式搜索（如A算法、A*算法）或随机搜索（如遗传算法、模拟退火、禁忌搜索、爬山搜索）等算法去选择若干特征，或是排除若干特征。通常包装式特征选择要比过滤式特征选择的效果更好，但由于训练过程时间久，系统开销也更大。最典型的包装式算法为递归特征删除算法，其原理是使用一个基模型（如随机森林、逻辑回归等）进行多轮训练，每轮训练结束后，消除若干权值系数较低的特征，再基于新的特征集进行新一轮训练。

嵌入式特征选择是根据机器学习的算法、模型来分析特征的重要性，从而选择最重要的N个特征。与包装式特征选择最大的不同是，嵌入式特征选择是将特征选择过程与模型的训练过程结合为一体，这样就可以快速地找到最佳的特征集合，更加高效、快捷。常用的嵌入式特征选择方法有基于正则化（如岭回归、Lasso回归）的特征选择法和基于决策树模型的特征选择法。其中，Lasso回归是一种正则化方法，在回归当中主要是控制回归系数，不能太大，不仅可以约束系数，而且可以在模型最优的时候把不重要的系数约束为0，直接做到了特征选择或者变量选择，非常适用于高维数据分析；岭回归与Lasso回归最大的区别在于岭回归引入了L2范数惩罚项，Lasso回归引入了L1范数惩罚项，Lasso回归能够使得损失函数中的许多系数变成0，这点要优于岭回归（所有系数均存在），Lasso回归计算量将远远小于岭回归。决策树模型可解释性强，是按照x的值对y进行了划分，划分好坏的依据是纯度，在一个划分块里，纯度高，就说明划分得好，也就说明了这个划分变量选择得好；随机深林、Bagging、Boosting、Gradient Booting、XGBoost等算法都有特征选择的功能，神经网络、支持向量机、深度学习等也都有特征选择的功能。

特征工程是构建预测性维护机器学习算法和数据标签工程的基础，如何选择合适的算法将很大程度上取决于采集的数据和对应的业务问题。下面结合一个案例，讨论如何应用带有时间戳的数据源构造滞后特征，以及利用静态数据源构造静态特征等特征构造的功能。

a.滞后特征。如前所述，在预测维护中，历史数据通常带有指示每个数据的收集时间的时间戳。有许多方法从带有时间戳的数据中创建特征。由于特性工程被认为是预测建模中极具创意的领域，可能还有许多其他方法来创建特征。在这里，提供一些通用技术。

•滚动聚合特征。对于设备的每个记录，选择大小为“W”的滚动窗口，它是要计算历史聚合的时间单位的数目。然后，使用该记录日期之前的W周期来计算滚动聚合特性。一些滚动聚合的示例可以是滚动计数、平均值、标准偏差、基于标准偏差的离群值、CUSUM度量、窗口的最小值和最大值，还可以在异常数据中用检测异常算法来捕获趋势变化、峰值和水平变化。

如图2.24所示，用蓝线表示记录每个单位时间内每个资产的传感器值，在t₁和t₂处将记录的滚动平均特性计算标记为W=3（分别用橙色和绿色分组来指示）。以飞行器部件故障为例，可以使用过去一周、过去三天和最后一天的传感器测量创建数据的滚动均值、标准偏差和求和特征。对于ATM故障，原始传感器值、滚动均值、中值、取值范围、标准偏差、超过三个标准差的离群值数量、消费的上限和下限等都可以作为预测特征。对于航班延误预测，使用来自上周的错误代码计数来创建特性。对于列车门故障，使用最后一天的事件计数、前两周的事件计数和前十五天的事件计数的方差来创建滞后特性。相同的计数用于维护相关的事件。通过选择一个极大W（例如年），可以查看资产的整个历史，如技术所有维护记录、故障等。这种方法用于计数最近三年中的断路器故障。同样对于列车故障计数所有维护事件，以创建捕获长期维护效果的功能。

图2.24　滚动聚合特征（电子版[注]）

•翻滚聚合特征。对于设备的每个标记记录，选择大小为“W_-k”的窗口，k是创建滞后特征大小“W”的数量或窗口。k可以挑选为大数字以捕获长期下降模式，或小数字以捕获短期效应。使用k翻转窗口W_-k，W_-（k-1），…，W_-2，W_-1创建聚合特性（图2.25）。

图2.25　翻滚聚合特征（电子版）

以风力涡轮机为例，为每个使用顶部和底部离群值的前三个月数据，使用W=1和k=3个月创建滞后特征。

b.静态特征。静态特征是设备的技术规范，如制造日期、型号、位置等。虽然滞后特性主要是数字，但静态特性通常在模型中成为类别变量，如断路器所用的电压、电流和功率规格，以及变压器类型、电源等。对于刹车盘故障，轮胎类型（例如它们是合金或钢）被用作一些静态特性。

通过上述特征工程形成表2.1所示的特征表，其中时间单位为天。

表2.1　静态特征

④预测建模、训练、仿真与测试设备在运行过程中会积累大量故障数据，通过对这些故障大数据进行深度挖掘和分析，人们可以提取出有价值的知识与规则，将这些知识与规则应用于设备的故障预测过程，有助于设备的稳定高效运行。根据设备的状态数据、环境运行数据（来自点检、状态检测的数据），构建故障预测模型，预测给出设备及核心部件的可用寿命及其功能损失率，进而给出预测性的维护需求及计划。

在故障预测建模过程中，每一条设备状态数据都记录了设备运行状态，这样就可以按照状态参数的相似性进行聚类分析，随后就可以对不同聚类中的设备进行横向和纵向的比较（表2.2）。横向的比较是指在相同时间和相同运行条件下的状态参数比较，这样可以了解同一个集群内设备的差异性，并迅速判断哪一个设备处于异常运行状态；另一个维度是纵向的比较，即设备在时间轴上的相互比较，对于同一个设备根据其当前状态与历史状态的差异量化其状态衰退，判断是否即将发生故障；对于同类设备在相同运行环境下的纵向比较，可以通过一个设备与另一个设备历史状态的相似性判断其所处的生命周期，预测是否发生故障。

表2.2　基于机器学习的数据建模方法

⑤维护决策根据预测结果和维护需求响应时间，结合备件库存策略（连续性和周期性库存订购策略），在考虑生产计划的产出率和订单延误成本的条件下，对预测性维护需求（来自预测性维护需求及计划）、确定性维护需求（来自预防性维护计划）和不确定性需求（来自随机故障）进行决策，给出企业内生产、维护与备件库存的决策策略。