工业大数据分析实践
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

前言

在过去的五年中,笔者有幸深入制造业数字化转型一线,在与工业龙头企业深入交流和合作的过程中,目睹了国内产业数据基础的快速发展,也看到了数字化、数据经营等理念深入人心的过程。回想早年,为了验证数据分析技术,只能跨越地域、克服语言和文化的差异,到境外实施项目,不禁感慨万千。在过去的二十年中,数据平台技术和数据分析算法蓬勃发展。在数据平台技术方面,数据量的爆发式增长和分布化、数据负荷特征变化(从以交易型为主变为以事件型为主)、基础计算资源(CPU、GPU、存储、网络等)成本的变化,触发了数据平台架构的变化(大规模、分布式);在数据分析算法方面,经典的统计学习算法继续发展,分布式架构的学习算法和以梯度计算为核心的深度学习也取得了长足的进步。另外,数据平台技术和数据分析算法不断融合,涌现了不少针对统计学习算法进行优化的系统架构(System for Machine Learning),统计学习算法也逐渐应用于架构参数设计、性能分析与调优、平台运维效率提高等方面(Machine Learning for System)。

基于数据思维和业务创新,大数据在互联网、电商等领域取得了丰硕的成果。在工业领域,大数据也被寄予厚望。工业领域的大数据主要是在线监测数据和周期性检测数据,因此,数据在传输和存储过程中会呈现明显的时序特征,数据分析需要进行多维度的数据拉通和整合,也就是常说的“工业数据竖着进来、横着出去”。工业系统往往是经过精心设计的、能够长期稳定运行的系统,这意味着工业大数据分析中的样本不均衡问题更加严重。在工业领域,先验知识不再局限于概率关系(联合、条件概率),还有大量体系化的因果关系(设计原因、运行机制、运营逻辑等)和很多半结构化的经验知识(以行业专家为载体)。这些特点决定了工业领域的数据平台技术和数据分析算法与商务领域的不同。

无论是在商务领域还是在工业领域,数据都是对自然现象和社会现象的不完备刻画,这从根本上决定了其适用范围,也推动了人们通过丰富数据的采集来源等方式不断拓宽其适用边界。如果脱离了场景上下文,数据分析的结果就会脱离实际。在很多时候,数据分析问题的识别和定义过程比求解过程更重要,需要从微观、中观、宏观等多个层面审视数据分析问题,在业务和决策流程中对其进行观察。在多年的数据分析实践中,笔者一直在思考一个问题:在数据分析领域,是否存在一些系统化方法,可以用来指导数据分析工作及提高数据分析工作的效率和质量。

本书的书名为《工业大数据分析实践》,但是在表达方式上,笔者更喜欢用“数据分析”,而不是“大数据分析”。因为与无穷的认知好奇心相比,数据从来没有“大”过。即使进行数据分析的数据量很大,数据分析的本质仍然是寻找繁杂现象背后的不变量(小数据)。但考虑到业界约定俗成的说法,本书没有刻意回避“大数据”的提法。

本书对工业大数据分析领域的设备故障诊断与健康管理(Prognostics & Health Management,PHM)、生产质量分析(Product Quality Management,PQM)、生产效率优化(Production Efficiency Management,PEM)等典型课题的识别、定义、执行和应用方法进行了探索和总结,将数据分析技术放在业务经营和物理机制的上下文中,明确其适用范畴,以提高数据分析的可执行性、可度量性和可消费性。

本书的目的是为工业数据分析师提供一些参考。全书共10章,第1章和第2章简要概括了工业大数据的背景、特点及工业大数据分析的范畴与关键技术;第3~7章从方法论的角度探讨了工业大数据分析的实践方式,包括其在PHM、PQM、PEM、生产安全、研发数据、营销优化等领域的规划方法和典型分析课题;第8章总结了常用的工业大数据分析算法,特别是针对时序模式的分析算法;第9章简单论述了工业大数据的数据接入、数据管理等平台技术;第10章的6个实际案例从不同方面体现了工业大数据分析项目的复杂性和多样性,包括数据驱动、专家知识驱动、机器学习与专家知识驱动结合等类型的课题。

本书的8.1节(统计分析算法)、8.2节(机器学习算法)、8.4节(工业知识图谱)、8.5.1节(系统辨识算法)、8.5.2节(运筹优化算法)和10.6节(轨道车辆悬挂系统故障诊断)由李闯编写;第9章(工业大数据平台技术)由杨锐编写;10.1节(风电大数据分析)由周杰编写;7.1节(生产安全分析)和10.3节(气化炉参数优化)由崔鹏飞编写,其余章节均由田春华编写,刘家扬和田春华负责全书的统稿与修订。另外,4.4.3节在传感器一致性检验方面借鉴了翟栋的成果,在此表示感谢。

本书的编写过程也是笔者在实用性和普适性之间不断拉锯的过程,在这个曲折的过程中,笔者不断地进行自我否定与再思考,甚至一度想放弃。本书权当是对工业大数据实践的初步探讨,用来抛砖引玉。直至今日,笔者仍担心编写过程过于仓促,很多算法内容没来得及详细展开,再加上笔者才疏学浅,不少认知还停留于浅层,有些说法和表达尚欠推敲,书中难免有疏漏、错误之处,还望广大读者不吝赐教,日后有机会再进行更正。

田春华
2021年2月于北京