1.3 工业大数据的特点与关键技术
1.3.1 特点
文献[6-8]和文献[10-13]对工业大数据的特点进行了详细的分析。这里简要总结为4点。
1. 工业大数据具有多样、多模态、高通量和强关联等特性
根据数据来源,可以将工业大数据分为3类[14]:第1类是与企业运营管理相关的业务数据,这类数据来自企业信息化范畴;第2类是设计与制造过程数据,主要指在工业生产过程中产生的装备、物料及产品加工的工况状态参数、环境参数等数据;第3类是企业外部数据,包括产品售出后的使用情况、运营情况等数据,还包括大量用户数据、供应商数据、互联网数据等。工业大数据的这些特性对多源异构数据存储技术提出了很高的要求,不仅需要高效的数据存储优化,还需要通过元数据、索引、查询推理等进行高效且便捷的数据读取,实现多源异构数据的一体化管理。
2. 工业数据资源并不丰富
在宏观层面,工业领域的数据类型和数据量非常丰富。但对于微观的大数据应用和分析来说,有价值的数据往往十分稀缺。
(1)数据样本通常严重有偏(Biased):多数工业系统被设计为具有高可靠性且严格受控的系统,绝大多数时间都在稳定运行,异常工况相对稀缺(对于数据分析来说具有“高价值”),有标记的异常样本更是难得。还有一些工业场景要求捕获故障或异常瞬间的高频细微状况,才能还原和分析故障发生原因,这对数据监控和后台数据存储提出了很高的要求。
(2)维度不完整和序列间断(Censored):全维数据集的有效关联往往很难实现,在时间或空间序列上也常常存在数据缺失,导致当前获取的数据不能完整勾画真实的物理过程。因此,需要谨慎考量CPS的应用范围。另外,上述问题也导致“数到用时方恨少”。工业互联网产业联盟和中国信息通信研究院的《2018工业企业数据资产管理现状调查报告》显示,我国工业企业的数据资产存量普遍不大,66%的企业的数据存量都在20TB以下,还不到一个省级电信运营商日增数据量的1/10。针对这种情况,工业大数据应该进行“量体裁衣”式建设,而不是被动响应。要从业务的角度挖掘需求,从技术的角度思考如何获取更多数据资源(如新传感技术、软测量、内部信息整合、数据联盟等),从数据的角度思考如何利用新模式或新技术提高业务能力。
3. 工业数据有丰富的上下文信息(Context)
工业是一个强机理、高知识密度的技术领域,很多监测数据仅是精心设计下系统运行的部分表征。工业领域通常有机理模型和专家经验的深厚积累,可以为数据分析提供极具参考价值的特征量(如齿轮箱振动的倒谱等)和参数搜索空间。工业大数据分析通常会隐性或显性地利用大量行业知识(包括而不限于问题定义、数据筛选、特征加工、模型调优等环节),将统计学习(或机器学习)算法与机理模型算法融合,以创造更高的价值。
4. 工业大数据的人才体系是二分的
工业大数据的价值变现通常需要将统计学习模型和机理模型融合,而这两个模型属于不同技术门类,且工业企业通常以工程技术人员为主,这种技能的割裂严重制约了工业大数据生态的发展。
除以上共性挑战之外,单个制造业企业在推进工业大数据的发展时,还会面临管理模式转变、人才短缺、短期成效与长效机制矛盾等方面的挑战,这就需要在大数据规划与实施过程中有一个系统而有效的方法论来进行指导。