工业大数据工程:系统、方法与实践
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.3.3 思维模式视角

数据思维已成为逻辑思维、实证思维、构造思维之后的第四大思维模式。实证思维是基于有限观察和控制实验的归纳,逻辑思维是基于若干公理的推理和演绎,构造思维是算法过程的构造与模拟(也称为计算思维),而数据思维是基于数据分布结构的拟合。

数据思维是对其他3种思维模式的有益补充。实证思维和逻辑思维是现代科学体系的基础,基于观察,形成抽象,通过形式化框架,构建一个自洽的理论体系,并接受新实验的证伪检验。构造思维是很多复杂工程研发的典型模式,通过数字空间的迭代,减少物理空间实验的成本。但如果理论模型与物理世界相差较大,这些方式就有一定的应用局限性。例如,化工中的分子扩散、流体流动、热量传递等过程是可以用物理、热力学、化学反应、单元传递函数等数学模型来描述的,进而可以用计算机做化工设备单元设计和全流程集成优化等工作。然而用流程模拟和仿真来解决生产运行问题时,会发现计算结果与实际现场并不吻合,预测误差甚至高达50%[17]。其主要原因包括未建模要素(理想假设、排除非重要因素)、模型参数不精准、现场缺乏必要的测量数据等。虽然理论上有无限多种组合状态,但现实中工厂大部分时候运行在设定参数附近,现实的生产状态数目有限,这样生产3年就基本已经经历过90%可能发生的状态。数据模型本质是查表和插值,通过寻找与待预测点相似的状态点,根据相似历史状态预测新输出。虽然数据模型没有全局的推断能力,但已经可以应对有限状态了,在这种情形下,数据模型也许是一种最经济的做法。

很多具有工科背景的从业人员更相信确定性关系,对数据思维中的概率性关系常持怀疑态度。这种思维定式需要转变。首先,概率是一种关系描述方式,很多关系是天然随机的,例如,一个单词的音频中,音素的持续时间和停顿时长都是随机的,不但不同人会不同,同一个人两次说话都可能完全不同,但总体上有一定规律,这样的规律用概率模型描述比确定性模型或规则描述更合适。其实,概率可以近似看作研判的“置信度”,很多问题的研判本身也不是非黑即白的,存在模糊地带。最后,很多过程本质是确定的,但结果对模型参数、初始状态的敏感度太高(学术上说的混沌系统),对模型参数、初始状态的精确估算不可能或不经济,这时将模型简化为一个概率模型也许更实际。例如,抛硬币预测落地是正面、反面,在不存在空气扰动、地面平整且摩擦系数均匀的假设下,这个过程可以建模为一个常微分方程[18],结果完全由硬币的质量分布、抛出时的初始状态确定,但结果对参数和初始状态的敏感度太高,还不如通过多次观察,建立一个概率分布模型更直接。钱学森[19]曾指出,从决定性的牛顿力学演化为非决定性的统计力学是一次科学进步;客观世界是决定性的,但由于人认识客观世界的局限性,会有暂时引入非决定性的必要。这是前进中的驿站,无可厚非,只是绝不能满足于非决定性而不求进一步澄清。

在信息化时代,数据作为一种信息沟通的媒介,通过数据透明和信息对称,提升企业的综合决策水平。在丰富的数据积累前提下,数据思维提供了另外一种认识世界的方式,用数据来发现问题、洞察规律,机器可以自动发现人工认知手段看不到的一些规律,将过去实证思维(观察试验、归纳总结)的小群体人工探索行为变成大规模机器自动挖掘的行为,加速与扩大了认知拓展能力。从行业应用的角度,数据思维把业务问题描述为数据分析需求,把数据分析规划为一个具有业务可行性的数据应用的能力。

在不同应用场景中,大数据发挥价值的途径不同。以工业设备为例,有些设备是标准化或参数化产品,有些设备是高度定制化的产品;有些设备工作相对独立,有些设备与其他系统强耦合。在不同情形下,设备大数据分析的价值途径不同,如表1-5所示。

表1-5 不同情形下设备大数据分析的价值途径

大数据的作用还体现在专家经验的精准化方面。工业中存在大量的操作经验和运行经验,有些经验比较模糊,只能靠语言和实践来掌握,有些经验可以用自然语言或专家规则表达出来,但仍存在歧义且不够定量,造成理解不一致。工业大数据有能力将部分经验明确化、定量化和标准化,形成结构化的模型,并可接受大量案例的检验,以提高经验的传承效率。虽然结构化模型可能会损失一部分经验信息,但结构化后,传递效率才能提高。在大数据时代,数据还有可能成为知识经验和技能的新载体,推动基于数据模型的知识共享和技能赋能,可提升生态组织开放合作与协同创新能力。

在微观层面,思维模式还体现在不同技术背景的人身上。工业大数据实践通常是操作技术(Operational Technology,OT)、数据技术(Data Technology,DT)、信息技术(Information Technology,IT)的3T融合。对同一个问题,OT专家与DT专家会从不同视角来审视,OT专家从机理角度,可以给出很多先决性研判或猜想;DT专家从数据统计的角度,可以给出数据上的现象表征。二者的不一致,可以让很多隐含或忽略的假设明确化。对OT专家来说,数据提供了一些额外的认识世界、验证猜想、分析问题的工具手段。

在工业数据分析项目中,机理模型与数据分析有3种结合方式(见图1-6):① 有大量先验知识的课题,首先,明确OT的经验和假设,通过数据检验,形成有用的特征,接着,数据分析建模进一步定量化;② 数据驱动的课题,基于统计假设进行建模,在分析结果或现象解读时,融入OT专家的认知或经验,进一步提升模型结果;③ 数据驱动的课题,但存在前人的模型,这时做的是尽快用前人模型在新数据上运行,进行结果解读,然后再改进模型。另外,在这些计划中的执行模式外,通常存在很多“意料之外”的分支,在分析数据的过程中,存在临时发现的一些新课题,这些新课题发现的前提是对数据敏感性与领域认知的结合。

图1-6 机理模型与数据分析的3种结合方式

在数据分析项目中,欢迎专家直觉但更喜欢直觉背后的“研判依据”,尽管直觉或研判依据不一定完备或正确,但直觉触发了跨领域讨论的可能,“研判依据”给出了数据探索的思路,经过数据的检验和跨领域的推理讨论,不断追寻数据现象背后的要素和关系,形成相对完备和自洽的动力学关系图。

但数据思维自身并没有完全解决知识积累与传承的问题。在知识积累方面,从数据中自动学习的机器学习模型蕴含了知识,但通常为黑箱知识,缺乏演绎能力,与既有的形式化理论框架或领域专家的概念体系并不能无缝衔接,也就是说,还需要领域专家的解读、逻辑思考与验证工作,才能纳入既有知识框架体系。另外,物理过程的关键要素是否在大数据中有体现,在实际应用中也是需要校验的。在工业场景下,数据思维与专家知识的融合是一个待研究的课题。