智能工业报警系统
上QQ阅读APP看书,第一时间看更新

1.3 工业现场的突出问题及原因分析

报警系统对保障安全生产与高效运行发挥着至关重要的作用,然而在目前国内外已投入使用的报警系统中,普遍存在着“报警过多、处理困难”的突出问题。表1.1给出了英国工程设备和材料用户协会(EEMUA)推荐的被广为接受的工业标准和对国外不同工业领域的调查结果对比[12]。其中,EEMUA推荐的工业标准是每小时平均报警数不超过6次(即24h平均报警数不超过144次),该标准是依据运行人员对每个报警进行正确处理的平均时间至少是10min来制定的。然而表1.1所示的数据表明,工业现状离这个标准差距甚远。虽然我国尚未见到相关的正式调查结果,但经过对电力、石化等多家生产企业的实地调查,发现我国工业现状与该标准的差距比表1.1所示的可能更为严重。以我国某300MW燃煤发电机组2013年1月~2013年12月的报警数据为例,24h的平均报警数是7843次,1h内最大报警次数是2299次,10min内最大报警数是483次。在这些大量的报警中,一部分是由于噪声或生产波动产生的干扰报警,这些报警会自行出现或消除,因此运行人员不需要对干扰报警做出任何的反应动作;另一部分是由于多个过程变量之间存在关联关系,导致生产过程的某一种异常状态在短时间内(如10min)引发了大量的报警,被称为报警泛滥现象(alarm flood),这些报警包含了很多正确报警,生产运行人员必须对正确报警做出相应的操作动作,如调整阀门开度、启停某台设备等。

表1.1 EEMUA标准与实际工业统计结果对比

“报警过多、处理困难”的突出问题会引发严重后果,导致报警系统部分甚至完全丧失对安全生产与高效运行应有的保障作用:一方面由于存在大量的干扰报警,不仅不利于运行人员及时发现正确报警问题,更会造成运行人员长期忽视报警信息,不信任甚至关闭报警系统;另一方面在报警泛滥出现时,即使大部分报警都是正确的,由于报警数目过多,超过运行人员处理报警的能力,也会使得运行人员无法从报警系统中获得信息,这就等同于报警系统不存在!此类案例层出不穷:例如,1994年7月24日英国Texaco公司炼油厂的爆炸事故,雷雨天气使工厂受到较强的外部干扰,在生产过程波动5h后,催化裂化装置发生了爆炸事故,导致26人受伤和4800万英镑的巨大损失。由英国健康安全执行局出具的事故调查结果指出[13],在爆炸事故发生前共出现高级别报警1775次,特别是在爆炸事故发生前的11min内共出现275次报警。报警优先级设计明显不合理、报警次数过多等问题使得运行人员无法正确判断生产装置运行状态,这是没有及时消除生产过程的波动导致事故发生的主要原因之一;再例如,2016年8月11日14时49分湖北省当阳市马店矸石发电有限责任公司热电联产项目在试生产过程中,2号锅炉高压主蒸汽管道上的“一体焊接式长径喷嘴”裂爆,导致发生一起重大高压蒸汽管道裂爆事故,造成22人死亡,4人重伤;又例如,2019年7月19日17时43分河南省三门峡市河南省煤气(集团)有限责任公司义马气化厂C套空分装置发生重大爆炸事故,造成15人死亡、16人重伤,爆炸产生冲击波导致175人轻伤,直接经济损失高达8170万元。

目前的报警系统普遍存在着“报警过多、处理困难”的突出问题,从报警设计与消除的角度分析导致这些问题的主要原因如下:

1)报警变量配置缺乏科学性、不必要的报警变量多。在DCS、SCADA等现代化监控系统出现之前,每个报警都是通过硬连接线的方式实现的,硬件成本很高(大约为1000美元),因此每个生产装置配置的报警数目是30~50个,而且每个报警变量的配置都经过慎重的论证。而在当前的DCS、SCADA等现代化监控系统中,添加一个报警变量只需要软件配置而没有其他成本,所以被认为是“免费”的。因此,只要认为有必要监控一个过程变量或一个生产状况时,就可以轻易地设置相应的报警变量,而且一个过程变量可以通过不同配置生成多个报警变量,因此报警的数目急剧增加。例如,从原来的150个硬连接线报警增加到DCS中的14000个报警[14]。再以我国某300MW燃煤发电机组为例,在DCS中监测的过程变量总数是7328个,其中配置的报警变量总数是1836个。经过调查表明,只有少部分报警变量是在燃煤发电机组的规划设计阶段确定的,有相应的记录文档给出引发报警的异常状况、配置报警的理由等信息;而大部分报警变量是在调试运行过程中添加的,这些报警变量的配置缺乏科学性,包括对配置报警的必要性、报警优先级别、报警阈值等重要设计因素都未进行科学规划与论证,这是导致现有报警系统中报警数目过多的根本原因。

2)报警阈值设计缺乏与相关变量的关联。在DCS、SCADA等现代化监控系统中,大部分的报警是将过程变量的当前值与报警阈值进行比较而产生的(见图1.1),然而目前的报警阈值设计都是孤立的,仅基于自身的过程变量来设计,没有考虑与相关过程变量的关联关系。在现代工业的生产过程中,几乎每个生产装置都存在多个被监控的过程变量,它们彼此之间存在着密切的关联关系,共同表征了该生产装置的运行状况,因此这些过程变量是相互影响的,共同构成了一个高维度的几何空间,代表了生产装置的正常工作区域。以图1.3所示为例,由于两个过程变量存在相互关联关系,其正常工作区为图1.3所示的区域A,因此两个过程变量的报警阈值是相互影响的,而且是随着两个过程变量的当前值变化而动态变化的;而在目前的报警系统中,这两个过程变量的报警阈值是单独设计、静态的,构成了一个矩形区域(见图1.3所示点画线矩形区域)。这导致某些正常工作点(如图1.3所示星号标记点)会引发误报警,严重影响报警系统的性能,更危险的情况是某些异常工作点(如图1.3所示圆圈标记点)会被报警系统遗漏,产生漏报警,使得运行人员无法及时注意生产装置的异常状况。特别值得注意的是,由于DCS、SCADA等监控系统需要对构成正常工作区域的过程变量进行单独监控,因此每个过程变量都必须有各自的报警变量和报警阈值[5,9,12];与之相对,基于多元统计分析的故障检测或统计过程控制方法是对过程变量进行组合或约减,形成T2统计量等新变量,为新变量设计相应的报警阈值进行监控,这无法满足报警系统对构成正常工作区域的过程变量进行单独监控的要求。

图1.3 高效工作区A、正常工作区B、异常工作区C的示意图

3)干扰报警多、判断难。由于工业大系统中外界环境、原料成分、公用工程等外部因素的变化,生产过程经常受到较强的外部干扰,导致过程变量存在较大的随机性和不确定性。这种随机性和不确定性使得报警呈现了多个类别,包括在报警状态与正常状态之间快速切换的抖动报警(chattering/fleeting alarm)、以固定周期重复出现的周期报警(cycling/repeating alarm)、长期保持在报警状态的持续报警(standing/stale alarm)、生产运行状态与报警设计不匹配导致的状态报警(state-based alarm)等[12,15]。在这些不同类别的报警中,很多报警属于干扰报警,会自行出现和消除,不含有用信息,不代表生产过程真正偏离了正常运行区域,因此运行人员不需要对干扰报警做出任何的反应动作。但是,由于这些干扰报警可导致严重后果,因此非常有必要判断哪些报警是干扰报警,并衡量干扰报警的严重程度,必要时对生成报警的报警器重新设计,以减少干扰报警的未来发生次数。然而,干扰报警的类别多,而同一类干扰报警可能具有不同的特征,因此难以判断。例如,抖动报警的出现经常是由于过程变量在报警阈值附近受到噪声或外部干扰的影响,然而流量、压力等过程变量的变化速度较快,温度、液位等过程变量的变化速度较慢,因此不能采用相同的报警持续时间(如5s)来判断不同的过程变量所出现的报警是抖动报警或是正确报警。由于干扰报警难以判断,目前的报警系统对出现的报警不加以区分,直接将报警呈现在报警列表或操作界面上。

4)报警传播广、判断其根源难度大。生产装置经常会遇到不同种类的异常状况,因此一个报警可由多种异常状况引发,而且这些异常状况可能单独出现,也可同时出现,这无疑加大了处理报警的难度。更为复杂的情况是,在现代化工业过程中,由于多个生产装置之间存在着物料、信息、能量的传递关系,因此一处异常可引发更大范围的报警(即当某个生产装置出现异常状况时),可能引发连锁反应,类似多米诺骨牌效应,使得与之相关的其他生产装置出现异常状况,导致在短时间内大量的过程变量出现报警(即引发报警泛滥现象)。例如,发电机组的汽包水位报警,其原因就涉及主蒸汽流量、汽包压力、给水流量、传感器故障等多个影响因素,而且汽包水位的异常波动会直接影响汽轮机等下游装置,也会由于闭环控制的存在,直接影响汽动给水泵、电动给水泵、除氧器、高低压加热器、凝汽器等多个上游装置,可在短时间内引发多个报警。由于多个异常状况的存在及上下游装置的互相影响,生产过程的运行人员通过人工方式单凭经验判断报警根源的难度大且不可靠,因此迫切需要科学技术手段辅助判断,以缩短判断时间,提高判断的准确性。