从运维菜鸟到大咖,你还有多远II:企业数据中心建设及管理
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

二、剖析故障原因

半个月后,Tom又回到华东数据中心,这时候,张老师和配合他做专项检测的团队已经在现场折腾了两天,今天他们向委托方做他们检测结果的总结报告会,Tom专程赶来参加。

会议开始,张老师没有直接讲结论,而是先给大家普及了一下系统性故障的概念。

所谓“系统性故障”,是指系统中经常出现设备运行不正常的故障现象,这些异常现象包括供电、制冷、安全监控、IT等设备发出某种报警信号,或者是IT系统出现运行错误、IT系统信号传输错误等,而这些异常故障恢复后,又发现所有与故障相关的设备都正常。系统性故障常常是随机性的,因而很难查找原因。

徐帅听着有点懵,问道:“就是有时候出现问题,但又不容易找到问题的原因,是这样吗?”

Tom开玩笑地说出他对于系统性故障的理解:“就是和人体一样,亚健康状态,浑身不舒服,但又没有具体的问题。”

张老师就像老中医。中医认为人体的很多问题都是系统问题导致的,需要从本源来解决。所以某些设备奇怪的问题,后面也许存在更深层的系统性问题。

张老师讲到事故原因的本身:“这个故障从表象看是UPS设备或UPS操作引起的问题,实际的原因似乎更复杂。我推断有可能是零地接线方面的问题。所以请检测团队针对这个事故重点对UPS-2和相关的布线做了逐条逐点的检查,结果发现了两个问题。”

“第一个问题:接线错误。由图2-1(a)中可以看出,2N供电系统的零线交叉了,A路UPS-1提供的火线使用了B路UPS-2提供的零线,反之,B路UPS-2提供的火线使用了A路UPS-1提供的零线。这倒也无所谓,因为整个系统零线是接在一起的,所以6年来系统运行正常。”

“第二个问题:布线设计错误。在图2-1(a)中,两台UPS的零排并不是零线的终点,而是零线的转接点,这是布线方法错误。一般系统的零排和地排都配置在不易故障和故障时不用拆除整个设备的配电柜中,而UPS是可靠性相对低、生命周期相对短的设备,只能做和地线零线的终端设备,而不能在此类设备中转接零线和地线。这个布线设计错误,违反了系统可修复的原则。但是,即便如此,这个错误本身也不影响系统运行。”

“当UPS厂商断开UPS-2输入输出开关,拆除已停机的UPS-2时,零线也同时断开了,如图2-1(b)所示,于是就形成机柜群中由A路UPS-1供电的服务器输入端只有三相相线输入,而中性线悬空,380V线电压按各相所带服务器数量和阻抗分配,输入电源过压的服务器自然就烧毁了。”

徐帅问道:“所以布线设计错误,把UPS作为中性线的转接点,一旦拆除UPS,相当于这个转接点就没有了,导致中性线悬空,这是故障的直接原因?”

张老师说道:“是的。大部分数据中心的错误都是两项以上问题的叠加导致。比如这个布线设计错误,一般情况下并不会影响系统正常运行,所以这么多年运营下来,你们都不会觉得有问题。当然,这个机房是好多年前建设的,当时的测试验证估计也不是很深入全面,所以没有发现这个问题,但它终究是个隐患。如果没有这次UPS拆除,这个‘雷’永远不会被触发。”

徐帅叹到:“真倒霉,当时要是不换UPS就没这事了。”

张老师说:“话也不能这么说。设计原则是要求UPS设备只能做中性线的末端,不能做转接,就是考虑到UPS的生命周期要比数据中心短,所以在数据中心生命过程中大概要更换一次UPS的。所以你们出这个事故既可以说是偶然,也可以说是一种必然。”

Tom补充道:“老外喜欢说‘It’s not if,it’s when’,真的是有道理,不是不报,时候未到。”

张老师随后展示了正确的接线方法,如图2-2所示。

图2-2 正确的布线和接线方法

但是徐帅表示还没有理解为什么零线断开会导致服务器受损,于是张老师接着讲了UPS系统工作原理。

图2-3所示为三相供电系统对单相负载供电时,三相系统中性线断开后的电路状态原理图。

图2-3 三相系统的中性线断开时对单相负载的影响

在图2-3中,输入为三相系统,两组IT设备分别接在三相电源的A、B两相上,每个IT设备的输入都是220V,而两相输入之间的电压差是380V。在交流输入线电压正常的情况下,如果由于某种原因造成零线断开,电路状况如下。

假定A相电压UA在正半周,B相电压UB在负半周,电流的途径是:UAD1→负载1→D2D3→负载2→D4UB

于是,UAB为380V电压加在负载1和负载2上,对于负载而言,三相电源的零线断开,就意味着中性线浮动,三相电源就会进入不平衡状态。不平衡程度与负载的不平衡有直接关系,其结果如下。

①负载1和负载2的负载量相等,分别加电压380V/2=190V。

②负载1和负载2的负载量不相等,380V按阻抗比分配电压。

③负载1和负载2的负载量极端不平衡,380V几乎加在一路负载上,负载电源直流母线电压由310V升高至540V,此路会严重过压。

由此可以得出,当中性线断开时,IT设备会因过压或欠压而不能正常运行,导致设备故障停机保护,甚至设备因过压而烧毁。

当中性线漏接、虚接或四线转换开关转换的瞬间,都可能出现相线接通而零线断开的状态,并瞬间影响甚至损坏单相供电的设备。

张老师接着说:实际上,UPS系统也需要注意中性线断开的影响。

在数据中心供电系统中,UPS是专为IT设备供电的,UPS输出三相电压,而IT负载大部分是单相供电的。

图2-4所示为UPS供电系统三相电源配电示意图。

图2-4 UPS供电系统三相电源配电示意图

这里要说明的有以下3点。

(1)双输入IT设备也是单相电源负载。尽管当前的IT设备大都是双电源输入,且通过机架PDU可做到保证双输入是来自三相电源的两相,但IT设备中的两个开关电源是独立工作的,只要一个开关电源因过压而损坏,就可认为该设备故障,何况一个开关电源损坏严重,如起火,就会使整个IT设备损坏。

(2)UPS输出三相负载量是不平衡的。布线工程师通过列头柜和机架PDU对三相电源负载量做了初步的平衡,但是不平衡是绝对的,一是每个列头配电柜带的机架数不确定,每个机架输入两相,所以三相电源输入的机架数是不相等的;二是每个机架的配电量虽然相同,但实际负载量因设备功能不同和设备数量不同差别很大。

当UPS输出的中性线断开时,可能导致下面的影响。

①双电源输入的IT设备两个输入电压,或过压,或欠压。

②三相电源输入的IT设备(如小型机),因输入三相电压不平衡而工作不正常。

最后,交流输入系统三相电源中性线断开时,也会造成影响。这里说的交流输入的负载包括以下几种类型。

①三相负载:UPS、空调等。

②单相设备:照明、三相设备(包括UPS、空调、油机等)控制系统的自用电源。

③其他单相电源设备。

这里要说明的有以下两点。

(1)三相电源的单相负载也是不平衡的。

①三相设备负载基本上是平衡的。

②由于业务上线时间和服务器实际负载与设计不会完全一致,因此末端配电列头柜的三相负载并不是基本平衡的,甚至三相负载严重不平衡。

(2)交流输入三相电源中性线断开的影响。

如果三相系统中性线断开,由于三相负载的不平衡,加在负载上的三相电压就进入不平衡状态,其结果如下。

①UPS、空调等三相设备,因输入三相电压不平衡而工作不正常。

②单相设备因三相电源电压不平衡,输入电压或过压,或欠压。

③单相输入的三相设备控制系统自用电源,单相输入的或过压,或欠压;同时选用三相电压做单相输入的,整流后的直流母线取决于最高单相电压,进入过压状态。

张老师说,其实你们也不是第一个被中性线断开故障害苦的人,我给你们讲两个案例。

案例1:油机零线断开造成三相系统零线断开

某数据中心,交流输入主供电是电网市电,备用交流能源是柴油发电机。市电与发电机转换配置的是4P ATS,当市电故障时,自动启动柴油发电机,待柴油发电机启动正常后,ATS自动切换,由于配置的是4P ATS,因此同时切换三相线电压和中性线,如图2-5所示。

图2-5 案例1交流输入接线系统

由图2-5中可以看出,方案设计者没有把柴油发电机的输出中性线直接接地,而是通过一个开关接到系统地上。维护人员是要对柴油发电机做定期维护保养的,在一次维护保养中打开了中性线接地开关,但维护结束后忘记恢复,这样一来,柴油发电机的零线就处于悬空状态。

某一天,市电突然中断,油机自动启动,待油机输出正常后,转换开关ATS自动转换,ATS同时切换了三相相线和中性线,因为中性线是悬空的,所以加在供电系统交流输入端的只有三相相线。由于交流输入供电的设备繁杂,三相负载极端不平衡,造成中性线严重漂移,首先危及的是小功率的单相负载,机房中有30%的照明损坏,少数UPS设备和空调设备的控制系统损坏。

案例2:市电与油机转换ATS设备瞬间零线断开造成油机油路控制系统损坏

某银行数据中心,交流输入电路如图2-6所示。

图2-6 某银行数据中心供电系统交流输入示意图

此系统已建成并投入使用,但在一次油机启动切换演练时出现异常情况。

当时,运维人员先是检查油机状态,并做小负荷(外加电阻性负载)轻载运行0.5小时,检查结果是运行正常,电气参数和物理参数都符合要求。然后做模拟电网市电掉电,启动油机切换演练。运维人员切断电网市电输入开关,市电掉电后,油机自动启动,运行稳定电气参数符合要求后,ATS自动切换,供电系统交流输入恢复正常,但几秒钟后油机出现异常并停机。

故障出现后,运维人员和在现场的油机厂商技术人员对油机和整个供电系统做了仔细的检查,发现油机油路控制器PLC损坏。

用户请来业内专家与运维人员和油机厂商工程师一起对事故过程和事故原因做了详细的讨论及分析,结果如下。

①油机轻载运行一切正常。

②市电掉电后,油机启动和切换过程也正常,只是在油机进入正常运行几秒后才发生故障。

③故障发生最大的可能性是:ATS是4P的,在转换时,可能存在相线接通而中性线滞后接通的可能性,在此过渡时间内,中性线悬空,三相电压因三相负载不平衡而失去平衡,380V线电压按每相负载量分配,油机油路控制器PLC为单相输入,当该相负载较轻时,就会出现高于220V的过电压而损坏。

④本故障不排除油机油路控制器PLC存在质量问题的可能性。

⑤交流输入系统中还有其他单相负载,是否也受到过电压影响,应进一步检查。

⑥建议把ATS转换开关的中性线节点短接,ATS切换时,只切换相线,不切换中性线。

此案例的启示如下。

(1)ATS转换开关的触点动作存在行程时间,4个触点动作时间并不一致,很可能出现先接通相线后接通中性线或先断开中性线后断开相线的现象,这无异于三相系统的中性线断开,必然威胁到单相负载的安全。

(2)切换中性线的本意是对油机系统和市电系统隔离,在油机是共用设备的场合,切换中性线是必需的。但是若油机是数据中心专用的,像UPS与配电柜一样都是数据中心供电系统的一个设备,则不必隔离。也就是说,油机与市电的转换开关用3P的ATS,只切换相线就可以了。

Tom和他的团队听完张老师的分析,深为佩服。看来要设计建设好数据中心,要求的专业技能很深。而要运营好数据中心,也需要能够掌握关键的要点,否则都难以判断故障的方向。通过张老师对于问题的深度剖析,他们才算把隐患彻底搞明白,也理解了原理。

好不容易请来张老师,借此机会请张老师讲了一堂课。张老师针对这次的主题,讲了零地线布局设计及安装存在的系统性风险。