国产基础软件集群平台技术与应用
上QQ阅读APP看书,第一时间看更新

1.3.2 操作系统高可用集群

本小节主要介绍操作系统高可用集群的概念、架构设计和特性。

1.概念

操作系统高可用集群具备低成本、高扩展和易维护的特点,能够为用户提供高性价比的可用性方案,适用于数据库、业务应用、核心后台等关键业务领域。

操作系统高可用集群通过采用资源轮询监控、节点在线拓展和节点强制隔离等多项核心技术,有效提升应用的可用性。此外,集群管理员可以通过远程管理界面管理集群,减少运维压力。

2.架构设计

操作系统高可用集群架构如图1-2所示。

图1-2 操作系统高可用集群架构

操作系统高可用集群主要由以下三大组件构成。

用户管理组件。

用户管理组件包含命令行和图形化两大功能模块,主要用于连接集群进行管理。

集群核心组件。

集群核心组件包括策略模块、资源管理模块、节点管理模块和隔离模块等。

集群通信组件。

集群通信组件包括通信模块、加解密模块,负责集群底层通信和通信加解密,是集群的基础结构。

3.特性

操作系统高可用集群的主要特性有以下几点。

(1)资源轮询监控。

操作系统高可用集群采用定时轮询的技术来监控服务资源的运行,轮询频率可以根据用户需求进行调整,平衡高可用性和性能开销。资源轮询监控不需要对应用程序进行修改。

(2)节点在线扩展。

当集群采用组播或广播模式工作时,新节点只需配置好对应的网络参数,即可通过自动协商方式加入对应集群,无须停机更新,保障了业务连续性。同样,也能够采用自动协商的方式实现离线。

(3)Split-brain保护。

脑裂(Split-brain)是指集群内节点间的心跳出现故障,无法保持集群内数据一致性,并且各节点还处于Active状态的情形。在Split-brain环境下,多个节点会同时接管服务,存在数据不一致的风险。

操作系统高可用集群针对Split-brain情形,使用如下几种技术手段来保持数据一致性。

1)集群仲裁:适用于多节点集群(对双节点集群不适用),通常采用投票方式实现。集群内每个节点持有特定票数(如给每个节点设置一票),当原集群分裂为多个子集群时,票数最多的子集群获得资源运行权,票数少的子集群被强制隔离。如果所有子集群票数都低于原集群票数的一半,那么任何子集群都无法运行资源,整个集群停止工作,保障数据安全。

2)节点强制隔离:当节点因仲裁或其他原因需要进行强制隔离时,使用远程电源开关、智能平台管理接口(Intelligent Platform Management Interface,IPMI)或远程管理控制卡等方式来切断或重置节点电源,使其无法继续工作。

3)存储强制隔离:当节点因仲裁或其他原因需要进行强制隔离时,使用光纤交换机、存储控制卡等硬件设备,断开数据访问通道,保障数据安全。