云服务器运维之Windows篇
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.1.3 运维实践

2.1.3.1 整机维度实践

在Windows服务器运维的整机维度实现方面,推荐以下方案:

(1)采用云盘。采用云盘可以在Windows服务器上实现类似于微软故障转移集群迁移的效果(该效果一般由平台触发),相当于拥有了支持在线迁移的“共享存储”功能(不具备多路径功能)。

(2)定期快照策略:有了云盘,同时就具备了快照功能。快照是整机维度运维的灵魂。根据业务重要性,兼顾成本来设计快照的周期尤为重要。阿里云上提供了比较完整的快照策略设置方法。在Windows服务器场景下建议尽可能在每个月的第二周及第四周的周二的UTC时间17:00~18:00前做一次快照,因为这个时间段微软会进行补丁推送,补丁下发到云厂商的更新服务器上大致也是在这个时间段。很多服务器可能因此会进入更新周期,若刚好是业务高峰期,可能影响业务。在快照场景下如果影响业务,可以立即恢复快照。阿里云创建快照策略界面如图2-2所示。

• 变更前快照策略:正如“定期快照策略”所述,Windows服务器有着特殊的补丁更新机制,且大部分补丁非热补丁(无法做到在线不关机升级)。然而补丁更新后会直接变更某些系统核心文件,对于稳定性来说存在较大风险,在确保安全的情况下建议每次进行Windows服务器变更(比如补丁更新)前都进行一次快照,当因为变更导致系统异常时可进行回滚,从而保证运维SLA。

• 滚动镜像迭代:镜像更新体现了“母盘思维”。操作系统的快速部署、快速恢复都离不开镜像。特别是在扩容场景下,鉴于Windows服务器的闭源性以及变更复杂度,建议每次完成平台级变更时都进行镜像的更新,以便于下一次的快速部署与恢复。而阿里云OOS提供的镜像更新功能就可以很好地轻量迭代镜像,如图2-3所示。

图2-2 阿里云创建快照策略界面

图2-3 阿里云OOS提供的镜像更新功能

2.1.3.2 系统维度实践

相对于整机维度,系统维度比较单一,一般从三个角度出发进行落地:

• 状态:建议使用阿里云云监控的事件告警功能,该功能提供了较为完善的事件列表,初始设计时可以以全部严重级别事件来进行告警,如图2-4所示,然后在日常运营过程中根据实际情况逐步收敛告警。

图2-4 云监控事件告警

• 性能:状态维度类似布尔值(是与否),而性能维度类似数值(涉及阈值),关于这一层面的落地会在Windows服务器监控一节详细描述。

• 安全:安全维度在Windows服务器运维领域容易被忽略,而阿里云则提供了一个比较便利的方式来构建Windows服务器安全屏障,阿里云云安全中心的Windows系统漏洞界面如图2-5所示。

图2-5 阿里云云安全中心的Windows系统漏洞界面

2.1.3.3 业务维度实践

由于业务维度从可用性角度来说与Linux无异,这里重点阐述变更类的运维,在业界可选的业务维度运维的产品很多,包含很多自动化、批量化脚本下发工具,但是其标准化成本很高,导致Windows服务器业务运维的成本呈现指数级增长。而在云上的Windows服务器运维比传统环境下的业务运维体验要好得多,这里以ECS为例,运维编排服务提供了基于Windows Powershell的命令下发功能,如图2-6所示。

图2-6 运维编排服务

相比于Windows服务器的计划服务,运维编排服务提供平台级的运维下发服务,基本排除了系统本身的影响,提高了业务级的运维能力,与Windows服务器自带的计划任务、组策略等系统级运维方式相辅相成。

此外,除了批量操作方面实现变更的运维,日常的Windows服务器运维排障也建议采用一定的运维手段来进行监控(将在2.2.3.1节中详述)。

2.1.3.4 底层维度实践

底层维度的运维实践主要是建立系统事件(比如内部系统崩溃时的告警)与平台事件的优先级。一般来说,平台事件优先于系统事件,因为底层传递的信息会比系统内传递的信息纬度更高、更加精准,虽然在感知灵敏度上比系统本身的告警要低一些,但是综合考虑,平台事件更具备可运维性,也减少了大量的排障成本。平台事件的入口如图2-7所示。

图2-7 平台事件

除了平台事件的设置(可参考2.1.3.2节相关告警设置),对于底层维度运维来说,对控制台面板的关注尤为关键,建议按以下步骤设置Windows服务器面板:

(1)对于所有Windows服务器类型的ECS进行打标(如统一加标签“Windows服务器”)。

(2)对于所有Windows服务器类型的ECS进行云监控中的应用分组。

(3)在企业内部创建的ECS规范中声明好创建Windows服务器ECS应选择的标签与应用分组。

ECS的控制台面板支持通过标签进行检索,但缺点是只能进行分地域查看,若要实现全地域查看,可以使用“资源组”功能,将Windows服务器归入同一资源组中,然后在资源管理器中进行状态检查,实现底层运行状态观察与运维(如微软公司提供的System Center Operations Manager解决方案)。

2.1.3.5 SLA维度实践

Windows服务器的SLA可用性运维可以通过多种方式在云平台落地,从云上的角度出发,这里有两个实践建议:

(1)安全可用性:阿里云直接提供了“安全基线”功能,定期进行基线检查即可从平台维度保证安全方面的SLA不下降,如图2-8所示。

(2)探活可用性:在2.1.3.3节中讲到提前对Windows服务器做应用分组,这不仅可在云监控中发挥作用(2.4节会详细讲到),还可以针对应用分组进行可用性监控(路径为“云监控”→“应用分组”→单击对应应用分组即可进入对应分组的可用性监控设定界面),如图2-9所示。

图2-8 基线检查

图2-9 “创建可用性监控”界面