1.4.6 持续运营
云平台提供的资源与服务均有SLA,云主机的SLA通常为99.95%,用户构建的业务系统都是基于云资源和云服务的SLA,在此之上构建可用性、可靠性更高的业务系统。对于自身业务系统,也需要制定SLA来表明服务可用性或其他指标,制定了用户业务的SLA后,就可以按照SLA阈值来设置高可用限流值,综合评估整体业务的服务可用性和数据可靠性,并指定故障应急措施。
在持续运营中会对云资源、云服务、事件及用户的应用进行监控,并设置告警,在达到告警条件时,通过电话、短信、邮件、钉钉、微信等方式通知相关人员,将告警交给回调函数,可实现自动化故障处理或相应的应急预案,减少人工介入。
应该在架构设计的每一层进行监控与告警,包括对云资源、事件、应用运行状况的全方位监控。对于用户自定义的需要监测的资源与服务,需要配置合理有效的告警策略来及时发现异常情况。通过Advisor实现云平台巡检,持续监测资源的变化,持续定期评估业务架构,及时发现业务架构是否还匹配业务需求。
此外,还需要具备自动化响应及处理功能,自动伸缩能够通过监控CPU等指标自动扩容或缩容云主机数量;通过定时器固定周期扩容或缩容云主机数量。实现事件驱动响应,由事件消息触发执行脚本、回调函数等操作,实现智能运维,根据事件和告警自动触发运维操作,编排运维脚本,通过智能运维的方式来减少人工运维。
及时发现消费及业务成本的变化,并对成本进行优化。设置账户余额告警值,避免快速消费,实现成本控制。评估资源使用时长,将按时计费的资源转变为按月、按年计费,优化资源的使用。通过Advisor中建议的成本优化释放没有使用的EIP,根据CPU等指标来减少云主机数量或降低云主机配置,云主机处理对象存储时通过内网进行访问,减少外网访问的流量费用。通过多云部署实现成本优化,综合多个云平台的资源价格选择资源,选用较优的组合方案,通过其他云平台更低单价的竞价实例云主机来处理OLAP的业务。