云数据中心智能管理
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.4 云数据中心的机遇与风险

2.4.1 机遇

大数据又称为巨量资料,指只有在新处理模式下才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据的特色在于,对海量数据进行分布式数据挖掘,但它必须依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术。随着云时代的来临,大数据正吸引着越来越多的关注。云数据中心则是云计算的基础设施,服务器资源分配、带宽分配、业务支撑能力、流量防护和清洗能力都是基于云数据中心大小和其带宽容量的。云数据中心分布在不同的核心城市,并向周边城市提供基础支撑,其一般都符合国家机房一级标准,具备极强的容灾能力,多数厂商都会采用两地三中心等方式来架设机房。云计算是在云数据中心基础上提供的从基础服务到增值服务的一种闲置资源利用[18]

当前,越来越多地区从云数据中心迁移到更靠近正在处理的数据源的边缘位置。将计算能力提供给网络的边缘端,以提高应用程序和服务的性能和可靠性,降低运营成本。通过缩短设备与为其提供服务的云资源之间的距离,以及减少网络跳数,提高应用和服务的性能和可靠性,降低运行成本。边缘计算减弱了当今互联网的时延和带宽限制,引入了新的应用类别。

物联网技术和支持人工智能的应用需要在边缘进行计算,这会影响未来云数据中心的建设规模与位置。随着边缘计算的兴起,更多小型云数据中心将建设在靠近城市和商业区等人口密集的地方。由于迅速增长的边缘应用需要更强的计算能力和更大的存储空间,因此将其置于现有的基础设施上很合适。

2.4.2 风险

基于云计算“动态云”的特性,云数据中心的主要风险可归纳如下[19]

1. 资源和数据外包

企业的资源和数据置于共享公共网络之上,企业边界之外。由于云计算这种新兴的服务模式将资源的所有权、管理权及使用权进行了分离,因此用户失去了对物理资源的直接控制权,会面临与云服务商协作等安全问题。同时,越来越多的数据存于“云”中,这意味着存在越多的数据被滥用的可能。如果是不重要的数据,那么企业对其关注度不会太大;如果是机密数据,属于企业隐私,那么这些资料被盗对企业的打击非常大。这也是很多企业至今不敢尝试云计算的原因。

2. 云计算服务商的可靠性

在理想情况下,云计算服务商不会破产或被一家较大的公司收购和吞并,但必须确保数据在发生了此类事件后仍能继续使用。要询问可能的云计算服务商,怎样才能要回数据,数据格式是否可以让用户导入替代的应用中。

3. 多租户环境

数据在云中通常是处在一个和其他客户共享数据的环境中。加密虽然是有效的,但并不是万能的,因此客户需要了解自己的数据在休眠时是否进行了隔离。云计算平台上集成了多个租户,多租户之间的信息资源如何进行安全隔离,以及服务专业化引发的多层转包导致的安全问题等都需要进行考虑。

4. 动态的信任边界

企业的信任边界是动态的,企业无法确定信任边界的变动情况。客户在使用云计算时,可能无法确切地知道数据到底被托管在什么地方。事实上,客户甚至可能不知道这些数据存放在哪个国家。数据可能遍布在不断变化的一组主机和云数据中心中。

5. 缺乏透明性

云计算服务商的安全控制和实施缺乏透明性,大多数云计算服务商在服务水平协议、管理功能及安全责任等领域都缺乏透明度。例如,云计算服务软件的漏洞对云计算用户来说并不是透明的,这就阻碍了用户对与漏洞相关运行风险的管理。

6. 云计算管理标准缺乏

云计算服务商面临各种不同的IT流程控制和管理需求,包括外部需求和内部需求。可以通过联合的合规工作处理所有这些需求,同时使用更加统一和有策略的方法,提高效率并满足合规性,实现不同云计算间的无缝互通。而目前各类云计算标准还很缺乏,企业改变云服务商非常困难。

即使著名的云计算服务商,也会有不好过的日子。从持续数小时的服务器中断到客户数据的丢失,意外的云灾害已经为很多常见的云计算服务商带来了严重打击。近年来,云数据中心风险实例如下。

2011年4月,某云计算服务商的云数据中心宕机,数千家商业客户的业务受到影响,故障持续4天之久,可以说这是一场严重的宕机事件。经调查,造成此次事故的主要原因是,在修改网络配置进行主网络升级扩容的过程中,工程师不慎将主网的全部数据切换到了备份网络上,而备份网络带宽较小,承载不了所有数据,导致了网络堵塞,所有“块存储”节点通信全部中断,从而存储数据的MySQL数据库宕机。

2012年圣诞节前夕,AWS的弹性负载均衡服务出错,导致Netflix停机。AWS因此收获了一大堆不满意的顾客,这些顾客曾指望能通过流媒体服务度过一个不错的圣诞节。2014年,Netflix在AWS升级期间重启了218个产品节点,其中22个重启失败了[20]

2014年11月18日,由于软件更新、性能增加,Azure存储服务发生了大规模断电。同年12月,国内一家知名游戏公司遭遇了全球互联网史上最大的一次DDoS攻击,攻击时长为14小时,攻击峰值流量达到每秒453.8GB。这家知名游戏公司遭遇了两波DDoS攻击,第一波从2014年12月20日19点左右开始,一直持续到次日凌晨;21日,黑客发起第二波大规模攻击。两波攻击时长共14小时。在某云服务商提供的云安全防护产品“云盾”,以及该游戏公司的“超级盾防火墙”的作用下,该游戏公司成功抵御了这次严重的DDoS攻击[21]

2016年5月9日,Salesforce的硅谷NA14实例脱机,导致其断电超过24小时。随着客户不断丢失数据,业务损失不断扩大。从那之后,Salesforce将其大部分工作都转移到了AWS上。2016年6月30日,Office 365的客户发现,他们的电子邮件服务持续脱机超过了12小时。

2017年2月28日,一位AWS工程师试图调试Amazon弗吉尼亚数据中心的S3存储系统,但输入了一个错误指令,导致许多互联网平台(如Slack、Quora和Trello等)宕机4小时。Amazon在事件后分析表示,该员工当时打算将一小部分用于计费过程的托管子系统服务器删除。然而,错误指令导致了更多的服务器脱机,包括为数据存储功能提供特定请求所需的一个子系统和另一个分配新存储空间的子系统。Amazon拥有约三分之一的全球云市场,这次宕机事件重新引发了关于公共云的风险论。

2018年6月27日,阿里云运维失误,用户访问阿里云官网控制台和使用部分产品功能出现问题。阿里云在官方声明中表示,故障是人为造成的,新功能在上线时触发了未知代码故障。错误代码禁用了部分内部IP,导致部分产品访问链路不通。幸运的是,阿里云这次故障并未殃及客户业务。

2019年3月2日,Rostelecom-Solar的网络安全专家追踪到针对俄罗斯企业的大规模网络攻击。这次攻击使用物联网设备,尤其是路由器,攻击者伪装成欧尚、马格尼特、斯拉夫尼奥夫等50多家知名公司发送钓鱼电子邮件,对公司员工进行勒索攻击。追踪被攻击的网络设备要比追踪被攻击的服务器困难得多,并且使用物联网设备进行攻击更简单,对入侵者来说更安全。专家表示,任何能够发送电子邮件的设备,如调制解调器、路由器、网络存储器、智能家居生态系统和其他工具,都可以用于网络钓鱼攻击[22]