1.1 云存储概述
云存储技术蕴含在云计算技术的发展历程之中,云计算技术的发展及网络的大幅提速,为云存储的发展与普及提供了技术支持。互联网、物联网、移动互联网等技术的快速发展,引发了数据规模的爆炸式增长和数据模式的高度复杂化,传统存储方式越来越无法满足用户对大容量、易扩展、低价格的存储资源的需求,进一步激发了云存储技术的发展和应用。2006年3月,亚马逊推出简易存储服务(Amazon Simple Storage Service,Amazon S3),正式开启了云存储的服务模式。随着云存储技术的不断突破和云存储服务的广泛普及,云存储已经逐步成为未来数据存储的发展趋势。
1.1.1 云存储的概念
云存储(Cloud Storage)是在云计算概念的基础上延伸和发展出来的一个新的概念[1],是一种典型的云计算应用。云存储系统是一个以数据存储和管理为核心的云计算系统,通过互联网、虚拟化、集群等技术,将大量的、廉价的、不同类型的存储设备通过应用软件连接起来协同工作,共同对外提供数据存储和业务访问服务,实现由存储设备向存储服务的转变。云存储服务是云存储系统提供的数据访问服务,使用户能够在任意时间、任意地点,通过任何连网的设备连接到云存储系统中,进行方便、快速的数据存取。
1.1.2 云存储的特征
和传统存储模式相比,云存储不仅具备按需自助服务、泛在的网络访问、位置无关资源池、快速伸缩能力、可被测量的服务这五个云计算的基本特征,还具备分布式并行扩展、分层存储、多重冗余容错、透明服务等特征。
(1)分布式并行扩展。在云存储中,当存储空间不足时,可采用分布式并行扩展架构,通过横向增加主机和存储设备的方式,动态、灵活、按需地扩展存储资源,以便有效分散数据并提高整个存储系统的I/O性能。
(2)分层存储。根据数据的重要性和访问频率,采用分层存储的方式进行数据存储。将经常访问的数据存储在存取速度快但成本较高、容量较小的存储介质中,将历史数据或归档数据存储在存储速度慢但成本低、容量大的存储介质中,并能在不同存储介质间自动迁移数据,既能满足用户在访问速度和存储容量方面的需求,又能节省存储成本。
(3)多重冗余容错。云存储采用多重冗余容错技术,创建多个数据副本,并对数据进行编码纠正,将数据分布在不同的存储设备上,确保数据不会丢失,从而提高数据的容错性和可靠性。
(4)透明服务。云存储对用户提供完全透明的存储服务,用户无须知道数据的存储方式、存储位置和存储设备类型,只需使用连网设备便可随时随地地获取云存储服务。
1.1.3 云存储系统的架构
与传统的存储系统相比,云存储系统是一个由存储设备、网络设备、服务器、应用程序、公共访问接口等多个部分组成的复杂系统,对外提供数据存储和业务访问服务。云存储系统的结构模型[2]如图1.1所示。
图1.1 云存储系统的结构模型
(1)数据存储层。数据存储层是云存储系统的基础,它将不同类型的存储设备连接起来,基于虚拟化技术对存储设备进行抽象,将所有存储空间集成到存储资源池中,实现从物理设备到逻辑视图的映射,同时实现对存储设备的集中管理、状态监控以及容量的动态扩展。云存储系统的存储设备往往数量庞大且分布于不同地域,彼此之间通过广域网、互联网或光纤通信网络连接在一起。
(2)数据管理层。数据管理层是云存储系统的核心,通过集群系统、分布式系统、文件系统和网格计算等方式,实现多存储设备之间的协同,统一提供对外服务。此外,利用内容分发、数据压缩、数据去冗、使用计费等技术提供高性能的数据存储服务,并通过数据加密、数据备份和数据容灾等技术保证数据安全。
(3)数据服务层。数据服务层是云存储系统中直接面向用户的部分。根据用户需求,开发不同的API接口并提供相应的云存储服务,如数据存储服务、空间租赁服务、公共资源服务、多用户数据共享服务、数据备份服务等。
(4)用户访问层。用户访问层是云存储系统的应用接口,云存储系统根据访问对象的不同提供不同的访问类型和访问手段。通过访问该层,授权用户可以在任何地方登录云存储系统,使用云存储服务。
1.1.4 云存储系统的优势
和传统的存储系统相比,云存储系统具有多方面的优势:
(1)灵活性。云存储系统具有高度的灵活性,用户可以根据需要定制相应的存储服务和资源,云存储服务商可以按照用户需求来部署相应的存储能力、资源和服务。
(2)可靠性。云存储系统以完善的容灾备份机制将数据进行多次冗余存储,从而保障了云存储系统的高可靠性。即使发生系统硬件故障或意外删除云存储系统中的数据,也不会影响云存储系统的使用,保证用户能从灾难中快速恢复,保持业务的连续性。
(3)可扩展性。云存储系统具有高可扩展性,可以动态地满足用户在不同场景、不同时间段对存储资源的需求。即使在很难事先估算所需系统容量的情况下,也可以动态地扩展存储资源以满足用户的不同要求。
(4)数据集中存储。云存储系统是一种大规模、集中化的存储基础设施,和企业本地数据中心相比能够提供更大规模的数据存储资源。这种集中化的存储基础设施能够帮助用户实现海量数据的集中存储,提高分析处理效率,并进行统一防护和监控。
(5)成本低。云存储系统的应用不仅为用户降低信息系统建设初期投资,同时也降低了运营开销。在初期投资方面,从硬件来看,云存储系统取代了传统企业的专有数据中心,用户无须进行一次性投入,包括数据中心的营建、硬件设备的购置和定期更换等,而是直接使用云中的存储资源;从软件来看,云存储提供的“按使用付费”的计价模型能降低企业的IT成本,并提供有效的服务。在运营开销方面,云存储系统不仅可以省去用户对硬件资源的长期运营成本,还可以帮助用户实现对存储资源和数据的动态管理与自动化管理,减少用户的运营开销,从而获得更高的效率和灵活性。
1.1.5 云存储的类型
根据云存储服务的部署方式,云存储分为公有云存储、私有云存储和混合云存储三种类型。
(1)公有云存储。公有云存储是指存储基础设施由某一组织所拥有,面向公众或某一行业提供云存储服务的部署模式。在公有云存储中,用户所需的服务由独立的第三方云存储服务商提供,该云存储服务商也同时为其他用户服务,这些用户共享云存储服务商所拥有的资源。亚马逊、微软、谷歌、阿里云、腾讯云、华为云等典型云存储服务商均提供公有云存储服务。一般中小型企业和创业公司出于降低成本和快速部署的考虑会优先选用公有云存储,普通个人用户一般也选用公有云存储来保存个人数据。
(2)私有云存储。私有云存储是指某个企业或组织专有的云存储系统。在私有云存储中,用户是这个企业或组织的内部成员,这些成员共享该云存储系统所提供的所有资源,企业或组织以外的用户无法访问这个云存储系统。通常,对数据安全性要求较高的企业或组织机构会优先选用私有云存储,如政府部门、金融机构、医疗机构等。
(3)混合云存储。混合云存储是两种或两种以上存储方式(传统存储、公有云存储、私有云存储)的结合,通常采用以传统存储系统或私有云存储为主、以公有云存储为辅的模式。混合云存储既能提供私有云存储的安全性,也能够提供公有云存储的开放性。通过使用混合云存储,企业或组织可以根据数据的重要程度、业务需求及应用程序对网络延迟和带宽的要求,对数据进行分类,分别部署在企业或组织内部和公有云存储系统中,如在传统存储系统或私有云存储中存储敏感数据、高频访问数据、快速访问数据等,在公有云存储中来完成数据归档、备份、灾难恢复等工作。
根据云存储系统中数据存储和数据访问方式的不同,可将云存储分为块存储、文件存储和对象存储三种类型。
(1)块存储。块存储通过SCSI(Small Computer System Interface,小型计算机系统专用接口)、SAS(Serial Attached SCSI,串行连接SCSI)或FCSAN(Fibre Channel Storage Area Networking,光纤存储区域网络)将大量的磁盘设备与存储服务器连接起来,向应用系统的数据库或文件系统提供原始块存储空间,典型的存储架构包括DAS(Direct Attached Storage,直连式存储)和SAN(Storage Area Networking,存储区域网络)。块存储适用于应用系统跟存储系统耦合程度紧密的情况,应用系统通过高带宽、低延迟、可靠的光纤网络存储访问协议访问存储设备,可获得高速、稳定、可靠的数据访问。块存储的性能最优,但不利于扩展,数据不能被共享。
(2)文件存储。文件存储通过标准的POSIX文件系统接口(如Open、Read、Write、Close等)提供海量非结构化数据存储空间,典型的存储架构为NAS(Network AttachedStorage,网络附属存储)。文件存储系统的可扩展性好、价格低、用户易管理,如目前在集群计算中应用较多的NFS(Network File System,网络文件系统)。但由于文件存储的协议开销高、带宽低、读写速度慢,不利于在高性能集群中应用。常见分布式文件存储系统有Lustre、GlusterFS、HDFS等。
(3)对象存储。对象存储即键值存储,提供面向互联网的简单存储服务,访问接口简单,通过HTTP请求中的PUT、GET、DEL和其他扩展命令即可进行文件操作。对象存储的核心是将数据通路和控制通路分离,基于对象存储设备构建存储系统,每个对象存储设备能够自动管理其上的数据分布。对象存储兼顾了块存储的高读写特性和文件存储的共享性,一般用来存储长期的静态数据。对象存储不支持在线修改和扩展,适合在云环境中进行大规模的非结构化数据的存储。常见的对象存储系统有Ceph的RADOS、OpenStack的Swift等。
1.1.6 云存储的发展现状
目前,全球云存储发展日趋成熟,云存储的总体市场规模逐步扩大,云存储已经步入相对成熟的产业发展时期。
1.1.6.1 云存储的产业发展
近年来,数据规模的快速增长催生了对云存储产业的巨大需求。据IDC统计,2017年,以IaaS、PaaS、SaaS为代表的全球云存储行业市场规模为307亿美元,预计2022年将增长至889.1亿美元,年复合增长率高达23.7%[3]。其中,在IaaS云存储市场方面,由于IaaS云存储对规模及技术要求极高,未来仍将保持以亚马逊、微软、谷歌、阿里巴巴等云计算巨头为主的局面。在PaaS云存储市场方面,一方面IaaS服务商通过自身建设或投资PaaS云存储企业向PaaS云存储快速延伸;另一方面新兴的PaaS云存储企业的快速发展,使得PaaS云存储呈现出爆发式增长。在SaaS云存储市场方面,全球SaaS云存储企业目前还处于不断变化阶段,尚未形成显著特点,发展潜力巨大。
在发展趋势方面,随着产业链的日益完善,云存储市场逐渐进入差异化竞争阶段。用户对云存储服务能力的要求更加具体,在不同业务场景中对云存储服务的安全支持、弹性扩展、集成、升级和变更等特性的选择偏好不同。云存储服务商开始在用户规模大小、垂直行业特点、细分领域需求等多个维度结合自身资源,更准确地定位自身业务范围及市场用户主体,云存储行业竞争趋向差异化。
1.1.6.2 云存储的应用发展
云存储基础设施经过数年的探索和积累,已经日益成熟。云存储服务商开始大力拓展云存储应用市场,包括个人应用、企业应用、行业应用等。
(1)个人应用。由于云存储具备容量大、易访问、价格低等优势,人们逐渐将日常工作和生活中产生的文档、图片、音频、视频等电子文件存放至云存储平台中,使得个人云存储应用发展迅速。典型的产品如亚马逊Cloud Drive、微软SkyDrive、苹果iCloud、Google Drive、Dropbox及百度网盘、金山快盘、腾讯微云、360云盘等。
(2)企业应用。很多企业出于降低成本和快速部署的考虑,也逐步从自建存储系统转向使用公有云存储服务,使得企业级云存储应用迅速崛起。在国外,亚马逊、微软、谷歌等云存储服务商巨头占据主导地位,Dropbox、Box等新兴企业竞争激烈。在国内,阿里云、腾讯云、百度云、华为云等大型云存储服务商占据主要市场,七牛云、青云、亿方云等初创企业也快速发展。
(3)行业应用。由于云存储能够在数据资源整合、业务创新等方面带来明显效用,越来越多的传统行业开始采用云存储应用。出于数据安全性考虑,多数行业云存储应用主要以自建私有云存储系统为主,如政务、金融、医疗、电子商务、工业等行业。
云存储不仅能够为众多的个人应用、企业应用和行业应用提供便捷的存储服务,同时也是大数据、物联网、移动互联网、人工智能等新兴技术发展的重要基石,未来具有广阔的发展和应用前景。