1.1.1 云计算
云计算是指通过从云端来获取所需要的服务内容,所谓“云端”就是指网络资源。一般来说,“云”中的资源是可以无限扩展的,使用者可以随时按需获取和使用这些资源,也可以随时扩展资源内容,然后按照对资源的使用情况付费。由于云计算的这种特性类似于日常生活中的水电资源服务,因此它也被称作IT基础设施。
如果将云计算的概念扩大化,把它扩张到服务领域,那么所有通过网络来满足用户需求并且易扩展的服务都可以称作云计算,这种服务可以是互联网相关的硬件、软件,也可以是存储、下载等其他服务。
云计算的典型应用就是苹果iCloud。在iCloud上,苹果用户不仅可以上传各种资料以节省硬盘空间,还能够同步不同苹果设备中的文件、日程等,如果用户在某一台设备上对云端的资料进行了修改,iCloud还能够帮助用户同步到其他苹果设备并对旧文件进行备份以备用户需要。iCloud为用户提供了免费的5 G云端硬盘空间,如果用户有需求,可以付费扩容并享受更多服务。
从iCloud的使用模式可以看出,云计算服务提供了一种分布式架构——多个智能终端共同同步云端资料,而大数据的应用处理必然无法依靠单独的计算机,必须使用分布式架构,因此云计算刚好能够为大数据处理提供便利条件。
从技术上看,大数据和云计算的关系就像一枚硬币的正反两面一样相辅相成、密不可分。依托云计算的分布式架构和云端存储、虚拟化技术,大数据能够充分发挥它对海量数据的挖掘能力。从整体上看,云计算为大数据处理提供了计算资源的底层架构,是上层数据分析处理软件的基础。
那么,云计算为何能够帮助大数据将庞大的数据信息转化成经济效益呢?这里主要包括以下四个方面的原因,如图1-1所示。
图1-1 云计算帮助大数据的具体表现
1.作为提取大数据的前提
在数据量不断增长的信息社会,获得足够多的数据才是企业从大数据中获得利益的前提。而想要提取出大数据,来自于各种云端强大的云计算能力必不可少。云端不仅为提取大数据提供了足够的硬盘空间,还能够以较低的成本提取尽量多的数据资源,这一点在大数据产品普遍偏贵的条件下显得尤为重要。
2.过滤无效数据
在大数据的初次收集中,有接近90%的数据属于无效数据,这是由互联网数据本身的特点决定的。既然无法保证数据全部有效,那么就必须找到一种技术过滤掉无效数据。一般来说需要重点过滤掉的无效数据有两大类,一是大量的临时缓存信息,二是公司防火墙外的网络数据。
由于云计算可以按照需求进行扩展计算和存储资源,所以经过一定的设计后云计算就可用来过滤这些无效数据,常见的公有云就是用于过滤来自公司防火墙外部的无效网络数据的最佳工具。
3.可高效分析数据
云计算能够为大数据计算提供分布式软件处理方式,用以高效快速地进行数据分析。如果将公有云和私有云结合,就可以在数据分析完成后利用私有云将数据分析结果导入公司内部,方便公司进行下一步的运营决策。
4.助力企业管理虚拟化
随着市场更新的速度也来越快,企业管理模式也追求突破有形界限的虚拟化管理,希望在有限的资源条件下实现资源效率的最大化。由于云计算就是硬件资源的虚拟化,因此当企业运用大数据分析结果指导决策时,如果加上云平台的使用,就能够通过云端应用决策指导所需软件,将决策顺利转化到企业现有的管理系统中,助力企业管理虚拟化。
从美国国家标准与技术研究院对云计算的定义来看,云计算是一种按使用量付费的服务模式。由于它能够快速为用户提供资源,减少交互所需步骤和时间,用于计算时能够实现每秒1014次的运算速度,可用来模拟核爆炸、预测市场等。
从用途上看,云计算的应用潜力和大数据不谋而合,云计算与大数据如同手心手背的关系,二者相辅相成。云计算的存在,为大数据技术挖掘数据背后的价值提供了平台。
简单来说,大数据拥有三层架构体系,包括数据存储体系、数据处理体系和数据分析体系。数据存储体系是大数据收集并存储数据资源的支撑;数据处理体系包括无效数据的过滤和基础建模等工作;数据分析体系则会根据具体情况做出结论预测,产生相应价值。
云计算能够从存储到处理再到分析给大数据技术提供全面的技术支持,云计算的并行计算和分布式计算能力都在大数据体系中具有不可或缺的重要作用。除了技术层面,云计算还能够利用其分布式架构的特点,极大地降低企业在挖掘数据背后价值时的成本投入。
云计算通过自身和大数据的重合特点以及强大的运算能力为大数据技术提供了发展的平台。虽然云计算概念比大数据概念提出得早,但正是大数据的出现让云计算的优势有了发挥的空间。与此同时,云计算和大数据结合也为大数据提供了牢固的基石,让大数据能够在技术上充分发挥数据的价值。