Hadoop大数据开发实战
上QQ阅读APP看书,第一时间看更新

2.1 云平台

2.1.1 了解云平台

读者应该听过阿里云、百度云、京东云等云产品信息,这就是我们常说的云计算,那么大数据和云计算是什么关系呢?实际上,大数据平台软件需要部署在云平台提供的服务器主机上,云计算是大数据的坚实基础。有了云计算,大数据平台才可以稳定、快速地运行。

云产品会为客户提供灵活的服务器主机配置方案。以阿里云为例,客户可以根据自己的需求,在阿里云上选择自己所需的服务器台数,以及每台服务器的配置等。那么,阿里云是如何做到的呢?很简单,阿里云购买了很多台服务器,并在这些服务器上安装了云平台软件,比如VMware、Docker等。然后利用这些云平台软件在每一台物理机器上虚拟化出多台虚拟服务器(也叫虚拟机),进而为客户提供灵活的服务器配置,就好像在阿里云可以定制各种各样不同类别的物理主机一样。

也就是说,通过云平台软件,在一台或者多台配置较高的服务器上虚拟化出更多台普通服务器,这种方式和购买多台物理主机的计算、存储性能的效果是完全一样的。

2.1.2 安装VMware软件

接下来,请把手里的笔记本电脑看成一台独立的物理主机,我们要在这台独立的物理主机上安装云平台软件VMware,进而虚拟化出3台独立的物理主机,这样就可以搭建Hadoop分布式集群环境了。

一台或者两台服务器无法组成集群,集群至少需要3台服务器。目前,百度、腾讯等一线互联网公司已经达到了万台集群的规模,携程、去哪儿、苏宁等企业的集群也已有了近千台的规模。而对于我们初学者,搭建一个3台服务器的集群就可以了。

如果你的操作系统是Windows 7,则可选择VMware 10版本;如果操作系统是Windows 8/10,则可选择VMware 12版本。VMware的安装过程与其他软件类似,这里不再赘述。