大数据采集与处理
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.1.3 Hadoop发行版本

1社区版

Hadoop社区版是一款支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。Hadoop根据Google(谷歌)发表的MapReduce和Google档案系统的论文自行制作而成。

社区版本优点如下:

(1)完全开源免费。

(2)社区活跃。

(3)文档、资料翔实。

缺点如下:

(1)复杂的版本管理。版本管理比较混乱,各种版本层出不穷,让很多使用者不知所措。

(2)复杂的集群部署、安装、配置。通常按照集群需要编写大量的配置文件,分发到每个节点上,容易出错,效率低下。

(3)复杂的集群运维。对集群的监控、运维,需要安装第三方的其他软件,如Ganglia、Nagios等,运维难度较大。

(4)复杂的生态环境。在Hadoop生态圈中,组件(如Hive、Mahout、Sqoop、Flume、Spark、Oozie等)的选择、使用,需要大量考虑兼容性的问题,如版本是否兼容、组件是否有冲突、编译是否能通过等,经常会浪费大量的时间去编译组件,解决版本冲突问题。

2第三方发行版

Hadoop第三方发行版遵从Apache开源协议,用户可以免费地任意使用和修改Hadoop,也正是出于此原因,市面上出现了很多Hadoop版本。有很多厂家在Apache Hadoop的基础上开发自己的Hadoop产品,如Cloudera的CDH、Hortonworks的HDP、MapR的MapR产品等。第三方发行版的优点如下:

(1)基于Apache协议,100%开源。

(2)版本管理清晰。例如,Cloudera、CDH1、CDH2、CDH3、CDH4、CDH5 等,后面加上补丁版本,如CDH4.1.0 patch level 923.142,表示在原生态Apache Hadoop 0.20.2基础上添加了1065个补丁。

(3)与Apache Hadoop相比,在兼容性、安全性、稳定性上有所增强。第三方发行版通常都经过了大量的测试验证,有众多部署实例大量地运行在各种生产环境中。

(4)版本更新快。例如,CDH每个季度会有一次更新,每年会有一个版本。

(5)基于稳定版本Apache Hadoop,并应用了最新修复或补丁。

(6)提供了部署、安装、配置工具,大大提高了集群部署的效率,可以在几个小时内部署好集群。

(7)运维简单。提供了管理、监控、诊断、配置修改的工具,管理配置方便,定位问题快速、准确,使运维工作简单、有效。