2.3.4 完全分布式安装_大数据采集与处理-QQ阅读男生轻小说网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

2.3.4　完全分布式安装

完全分布式用多个节点构成集群环境来运行Hadoop，对Linux 机器集群进行规划，使Hadoop 各模块分别部署在不同的多台机器上，环境配置信息如表2-1所示。

表2-1　环境配置信息

1．环境准备

这里采用先在第一台机器上解压、配置 Hadoop，然后再分发到其他两台机器上的方式来安装集群。

（1）解压Hadoop 目录，代码如图2-62所示。

图2-62　解压Hadoop目录

（2）配置Hadoop JDK 路径，修改Hadoop-env.sh、mapred-env.sh、yarn-env.sh 文件中的 JDK 路径，代码如图2-63所示。

图2-63　配置Hadoop JDK路径

（3）配置core-site.xml，代码如图2-64所示。

图2-64　配置core-site.xml

（4）设置fs.defaultFS的参数值为NameNode的地址。

Hadoop.tmp.dir为Hadoop临时目录的地址，默认情况下，NameNode 和 DataNode 的数据文件都会存在这个目录的对应子目录下。应该保证此目录是存在的，如果不存在，则先创建。

（5）配置hdfs-site.xml，代码如图2-65所示。

图2-65　配置hdfs-site.xml

dfs.namenode.secondary.http-address 指定 secondaryNameNode 的 http 访问地址和端口号。因为在规划中，我们将 BigData03 规划为secondaryNameNode 服务器，所以这里设置为bigdata-senior03:50090。

（6）配置slaves，代码如图2-66所示。

图2-66　配置slaves

slaves 文件指定 HDFS 上有哪些 DataNode。

（7）配置yarn-site.xml，代码如图2-67所示。

图2-67　配置yarn-site.xml

根据规划，yarn.resourcemanager.hostname指定ResourceManager 服务器指向BigData-senior02。

yarn.log-aggregation-enable设置是否启用日志聚集功能。

yarn.log-aggregation.retain-seconds设置聚集的日志在 HDFS 上最多保存多长时间。

（8）配置mapred-site.xml，代码如图2-68所示。

图2-68　配置mapred-site.xml

mapreduce.framework.name 设置MapReduce任务运行在YARN上。

mapreduce.jobhistory.address设置MapReduce的历史服务器安装在BigData01机器上。

mapreduce.jobhistory.webapp.address 设置历史服务器的Web页面地址和端口号。

2．设置SSH无密码登录

Hadoop集群中各机器之间会相互通过 SSH 访问，因为每次访问都输入密码是不现实的，所以要设置各个机器间的SSH 是无密码登录的。

（1）在BigData01上生成公钥，代码如图2-69所示。

图2-69　生成公钥

一路回车，都设置为默认值，然后在当前用户的Home目录下的.ssh目录中会生成公钥文件（id_rsa.pub）和私钥文件（id_rsa）。

（2）分发公钥，代码如图2-70所示。

图2-70　分发公钥

（3）设置BigData02、BigData03 到其他机器的无密钥登录。

同样，在 BigData02、BigData03 上生成公钥和私钥后，将公钥分发到三台机器上。

3．分发Hadoop文件

（1）在其他两台机器上创建存放Hadoop的目录，代码如图2-71所示。

图2-71　创建存放Hadoop的目录

（2）通过SCP分发。

SCP分发代码及结果如图2-72所示。Hadoop根目录下的share/doc目录下存储的是Hadoop相关文件，这个doc目录占用的硬盘空间相当大，一般在1.5GB以上，建议在分发之前将这个目录删除，以节省硬盘空间并提高分发的速度。

图2-72　SCP分发代码及结果

4．格式化NameNode

在 NameNode 机器上执行格式化，代码如图2-73所示。

图2-73　格式化NameNode

注意：

如果需要重新格式化NameNode，则先将原有NameNode和DataNode 下的文件全部删除，不然会报错。在core-site.xml文件中，dfs.namenode.name.dir、dfs.datanode.data.dir属性字段可分别设置为NameNode和DataNode的目录路径值。

core-site.xml配置信息如图2-74所示。

图2-74　core-site.xml配置信息

每次格式化都默认创建一个集群ID，并写入NameNode和DataNode的VERSION文件（VERSION文件所在目录为dfs/name/current和dfs/data/current）中，重新格式化时，会默认生成一个新的集群ID，如果不删除原有目录，则会导致NameNode中的VERSION文件中是新的集群ID，而DataNode中是旧的集群ID，不一致时会报错。

另一种方法是格式化时指定集群ID参数，指定为旧的集群ID。

5．启动集群

（1）启动HDFS，代码及结果如图2-75所示。