Hadoop高可用集群如何搭建

本篇内容介绍了“Hadoop高可用集群如何搭建”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！

创新互联成都网站建设按需策划，是成都网站建设公司,为木包装箱提供网站建设服务,有成熟的网站定制合作流程，提供网站定制设计服务：原型图制作、网站创意设计、前端HTML5制作、后台程序开发等。成都网站建设热线：18982081108

一、集群规划

共5个节点，主机名分别是hadoop101、hadoop102、hadoop103、hadoop104、hadoop105
初始启动集群，hadoop101上运行active namenode即主namenode；hadoop102上运行standby namenode即从namenode

每个节点运行的进程如下表

机器名	运行进程
hadoop101	NameNode/zkfc/Zookeeper/Journalnode/DataNode/NodeManager
hadoop102	NameNode/zkfc/Zookeeper/Journalnode/DataNode/NodeManager
hadoop103	Zookeeper/Journalnode/DataNode/NodeManager
hadoop104	ResourceManager
hadoop105	ResourceManager

二、五节点Hadoop HA搭建

准备5台虚拟机，在做五节点hadoop-2.7.3 HA安装之前，要求完成每台虚拟机的环境准备。

1. 虚拟机环境准备

举一反三：参考安装3节点hadoop-2.7.3集群时，在解压hadoop-2.7.3.tar.gz压缩包之前的操作；李老师之前已经讲过，不再赘述）

mac安装VMWare虚拟化软件
VMWare下安装CenoOS7 虚拟机关闭防火墙禁用selinux 配置虚拟网卡配置虚拟机网络安装JDK 配置时间同步修改主机名修改ip地址修改/etc/hosts 各节点免密钥登陆重启虚拟机

2. 安装zookeeper集群

hadoop101、hadoop102、hadoop103上安装zookeeper集群

3. 五节点Hadoop HA搭建

注意：
此文档使用普通用户操作，如bruce；hadoop安装到用户主目录下，如/home/bruce请根据自己的实际情况修改

3.1 解压hadoop压缩包

在node-01上解压hadoop压缩包到用户主目录(**~**表示用户主目录/home/bruce)

[daniel@hadoop101software]$ tar -zxvf hadoop-2.7.3.tar.gz -C/opt/moudle/

3.2 修改hadoop-env.sh

hadoop2.x的配置文件全部在$HADOOP_HOME/etc/hadoop下

[daniel@hadoop101 moudle]$ cd hadoop-2.7.3/etc/hadoop/

修改hadoop-env.sh；保存退出

export JAVA_HOME=/usr/java/jdk1.8.0_211-amd64

注意：JAVA_HOME值修改为自己jdk的实际目录

3.3 修改core-site.xml

注意：情况一：值/home/bruce/hadoop-2.7.3/tmp根据实际情况修改情况二：值node-01:2181,node-02:2181,node-03:2181根据实际情况修改，修改成安装了zookeeper的虚拟机的主机名




fs.defaultFS
hdfs://ns1



hadoop.tmp.dir
/opt/moudle/hadoop-2.7.3/tmp



ha.zookeeper.quorum
hadoop101:2181,hadoop102:2181,hadoop103:2181

3.4 修改hdfs-site.xml

注意：
情况一：属性值qjournal://node-01:8485;node-02:8485;node-03:8485/ns1中的主机名，修改成实际安装zookeeper的虚拟机的主机名情况二：属性值/home/bruce/hadoop-2.7.3/journal中”/home/bruce/hadoop-2.7.3”替换成实际hadoop文件夹的路径情况三：属性值/home/bruce/.ssh/id_rsa中/home/bruce根据实际情况替换




dfs.nameservices
ns1



dfs.ha.namenodes.ns1
nn1,nn2



dfs.namenode.rpc-address.ns1.nn1
hadoop101:9000



dfs.namenode.http-address.ns1.nn1
hadoop101:50070



dfs.namenode.rpc-address.ns1.nn2
hadoop102:9000



dfs.namenode.http-address.ns1.nn2
hadoop102:50070



dfs.namenode.shared.edits.dir
qjournal://hadoop101:8485;hadoop102:8485;hadoop103:8485/ns1



dfs.journalnode.edits.dir
/opt/moudle/hadoop-2.7.3/journal



dfs.ha.automatic-failover.enabled
true



dfs.client.failover.proxy.provider.ns1
org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider



dfs.ha.fencing.methods

sshfence
shell(/bin/true)




dfs.ha.fencing.ssh.private-key-files
/home/daniel/.ssh/id_rsa



dfs.ha.fencing.ssh.connect-timeout
30000

3.5 修改mapred-site.xml

重命名文件

[daniel@hadoop101 hadoop]$ mv mapred-site.xml.template mapred-site.xml
[daniel@hadoop101 hadoop]$ vim mapred-site.xml

修改mapred-site.xml




mapreduce.framework.name
yarn

3.6 修改yarn-site.xml

注意：
情况一：属性yarn.resourcemanager.hostname.rm1的值node-04根据实际情况替换情况二：属性yarn.resourcemanager.hostname.rm2的值node-05根据实际情况替换情况三：属性值node-01:2181,node-02:2181,node-03:2181根据实际情况替换；替换成实际安装zookeeper的虚拟机的主机名




yarn.resourcemanager.ha.enabled
true



yarn.resourcemanager.cluster-id
yrc



yarn.resourcemanager.ha.rm-ids
rm1,rm2



yarn.resourcemanager.hostname.rm1
hadoop104


yarn.resourcemanager.hostname.rm2
hadoop105



yarn.resourcemanager.zk-address
hadoop101:2181,hadoop102:2181,hadoop103:2181


yarn.nodemanager.aux-services
mapreduce_shuffle

3.7 修改slaves

node-01、node-02、node-03上运行了datanode、nodemanager，所以修改slaves内容替换为：

node-01
node-02
node-03

3.8 远程拷贝hadoop文件夹

说明：~表示用户主目录

scp -r ~/hadoop-2.7.3/ node-02:~
scp -r ~/hadoop-2.7.3/ node-03:~
scp -r ~/hadoop-2.7.3/ node-04:~
scp -r ~/hadoop-2.7.3/ node-05:~

3.9 配置环境变量

node-01到node-05五个节点，都配置环境变量

#将hadoop添加到环境变量中
vim ~/.bash_profile

添加内容如下（注意：若HADOOP_HOME已经存在，则修改）：

export HADOOP_HOME=/home/bruce/hadoop-2.7.3/
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

编译文件，使新增环境变量生效

source ~/.bash_profile

4. 启动与初始化hadoop集群

**注意：**严格按照下面的步骤先检查各台hadoop环境变量是否设置好

4.1 启动zookeeper集群

注意：根据zookeeper实际安装情况，启动zookeeper

分别在node-01、node-02、node-03上启动zookeeper

[daniel@hadoop101 zookeeper-3.4.2]$ bin/zkServer.sh start
[daniel@hadoop102 zookeeper-3.4.2]$ bin/zkServer.sh start  
[daniel@hadoop103 zookeeper-3.4.2]$ bin/zkServer.sh start

查看状态：一个为leader，另外两个为follower

[daniel@hadoop101 zookeeper-3.4.2]$ bin/zkServer.sh status
JMX enabled by default
Using config: /opt/moudle/zookeeper-3.4.2/bin/../conf/zoo.cfg
Mode: leader

4.2 启动journalnode

分别在node-01、node-02、node-03上执行

[daniel@hadoop101 hadoop-2.7.3]$ hadoop-daemon.sh start journalnode
[daniel@hadoop102 zookeeper-3.4.2]$ hadoop-daemon.sh start journalnode 
[daniel@hadoop103 zookeeper-3.4.2]$ hadoop-daemon.sh start journalnode

运行jps命令检验，node-01、node-02、node-03上多了JournalNode进程

4.3 格式化HDFS

#根据集群规划node-01、node-02上运行namenode；所以只在主namenode节点即node-01上执行命令:

[daniel@hadoop101 hadoop-2.7.3]$ hdfs namenode -format

4.4 拷贝hadoop.tmp.dir

格式化后会根据core-site.xml中的hadoop.tmp.dir属性值/home/bruce/hadoop-2.7.3/tmp，并生成此文件夹

Hadoop高可用集群如何搭建

将/home/bruce/hadoop-2.7.3/tmp拷贝到node-02的/home/bruce/hadoop-2.7.3中

[daniel@hadoop101 hadoop-2.7.3]$ scp -r tmp/daniel@hadoop102:/opt/moudle/hadoop-2.7.3/

4.4 格式化ZK

在node-01上执行即可

[daniel@hadoop101 hadoop-2.7.3]$ hdfs zkfc -formatZK

4.5 启动HDFS

只在主namenode节点node-01上执行

[daniel@hadoop101 hadoop-2.7.3]$ sbin/start-dfs.sh

4.6 启动YARN

4.6.1主resourcemanager

注意：只在主resourcemanager即node-04上执行start-yarn.sh
把namenode和resourcemanager部署在不同节点，是因为性能问题，因为他们都要占用大量资源坑：在node-04上启动yarn之前，先依次从node-04 ssh远程连接到node-01、node-02、node-03、node-04、node-05；因为初次ssh时，需要交互，输入yes，回车

[daniel@hadoop104 hadoop-2.7.3]$ sbin/start-yarn.sh

4.6.2 从resourcemanager

在从resourcemanager即node-05上启动rm

[daniel@hadoop105 hadoop-2.7.3]$ yarn-daemon.sh start resourcemanager

5. 验证集群是否可用

5.1 验证HDFS HA

5.1.1 访问WEB UI

node-01、node-02一主一备

http://node-01:50070

Hadoop高可用集群如何搭建

http://node-02:50070

Hadoop高可用集群如何搭建

5.1.2 模拟主备切换

在主namenode节点，运行

[daniel@hadoop102 hadoop-2.7.3]$ hadoop-daemon.sh stop namenode

访问之前为"备namenode"的WEB UI；发现状态更新为active

Hadoop高可用集群如何搭建

启动刚才手动停掉的namenode

hadoop-daemon.sh start namenode

访问它的WEB UI，发现状态更新为standby

Hadoop高可用集群如何搭建

5.2 验证Yarn HA

node-04、node-05主备切换

5.2.1 访问WEB UI

node-04浏览器访问

[http://hadoop104:8088/cluster/cluster](http://hadoop104:8088/cluster/cluster)

Hadoop高可用集群如何搭建

node-05浏览器访问

[http://hadoop105:8088/cluster/cluster](http://hadoop105:8088/cluster/cluster)

Hadoop高可用集群如何搭建

5.2.2 模拟主备切换

在主resourcemanager节点，运行

[daniel@hadoop105 hadoop-2.7.3]$ yarn-daemon.sh stop resourcemanager

访问之前为"备resourcemanager"的WEB UI；发现状态更新为active

Hadoop高可用集群如何搭建

启动刚才手动停掉的resourcemanager

[daniel@hadoop105 hadoop-2.7.3]$ yarn-daemon.sh start resourcemanager

访问它的WEB UI，发现状态更新为standby

Hadoop高可用集群如何搭建

5.2.3 运行MR示例

运行一下hadoop示例中的WordCount程序：

hadoop fs -put /home/bruce/hadoop-2.7.3/LICENSE.txt /
hadoop jar hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount /LICENSE.txt /w0727

6. 集群常用命令

6.1 关闭Hadoop HA集群

正确指令执行顺序如下

主namenode上运行

stop-dfs.sh

主resoucemanager上运行

stop-yarn.sh

从resoucemanager上运行

yarn-daemon.sh stop resourcemanager

关闭zookeeper集群；每个zk服务器运行

zkServer.sh stop

6.2 常用命令

单独启动namenode

hadoop-daemon.sh start namenode

单独启动datanode

hadoop-daemon.sh start datanode

单独启动journalnode

hadoop-daemon.sh start journalnode

启动zookeeper

./zkServer.sh start

启动hdfs

start-dfs.sh

启动yarn

start-yarn.sh

单独启动resorucemanager

yarn-daemon.sh start resouremanger

“Hadoop高可用集群如何搭建”的内容就介绍到这里了，感谢大家的阅读。如果想了解更多行业相关的知识可以关注创新互联网站，小编将为大家输出更多高质量的实用文章！

本文标题：Hadoop高可用集群如何搭建
文章地址：http://bzwzjz.com/article/ipjpsp.html

用户体验为先导为品牌带来生命力

Hadoop高可用集群如何搭建

一、集群规划

二、五节点Hadoop HA搭建

1. 虚拟机环境准备

2. 安装zookeeper集群

3. 五节点Hadoop HA搭建

3.1 解压hadoop压缩包

3.2 修改hadoop-env.sh

3.3 修改core-site.xml

3.4 修改hdfs-site.xml

3.5 修改mapred-site.xml

3.6 修改yarn-site.xml

3.7 修改slaves

3.8 远程拷贝hadoop文件夹

3.9 配置环境变量

4. 启动与初始化hadoop集群

4.1 启动zookeeper集群

查看状态：一个为leader，另外两个为follower

4.2 启动journalnode

运行jps命令检验，node-01、node-02、node-03上多了JournalNode进程

4.3 格式化HDFS

4.4 拷贝hadoop.tmp.dir

4.4 格式化ZK

4.5 启动HDFS

4.6 启动YARN

4.6.1主resourcemanager

4.6.2 从resourcemanager

5. 验证集群是否可用

5.1 验证HDFS HA

5.1.1 访问WEB UI

5.1.2 模拟主备切换

5.2 验证Yarn HA

5.2.1 访问WEB UI

5.2.2 模拟主备切换

5.2.3 运行MR示例

6. 集群常用命令

6.1 关闭Hadoop HA集群

6.2 常用命令

其他资讯

用户体验为先导 为品牌带来生命力

Hadoop高可用集群如何搭建

一、集群规划

二、五节点Hadoop HA搭建

1. 虚拟机环境准备

2. 安装zookeeper集群

3. 五节点Hadoop HA搭建

3.1 解压hadoop压缩包

3.2 修改hadoop-env.sh

3.3 修改core-site.xml

3.4 修改hdfs-site.xml

3.5 修改mapred-site.xml

3.6 修改yarn-site.xml

3.7 修改slaves

3.8 远程拷贝hadoop文件夹

3.9 配置环境变量

4. 启动与初始化hadoop集群

4.1 启动zookeeper集群

查看状态：一个为leader，另外两个为follower

4.2 启动journalnode

运行jps命令检验，node-01、node-02、node-03上多了JournalNode进程

4.3 格式化HDFS

4.4 拷贝hadoop.tmp.dir

4.4 格式化ZK

4.5 启动HDFS

4.6 启动YARN

4.6.1主resourcemanager

4.6.2 从resourcemanager

5. 验证集群是否可用

5.1 验证HDFS HA

5.1.1 访问WEB UI

5.1.2 模拟主备切换

5.2 验证Yarn HA

5.2.1 访问WEB UI

5.2.2 模拟主备切换

5.2.3 运行MR示例

6. 集群常用命令

6.1 关闭Hadoop HA集群

6.2 常用命令

其他资讯

用户体验为先导为品牌带来生命力