Hadoop的安装和配置方法

本篇内容介绍了“Hadoop的安装和配置方法”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！

目前创新互联已为成百上千的企业提供了网站建设、域名、虚拟主机、网站托管、服务器托管、企业网站设计、兴安网站维护等服务，公司将坚持客户导向、应用为本的策略，正道将秉承"和谐、参与、激情"的文化，与客户和合作伙伴齐心协力一起成长，共同发展。

相关软件下载：微云网盘链接：https://share.weiyun.com/5uIOSHe 密码：osmzbn
JDK 8 : https://jdk.java.net/java-se-ri/8-MR3
Hadoop 3.2.1 : https://hadoop.apache.org/releases.html

如果还没有安装和设置虚拟机，参考上一篇文章 Ubuntu 安装和配置，这里默认服务器用户名为 hadoop，机器名称为 master，且把 master 的 IP 写入了 hosts 文件和配置 SSH 免密登录。这将介绍 Hadoop 的两种安装方式，并简单使用和操作 MapReduce 和 HDFS。

主要内容：

Hadoop 伪分布安装
Hadoop 集群安装
动态增加、删除节点

1、必要软件的安装

Hadoop 3 最低支持 Java 8，这里使用 Oracle 的 OpenJDK 8，可以提取下载好放到共享文件夹。

# 解压和创建链接文件
sudo tar -xvf openjdk-XXX_XXX.tar.gz  /user/local
sudo ln -s /user/local/openjdk-XXX_XXX  /user/local/openjdk-1.8
# 将 JAVA_HOME 添加到环境变量
sudo vim /etc/profile
# 添加如下内容
export JAVA_HOME=/user/local/openjdk-1.8
export PATH=$JAVA_HOME/bin:$PATH
# 测试
java -version
java version "1.8.0_XXX"
# 安装 SSH pdsh
sudo apt install ssh
sudo apt install pdsh

Hadoop 支持如下三种模式安装：

本地独立模式
单节点模式
集群模式

支持平台：推荐 GNU/Linux，对于 Windows 平台这里不做介绍

2、伪分布式安装

2.1、下载和解压 Hadoop

tar -xvf ./hadoop-3.X.X.tar.gz
ln -s ./hadoop-3.X.X.tar.gz ./hadoop
# 设置 Hadoop 安装目录添加 PATH
vim .bashrc
# 在文件后面添加如下内容
export HADOOP_HOME=/home/hadoop/hadoop
export HADOOP_MAPRED_HOME=/home/hadoop/hadoop
# PDSH_RCMD_TYPE 解决 pdsh@master: master: ssh exited with exit code 1
export PDSH_RCMD_TYPE=ssh
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

设置 Hadoop 的 Java Home 等参数

vim $HADOOP_HOME/etc/hadoop/hadoop-env.sh
# 找到 export JAVA_HOME 的位置，去掉注释修改为 JAVA_HOME 路径
# The java implementation to use. By default, this environment
# variable is REQUIRED on ALL platforms except OS X!
export JAVA_HOME=/user/local/openjdk-1.8
# 可选修改 Hadoop Home  HADOOP_CONF_DIR
export HADOOP_HOME=/home/hadoop/hadoop
export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop
# 可选 JVM Heap 堆，相当于 -Xms512m -Xmx1024m
export HADOOP_HEAPSIZE_MAX=1024m
export HADOOP_HEAPSIZE_MIN=512m

查看 hadoop 命令

hadoop version
# 会看到如下输出
Hadoop 3.X.X

本地独立模式

在默认情况下，Hadoop 被配置为非分布式模式作为单个 Java 进程运行，这对调试非常有用。

cd $HADOOP_HOME
mkdir input
cp etc/hadoop/*.xml input
# 正则表达式匹配所有 XML 文件中的单词
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.1.jar grep input output 'dfs[a-z.]+'
cat output/*
# 可以看到如下输出
1       dfsadmin

2.2、伪分布模式

首先需要配置好默认的 SSH 免密登录，如果已经配置则跳过：

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 0600 ~/.ssh/authorized_keys
# 测试 
ssh localhost

在下面的命令中，默认切换到 hadoop 安装目录cd $HADOOP_HOME

对于 vim 不熟悉可以使用 Visual Studio Remote 连接到 master 服务器，然后打开 Hadoop 的配置目录。参考 https://code.visualstudio.com/docs/remote/wsl

文件 vim etc/hadoop/core-site.xml,将内容修改成如下


    
        
        fs.defaultFS
        hdfs://localhost:9000

文件 vim etc/hadoop/hdfs-site.xml ,修改内容如下


    
        
        dfs.replication
        1

运行

# 格式文件系统
bin/hdfs namenode -format
# 运行 DataNode 和 NameNode
sbin/start-dfs.sh
# 可以看到如下的输出
Starting namenodes on [localhost]
Starting datanodes
Starting secondary namenodes [master]

通过浏览器访问 http://master:9870/ ，master 替换为 Ubuntu 所在的 IP 或者写入主系统的 hosts.

测试

# 创建 HDFS 的目录，hadoop 是你的用户名  此相当于 Linux 的个人主目录
bin/hdfs dfs -mkdir /user
bin/hdfs dfs -mkdir /user/hadoop
# 在 HDFS 的 /user/hadoop 下创建
bin/hdfs dfs -mkdir input
# 将文件上传到 HDFS
bin/hdfs dfs -put etc/hadoop/*.xml input
# 运行 Hadoop 的示例程序
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.1.jar grep input output 'dfs[a-z.]+'
# 将运行结果拿到本地
bin/hdfs dfs -get output output
cat output/* # 或者直接在 HDFS 看 ： bin/hdfs dfs -cat output/*
#同样可以看到如下的输出 跟本地独立模式不一样原因是修改了 hdfs-site.xml
1       dfsadmin
1       dfs.replication

2.3、单节点的 Yarn

文件配置：etc/hadoop/mapred-site.xml


    
        
        mapreduce.framework.name
        yarn
    
    
        
        mapreduce.application.classpath
        $HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*:$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/*

文件 etc/hadoop/yarn-site.xml


    
        
        yarn.nodemanager.aux-services
        mapreduce_shuffle
    
    
    
        yarn.nodemanager.env-whitelist
        JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME

查看运行着什么服务的命令是 jps ,可以将此时的 Hadoop 安装配置目录复制一份作为本地独立模式或伪分布模式的配置备份。

关闭 hdfs 和 Yarn

sbin/stop-yarn.sh
sbin/stop-dfs.sh

3、集群设置

这里采用两台 VM 虚拟机（master、worker1）搭建，worker2 是用于下一小节，将新的节点添加到 Hadoop 集群的，理论上可以支持上千台的集群。

关闭 hdfs 和 Yarn 后关闭当前的虚拟机，将虚拟机拷贝两份，命名为 worker1、worker2，一台一台的设置，因为先前的跟 master IP 地址一样会冲突，参考 Ubuntu Server 安装与设置 配置本地 IP 地址（例如 192.168.128.11、192.168.128.12），设置 hostname 为 worker1 、worker2，然后关机。

启动 master、worker1 的虚拟机，登录 master，配置各个节点的 hosts sudo vim /etc/hosts：

# 各个节点的配置，替换为虚拟机实际的 ip
192.168.128.10  master
192.168.128.11  worker1
192.168.128.12  worker2
# 保存后通如下命令分发到 worker1、worker2等,需要启用 root 登录权限
scp /etc/hosts root@worker1:/etc/hosts
# 检查不同主机间是否可以免密登录
# 分别在 master、worker1 等尝试 ssh username@master、ssh username@worker1
ssh hadoop@worker1

3.1、Hadoop 常用的配置

常用的配置文件

文件	格式	描述
hadoop-env.sh	bash脚本	Hadoop 运行的环境变量，会覆盖系统的设置
mapred-env.sh	bash脚本	MapReduce 运行用到的环境变量，会覆盖 hadoop-env.sh
yarn-env.sh	bash脚本	Yarn 运行用到的环境变量，会覆盖 mapred-env.sh
core-site.xml	xml配置	Hadoop Core 配置，配置 HDFS、MapReduce、Yarn 常用的 IO 设置
hdfs-site.xml	xml配置	HDFS 配置，namenode、datanode、secondary namenode等
mapred-site.xml	xml配置	MapReduce 守护进程配置，如 jobhistoryserver
yarn-site.xml	xml配置	Yarn 守护进程配置，如 ResourceManger、NodeManager、Web 应用代理服务等
workers	纯文本	运行 datanode 的节点的机器，一行一个( hadoop 的名称是 slaves)
log4j.properties	Java属性	日志配置文件

环境变量

Hadoop 的环境变量通过 bash 脚本设置。例如可以设置 JAVA_HOME，JVM 内存堆大小、日志存放目录等

JAVA_HOME : 必须指定，推荐使用 hadoop-env.sh 的方式，保证集群使用相同版本的 JDK
HADOOP_HEAPSIZE_MAX ：最大 JVM 内存堆
HADOOP_HEAPSIZE_MIN：最小 JVM 内存堆
HADOOP_LOG_DIR：日志存放目录
HADOOP_HOME: Hadoop 的根目录
HADOOP_MAPRED_HOME: MapReduce 的主目录

3.1.2、Hadoop 配置

文件etc/hadoop/core-site.xml


  
    
    
    fs.defaultFS
    hdfs://master:9000
  
  
    
    hadoop.tmp.dir
    /home/hadoop/cluster

对于设置的临时目录等，需要确保运行 Hadoop 集群的用户有写入和读取的权限，这里使用用户主目录下的 cluster 文件夹，相关的目录不建议存放到 Hadoop 的安装目录下。

文件 etc/hadoop/hdfs-site.xml


  
    
    dfs.replication
    1
  
  
  
    
    
    dfs.namenode.name.dir
    /home/hadoop/cluster/dfs/name
  
  
    
    dfs.datanode.name.dir
    /home/hadoop/cluster/dfs/data
  
  
    
    dfs.datanode.name.dir
    /home/hadoop/cluster/dfs/namesecondary

文件etc/hadoop/yarn-site.xml

   
    
        
        yarn.nodemanager.aux-services
        mapreduce_shuffle
    
    
         
        yarn.nodemanager.env-whitelist
        JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME

文件 etc/hadoop/mapred-site.xml


    
        
        mapreduce.framework.name
        yarn
    
    
        
        mapreduce.application.classpath
        $HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*:$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/*

文件workers,设置运行 datanode 的主机，一行一个主机名

worker1

3.2、运行 Hadoop

将 Hadoop 复制到 worker1 。

# 复制 .bashrc 的一些环境变量，可选
scp ~/.bashrc hadoop@worker1:~/.bashrc
# 将 Hadoop 安装目录复制到 worker1，
scp -r ~/hadoop  hadoop@worker1:~/hadoop

格式化 HDFS

# master 主机运行，只需要运行一次，第二次运行会报错
hdfs namenode -format <集群名称>

开启 namenode、datanode

# master 运行
hdfs --daemon start namenode
# master 和每个 worker 分别运行
hdfs --daemon start datanode
# 配置好 ssh 免密登录后，只需要在 master 运行，等同于上面的两个命令（二选一）
start-dfs.sh

使用 jps 命令查看是否运行成功

master 运行的服务：

8436 ResourceManager
8200 SecondaryNameNode
11275 Jps
10684 NameNode

worker1 运行的服务：

5267 Jps
4966 DataNode
5143 NodeManager

通过浏览器访问 http://master:9870/dfshealth.html 可以看到有一个 datanode。（嘻嘻，截错图了）

Hadoop的安装和配置方法

启动 Yarn：

# 在 ResourceManager 运行如下命令，我们这里设置为 master
yarn --daemon start resourcemanager
yarn --daemon start nodemanager
# 脚本，等同于上面两个个命令（二选一）
start-yarn.sh

使用浏览器访问 http://master:8088/cluster

Hadoop的安装和配置方法

启动 JobHistory Server

记录已经运行完的 MapReduce 作业放到 HDFS 目录，默认配置已经够用了，所以上面没有配置

# master 下运行
mapred --daemon start historyserver

浏览器访问 http://master:19888/jobhistory

Hadoop的安装和配置方法

master 运行 start-all.sh 则会根据配置文件开启所有节点及其所配置的服务。

测试

# 创建 HDFS 的目录，hadoop 是你的用户名  此相当于 Linux 的个人主目录
bin/hdfs dfs -mkdir /user
bin/hdfs dfs -mkdir /user/hadoop
# 在 HDFS 的 /user/hadoop 下创建
bin/hdfs dfs -mkdir input
# 将文件上传到 HDFS
bin/hdfs dfs -put etc/hadoop/*.xml input
# 运行 Hadoop 的示例程序
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.1.jar grep input output 'dfs[a-z.]+'
# 将运行结果拿到本地
bin/hdfs dfs -get output output
cat output/* # 或者直接在 HDFS 看 ： bin/hdfs dfs -cat output/*
1       dfsadmin
1       dfs.replication

3.3、关闭 Hadoop

关闭 namenode、datanode

# master 运行
hdfs --daemon stop namenode
# master 和每个 worker 分别运行
hdfs --daemon stop datanode
# 配置好 ssh 免密登录后，只需要在 master 运行，等同于上面的两个命令（二选一）
stop-dfs.sh

关闭 Yarn：

# 在 ResourceManager 运行如下命令，我们这里设置为 master
yarn --daemon stop resourcemanager
yarn --daemon stop nodemanager
# 脚本，等同于上面两个个命令（二选一）
stop-yarn.sh

关闭 JobHistory Server

# master 下运行
mapred --daemon start historyserver

master 执行 stop-all.sh 用于关闭集群所有节点的所有服务。

4、动态增加、删除节点

开启 worker2 虚拟机，虚拟机设置部分见，3、集群设置，开启 master、worker1 虚拟机。

4.1、将 worker2 加入集群

开启 master 和 worker1 的 Hadoop 集群：

# master 主机上执行
start-all.sh

在 master 的 Hadoop 配置文件workers,添加 worker2 作为 datanode，修改完成后使用 scp 命令同步到 worker1 和 worker2。TODO：了解 zookeeper 相关配置实现配置文件同步。

worker1
worker2

# 在 worker2 单独启动 datanode，nodemanager
# 对于其他功能节点，新加入的只需要在本地启动即可，不建议通过脚本的方式
hdfs --daemon start datanode
yarn --daemon start nodemanager

# 刷新 datanode 和 yarn
hdfs dfsadmin -refreshNodes
yarn rmadmin -refreshNodes

通过浏览器访问 http://master:9870/dfshealth.html ，可以看到 worker2 成功加入集群。

4.2、将 worker1 移出集群

Hadoop 配置文件workers 的作用是 Hadoop 脚本如 start-all.sh、stop-all.sh 通过其配置向整个集群发出操作指令，如开启整个集群、关闭整个集群。Hadoop 的 namenode 守护进程是不使用的 workers 文件的。
实际上允许连接到 namenode 的节点通过文件 hdfs-site.xml 配置。在没有配置的情况下，默认所有节点都可以连接。严格的来说，上面的配置都是不完整的，集群上所有的节点都应该明确管理。

使用 stop-all.sh 关闭集群，在 master 机器上，新建 hosts.includes 表示允许连接的节点配置，文件内容分别如下：

worker1
worker2

文件 hdfs-site.xml 新增如下配置：



  dfs.hosts
  /home/hadoop/hadoop-3.2.1/etc/hadoop/hosts.includes

文件 yarn-site.xml



  yarn.resourcemanager.nodes.include-path
  /home/hadoop/hadoop-3.2.1/etc/hadoop/hosts.includes

使用 scp 同步到 worker1、worker2，然后启动 Hadoop 集群。假设有 worker3 按照 4.1、将 worker2 加入集群的方式加入集群，是不能连接到 namenode 的了，参考上面第一步将其加入 host.includes 文件即可再启动即可。

cd ~/hadoop-3.2.1/etc/hadoop
scp ./* xian@worker1:~/hadoop-3.2.1/etc/hadoop
scp ./* xian@worker2:~/hadoop-3.2.1/etc/hadoop
# 启动集群
start-all.sh

对于要将节点退出 Hadoop 集群，最简单的方式就是将这个节点直接关闭：

# 错误示范
hdfs --daemon stop datanode

HDFS 具有容错性，在多个副本的集群直接关掉一两个节点还不会导致集群数据的丢失。然而这是不推荐的，就像在本文里，只有一个文件副本，直接关闭一个 datanode，那么该节点的数据会直接从集群消失。正确的做法是将需要退出的 datanode 告知 namenode，Hadoop 守护进程就会将该节点的数据复制到其他节点，然后需要移除的节点进入 Decommissioned 才可以移除。

正确示例：

第一步 : 告诉 Hadoop 我要移除某个节点了移除节点的通过 exclude 文件控制，通过 dfs.hosts.exclude 和 yarn.resourcemanager.nodes.exclude -path 这两个属性配置。新建 hosts.excludes 文件，加入 worker1 ，表示要将 worker1 排除。

worker1

文件 hdfs-site.xml 新增如下配置：



  dfs.hosts.exclude
  /home/hadoop/hadoop-3.2.1/etc/hadoop/hosts.excludes

文件 yarn-site.xml



  yarn.resourcemanager.nodes.exclude-path
  /home/hadoop/hadoop-3.2.1/etc/hadoop/hosts.excludes

使用 scp 同步到 worker1、worker2。

第二步：更新 namenode 和 resourcemanager将要移除的节点数据拷贝到其他节点，并更新 namenode 的元数据等

hdfs dfsadmin -refreshNodes
# Refresh nodes successful
yarn rmadmin -refreshNodes
# INFO client.RMProxy: Connecting to ResourceManager at master/192.168.128.10:8033
# 数据平衡
start-balancer.sh

查看 datanode 是否已经移除：执行完成后执行 hdfs dfsadmin -report 或者 web 页面可以看到 worker 处于 Decommissioned 。

Decommission Status : Decommissioned

In service:正常服务
Decommissioning：复制数据中
Decommissioned ：数据复制完成，可以移除该节点

Web 页面：http://master:9870/dfshealth.html#tab-datanode ，刷新，找到 worker1

Hadoop的安装和配置方法

查看 Yarn 的 ResourceManager 是否已经移除：执行命令 yarn node -list --all,查看节点状态：

   worker1:44743         DECOMMISSIONED      worker1:8042                                  0

RUNNING ：运行中
DECOMMISSIONED : 可以移除了

web 页面刷新：http://master:8088/cluster/nodes/decommissioned 也是显示 Decommissioned

Hadoop的安装和配置方法

可能遇到的错误一个 master ，两个 worker 集群的时候， worker1 的 datanode 一直不显示 Decommissioned。后面加多了两个 worker ，worker1 正常挂 Decommissioned 状态。一个 master ，两个 worker 集群的不成功原因分析：
dfs.replication ：属性先前我设置为 2，虽然后面改成了 1，但可能没有让其生效，退出 worker1 后导致集群中 datanode 数量小于 2 ，datanode 运行中数量要大于 dfs.replication 的值才可以移除某个节点。TODO：补充刷新 dfs.replication 的命令。
HDFS 集群相关的设定，不允许移除 worker1 后只剩下一个 worker2 节点，TODO：看源码。
退出安全模式 hadoop dfsadmin -safemode 不是这个原因hdfs dfsadmin -safemode enter/leave
提示：对于数据量比较大的集群，Decommissioning 数据移动的状态会比较长的时间，可以把 dfs.replication 设置相对小点，减少数据量的拷贝。TODO 待实验

第三步：从 hosts.includes、hosts.excludes、workers 删除需要移除的节点记录。同步配置文件，然后运行：

hdfs dfsadmin -refreshNodes
yarn rmadmin -refreshNodes
# 数据平衡
start-balancer.sh

第四步：关闭 woker1

hdfs --daemon stop datanode
yarn --daemon stop nodemanager
sudo poweroff

通过 hdfs-site.xml 配置 hosts.includes、hosts.excludes 两个文件的情况下，第一二列表示节点是否出现在改文件中：引用「Hadoop 权威指南（中文版）」P.333

includes	excludes	解析
否	否	节点无法连接
否	是	节点无法连接
是	否	节点可连接
是	否	节点可连接，将被移除

遇到的错误：

ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: RECEIVED SIGNAL 15: SIGTERM

原因是把 master 和 worker1 都作为 worker 了，但成功启动，最后发现，master 还是还是不要加入 workers 文件作为 datanode。

“Hadoop的安装和配置方法”的内容就介绍到这里了，感谢大家的阅读。如果想了解更多行业相关的知识可以关注创新互联网站，小编将为大家输出更多高质量的实用文章！

本文题目：Hadoop的安装和配置方法
文章地址：http://bzwzjz.com/article/jccgos.html

用户体验为先导为品牌带来生命力

Hadoop的安装和配置方法

1、必要软件的安装

2、伪分布式安装

2.1、下载和解压 Hadoop

2.2、伪分布模式

2.3、单节点的 Yarn

3、集群设置

3.1、Hadoop 常用的配置

3.1.2、Hadoop 配置

3.2、运行 Hadoop

3.3、关闭 Hadoop

4、动态增加、删除节点

4.1、将 worker2 加入集群

4.2、将 worker1 移出集群

其他资讯

用户体验为先导 为品牌带来生命力

Hadoop的安装和配置方法

1、必要软件的安装

2、伪分布式安装

2.1、下载和解压 Hadoop

2.2、伪分布模式

2.3、单节点的 Yarn

3、集群设置

3.1、Hadoop 常用的配置

3.1.2、Hadoop 配置

3.2、运行 Hadoop

3.3、关闭 Hadoop

4、动态增加、删除节点

4.1、将 worker2 加入集群

4.2、将 worker1 移出集群

其他资讯

用户体验为先导为品牌带来生命力