Hadoop系列（五）——Hadoop集群环境搭建

一、集群规划

这里搭建一个 3 节点的 Hadoop 集群，其中三台主机均部署 DataNode 和 NodeManager 服务，但只有 hadoop001 上部署 NameNode 和 ResourceManager 服务。

10年积累的成都网站设计、网站建设经验，可以快速应对客户对网站的新想法和需求。提供各种问题对应的解决方案。让选择我们的客户得到更好、更有力的网络服务。我虽然不认识你，你也不认识我。但先做网站设计后付款的网站建设流程，更有宣城免费网站建设让你可以放心的选择与我们合作。

Hadoop 系列（五）—— Hadoop 集群环境搭建

二、前置条件

Hadoop 的运行依赖 JDK，需要预先安装。其安装步骤单独整理至：

Linux 下 JDK 的安装

三、配置免密登录

3.1 生成密匙

在每台主机上使用 ssh-keygen 命令生成公钥私钥对：

ssh-keygen

3.2 免密登录

将 hadoop001 的公钥写到本机和远程机器的 ~/ .ssh/authorized_key 文件中：

ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop001
ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop002
ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop003

3.3 验证免密登录

ssh hadoop002
ssh hadoop003

四、集群搭建

3.1 下载并解压

下载 Hadoop。这里我下载的是 CDH 版本 Hadoop，下载地址为：http://archive.cloudera.com/cdh6/cdh/5/

# tar -zvxf hadoop-2.6.0-cdh6.15.2.tar.gz

3.2 配置环境变量

编辑 profile 文件：

# vim /etc/profile

增加如下配置：

export HADOOP_HOME=/usr/app/hadoop-2.6.0-cdh6.15.2
export  PATH=${HADOOP_HOME}/bin:$PATH

执行 source 命令，使得配置立即生效：

# source /etc/profile

3.3 修改配置

进入 ${HADOOP_HOME}/etc/hadoop 目录下，修改配置文件。各个配置文件内容如下：

1. hadoop-env.sh

# 指定JDK的安装位置
export JAVA_HOME=/usr/java/jdk1.8.0_201/

2. core-site.xml


    
        
        fs.defaultFS
        hdfs://hadoop001:8020
    
    
        
        hadoop.tmp.dir
        /home/hadoop/tmp

3. hdfs-site.xml


      
    dfs.namenode.name.dir
    /home/hadoop/namenode/data


      
    dfs.datanode.data.dir
    /home/hadoop/datanode/data

4. yarn-site.xml


    
        
        yarn.nodemanager.aux-services
        mapreduce_shuffle
    
    
        
        yarn.resourcemanager.hostname
        hadoop001

5. mapred-site.xml


    
        
        mapreduce.framework.name
        yarn

5. slaves

配置所有从属节点的主机名或 IP 地址，每行一个。所有从属节点上的 DataNode 服务和 NodeManager 服务都会被启动。

hadoop001
hadoop002
hadoop003

3.4 分发程序

将 Hadoop 安装包分发到其他两台服务器，分发后建议在这两台服务器上也配置一下 Hadoop 的环境变量。

# 将安装包分发到hadoop002
scp -r /usr/app/hadoop-2.6.0-cdh6.15.2/  hadoop002:/usr/app/
# 将安装包分发到hadoop003
scp -r /usr/app/hadoop-2.6.0-cdh6.15.2/  hadoop003:/usr/app/

3.5 初始化

在 Hadoop001 上执行 namenode 初始化命令：

hdfs namenode -format

3.6 启动集群

进入到 Hadoop001 的 ${HADOOP_HOME}/sbin 目录下，启动 Hadoop。此时 hadoop002 和 hadoop003 上的相关服务也会被启动：

# 启动dfs服务
start-dfs.sh
# 启动yarn服务
start-yarn.sh

3.7 查看集群

在每台服务器上使用 jps 命令查看服务进程，或直接进入 Web-UI 界面进行查看，端口为 50070。可以看到此时有三个可用的 Datanode：

Hadoop 系列（五）—— Hadoop 集群环境搭建

点击 Live Nodes 进入，可以看到每个 DataNode 的详细情况：

Hadoop 系列（五）—— Hadoop 集群环境搭建

接着可以查看 Yarn 的情况，端口号为 8088 ：

Hadoop 系列（五）—— Hadoop 集群环境搭建

五、提交服务到集群

提交作业到集群的方式和单机环境完全一致，这里以提交 Hadoop 内置的计算 Pi 的示例程序为例，在任何一个节点上执行都可以，命令如下：

hadoop jar /usr/app/hadoop-2.6.0-cdh6.15.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0-cdh6.15.2.jar  pi  3  3

更多大数据系列文章可以参见 GitHub 开源项目： 大数据入门指南

网页题目：Hadoop系列（五）——Hadoop集群环境搭建
新闻来源：http://bzwzjz.com/article/gihdcg.html

用户体验为先导为品牌带来生命力

Hadoop系列（五）——Hadoop集群环境搭建

一、集群规划

二、前置条件

三、配置免密登录

3.1 生成密匙

3.2 免密登录

3.3 验证免密登录

四、集群搭建

3.1 下载并解压

3.2 配置环境变量

3.3 修改配置

1. hadoop-env.sh

2. core-site.xml

3. hdfs-site.xml

4. yarn-site.xml

5. mapred-site.xml

5. slaves

3.4 分发程序

3.5 初始化

3.6 启动集群

3.7 查看集群

五、提交服务到集群

其他资讯

用户体验为先导 为品牌带来生命力

Hadoop系列（五）——Hadoop集群环境搭建

一、集群规划

二、前置条件

三、配置免密登录

3.1 生成密匙

3.2 免密登录

3.3 验证免密登录

四、集群搭建

3.1 下载并解压

3.2 配置环境变量

3.3 修改配置

1. hadoop-env.sh

2. core-site.xml

3. hdfs-site.xml

4. yarn-site.xml

5. mapred-site.xml

5. slaves

3.4 分发程序

3.5 初始化

3.6 启动集群

3.7 查看集群

五、提交服务到集群

其他资讯

用户体验为先导为品牌带来生命力