搭建未开启Kerberos认证的Hadoop Yarn集群

SuperMap iServer 分布式分析支持使用Hadoop Yarn集群，您可以参照以下流程自行搭建。本章主要介绍如何搭建未开启Kerberos认证的Hadoop Yarn集群。

软件要求

搭建 Hadoop Yarn集群环境需要配置 Java 环境（JDK 下载地址http://www.oracle.com/technetwork/java/javase/downloads/index-jsp-138363.html#javasejdk，建议使用 JDK 8及以上版本）、配置SSH以及 Hadoop。

本例使用的软件为：

Hadoop安装包：hadoop-2.7.3.tar.gz 存放路径：/home/iserver

JDK安装包：jdk-8u131-linux-x64.tar.gz

搭建流程

本例主要是在两台ubuntu（内存均为12g）上搭建1个master、1个worker的Hadoop Yarn集群，以下是搭建步骤：

准备两台虚拟机（master、worker）分别在/etc/profile中按如下配置JAVA_HOME：

export JAVA_HOME=/home/supermap/java/jdk1.8.0_131

export PATH=${JAVA_HOME}/bin:$PATH

执行source /etc/profile使环境变量生效。

在master和worker用户下配置免密登录

分别在master和worker上执行ssh-keygen -t rsa -P’’(-P表示密码，可以忽略，默认需要三次回车) 执行完命令后在/home/hdfs/.ssh目录下生成私钥文件（id_rsa）、公钥文件（id_rsa.pub）。然后分别在master和worker上执行以下命令

ssh-copy-id -i /home/hdfs/.ssh/id_rsa.pub ip

其中，如果在master上执行，则写worker节点对应的ip。在master和worker上执行ssh worker/master，验证是否配置成功。

配置Hadoop

将一个完整的hadoop包，放在在master的目录中并进行以下配置：

进入/home/supermap/hadoop-2.7.6/etc/hadoop目录

在hadoop-env.sh增加：

export JAVA_HOME=/home/supermap/java/jdk1.8.0_131

在yarn-env.sh增加：

export JAVA_HOME=/home/supermap/java/jdk1.8.0_131

在yarn-site.xml中增加如下配置：

<configuration>

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<property>

<name>yarn.resourcemanager.hostname</name>

<value>192.168.112.131</value>

</property>

<property>

<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>

<value>org.apache.hadoop.mapred.ShuffleHandler</value>

</property>

<property>

<name>yarn.resourcemanager.address</name>

<value>192.168.112.131:8032</value>

</property>

<property>

<name>yarn.resourcemanager.scheduler.address</name>

<value>192.168.112.131:8030</value>

</property>

<property>

<name>yarn.resourcemanager.resource-tracker.address</name>

<value>192.168.112.131:8031</value>

</property>

<property>

<name>yarn.resourcemanager.admin.address</name>

<value>192.168.112.131:8033</value>

</property>

<property>

<name>yarn.resourcemanager.webapp.address</name>

<value>192.168.112.131:8088</value>

</property>

<!--<property>

<name>yarn.nodemanager.resource.memory-mb</name>

<value>8192</value>

</property>-->

<property>

<name>yarn.scheduler.maximum-allocation-mb</name>

<value>4096</value>

</property>

</configuration>

在core-site.xml中增加如下配置：

<configuration>

<property>

<name>fs.defaultFS</name>

<value>hdfs://192.168.112.131:9000</value>

</property>

<!-- <property>

<name>io.file.buffer.size</name>

<value>131072</value>

</property>-->

<property>

<name>hadoop.tmp.dir</name>

<value>file:/home/supermap/hadoop/tmp</value>

<description>Abasefor other temporary directories.</description>

</property>

</configuration>

在hdfs-site.xml中增加如下配置：

<configuration>

<property>

<name>dfs.namenode.http-address</name>

<value>192.168.112.131:50070</value>

</property>

<property>

<name>dfs.namenode.secondary.http-address</name>

<value>192.168.112.131:9001</value>

</property>

<property>

<name>dfs.namenode.name.dir</name>

<value>file:/home/supermap/hadoop/hdfs/name</value>

</property>

<property>

<name>dfs.datanode.data.dir</name>

<value>file:/home/supermap/hadoop/hdfs/data</value>

</property>

<property>

<name>dfs.replication</name>

<value>2</value>

</property>

<property>

<name>dfs.webhdfs.enabled</name>

<value>true</value>

</property>

<property>

<name>dfs.permissions</name>

<value>false</value>

</property>

</configuration>

在mapred-site.xml中增加如下配置：

<configuration>

<property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

</property>

<property>

<name>mapreduce.jobhistory.address</name>

<value>192.168.112.131:10020</value>

</property>

<property>

<name>mapreduce.jobhistory.webapp.address</name>

<value>192.168.112.131:19888</value>

</property>

</configuration>

在master文件中配置主节点的主机名例如：master；在slaves文件中配置子节点的主机名例如：worker。主节点配置完成后，执行以下命令将配置拷贝到worker上：

Scp –r /home/supermap/hadoop-2.7.6/etc/hadoop root@worker:/home/supermap/hadoop-2.7.6/etc/hadoop

这样worker就变成yarn集群的一个子节点了，同样在子节点中修改master和slaves文件。这样就搭建好了一个简单的yarn集群。

搭建成功后进入/home/supermap/hadoop-2.7.6/bin/下执行./hadoop namenode -format 进行格式化。格式化成功后进入sbin目录下执行./start-all.sh同时启动yarn和hdfs，也可以分别执行start-yarn.sh和start- dfs.sh启动yarn和hdfs。启动成功后访问yarn的web地址如：http://master:8088 成功后的界面如下：

在Hadoop Yarn集群的各个子节点下需要配置UGO。具体配置可参见ugo配置。