原帖地址： http://blog.csdn.net/nsrainbow/article/details/36629741

接上一个教程：http://blog.csdn.net/nsrainbow/article/details/36629339

本教程是在 Centos6 下使用yum来安装 CDH5 版本的 hadoop 的教程。如果没有添加yum源的请参考上一个教程

：http://blog.csdn.net/nsrainbow/article/details/36629339

Hadoop架构图

NameNode、DataNode和Client

NameNode可以看作是分布式文件系统中的管理者，主要负责管理文件系统的命名空间、集群配置信息和存储块的复制等。NameNode会将文件系统的Meta-data存储在内存中，这些信息主要包括了文件信息、每一个文件对应的文件块的信息和每一个文件块在DataNode的信息等。

DataNode是文件存储的基本单元，它将Block存储在本地文件系统中，保存了Block的Meta-data，同时周期性地将所有存在的Block信息发送给NameNode。

Client就是需要获取分布式文件系统文件的应用程序。
文件写入

Client向NameNode发起文件写入的请求。

NameNode根据文件大小和文件块配置情况，返回给Client它所管理部分DataNode的信息。

Client将文件划分为多个Block，根据DataNode的地址信息，按顺序写入到每一个DataNode块中。
文件读取

Client向NameNode发起文件读取的请求

NameNode返回文件存储的DataNode的信息。

Client读取文件信息。

开始安装非HA模式

1. 添加库key

[plain] view plaincopyprint?

$ sudo rpm –import http://archive.cloudera.com/cdh5/redhat/6/x86_64/cdh/RPM-GPG-KEY-cloudera

$ sudo rpm --import http://archive.cloudera.com/cdh5/redhat/6/x86_64/cdh/RPM-GPG-KEY-cloudera

2. 安装CDH5

2.1 安装Resource Manager host

[plain] view plaincopyprint?

$ sudo yum clean all
$ sudo yum install hadoop-yarn-resourcemanager -y

$ sudo yum clean all</p><p>$ sudo yum install hadoop-yarn-resourcemanager -y

2.2 安装 NameNode host

[plain] view plaincopyprint?

$ sudo yum clean all
$ sudo yum install hadoop-hdfs-namenode -y

$ sudo yum clean all</p><p>$ sudo yum install hadoop-hdfs-namenode -y

2.3 安装 Secondary NameNode host

[plain] view plaincopyprint?

$ sudo yum clean all
$ sudo yum install hadoop-hdfs-secondarynamenode -y

$ sudo yum clean all</p><p>$ sudo yum install hadoop-hdfs-secondarynamenode -y

2.4 安装 nodemanager , datanode, mapreduce (官方说明是在除了 Resource Manager以外的机子上装这些，但是我们现在就一台机子，所以就在这台机子上装)

[plain] view plaincopyprint?

$ sudo yum clean all
$ sudo yum install hadoop-yarn-nodemanager hadoop-hdfs-datanode hadoop-mapreduce -y

$ sudo yum clean all</p><p>$ sudo yum install hadoop-yarn-nodemanager hadoop-hdfs-datanode hadoop-mapreduce -y

2.5 安装 hadoop-mapreduce-historyserver hadoop-yarn-proxyserver (官方说是在cluster中挑一台做host，但是我们就一台，就直接在这台上装)

[plain] view plaincopyprint?

$ sudo yum clean all
$ sudo yum install hadoop-mapreduce-historyserver hadoop-yarn-proxyserver -y

$ sudo yum clean all</p><p>$ sudo yum install hadoop-mapreduce-historyserver hadoop-yarn-proxyserver -y

2.6 安装 hadoop-client (用户连接hadoop的客户端，官方说在客户端装，我们就直接在这台上装)

[plain] view plaincopyprint?

$ sudo yum clean all
$ sudo yum install hadoop-client -y

$ sudo yum clean all</p><p>$ sudo yum install hadoop-client -y

3. 部署CDH

3.1 配置计算机名(默认是localhost)

先看看自己的hostname有没有设置

[plain] view plaincopyprint?

$ sudo vim /etc/sysconfig/network
HOSTNAME=localhost.localdomain

$ sudo vim /etc/sysconfig/network</p><p>HOSTNAME=localhost.localdomain

如果HOSTNAME是 localhost.localdomain的话就改一下

HOSTNAME=myhost.mydomain.com

然后再运行下，保证立即生效

[plain] view plaincopyprint?

$ sudo hostname myhost.mydomain.com

$ sudo hostname myhost.mydomain.com

检查一下是否设置生效

[plain] view plaincopyprint?

$ sudo uname -a

$ sudo uname -a

3.2 修改配置文件

先切换到root用户，免得每行命令之前都加一个sudo，所以以下教程都是用root角度写的

[plain] view plaincopyprint?

$ sudo su –
$ cd /etc/hadoop/conf
$ vim core-site.xml

$ sudo su -</p><p>$ cd /etc/hadoop/conf</p><p>$ vim core-site.xml

在 <configuration>…</configuration> 中增加

[html] view plaincopyprint?

<property>
<name>fs.defaultFS</name>
<value>hdfs://myhost.mydomain.com:8020</value>
</property>

&lt;property&gt;</p><p>	&lt;name&gt;fs.defaultFS&lt;/name&gt;</p><p>	&lt;value&gt;hdfs://myhost.mydomain.com:8020&lt;/value&gt;</p><p>&lt;/property&gt;

编辑hdfs-site.xml

[plain] view plaincopyprint?

$ vim hdfs-site.xml

$ vim hdfs-site.xml

在 <configuration>…</configuration> 中添加

[html] view plaincopyprint?

<property>
<name>dfs.permissions.superusergroup</name>
<value>hadoop</value>
</property>

&lt;property&gt;</p><p> &lt;name&gt;dfs.permissions.superusergroup&lt;/name&gt;</p><p> &lt;value&gt;hadoop&lt;/value&gt;</p><p>&lt;/property&gt;

3.3 配置存储文件夹

在 namenode 机子上配置 hdfs.xml 用来存储name元数据(我们只有一台机，所以既是namenode又是datanode)

[plain] view plaincopyprint?

$ vim hdfs-site.xml

$ vim hdfs-site.xml

修改dfs.name.dir 为 dfs.namenode.name.dir(dfs.name.dir已经过时)，并修改属性值，一般来说我们的 /data 或者 /home/data 都是挂载大硬盘数据用的，所以把存储文件夹指向这个路径里面的文件夹比较较好

[html] view plaincopyprint?

<property>
<name>dfs.namenode.name.dir</name>
<value>file:///data/hadoop-hdfs/1/dfs/nn</value>
</property>

&lt;property&gt;</p><p>     &lt;name&gt;dfs.namenode.name.dir&lt;/name&gt;</p><p>     &lt;value&gt;file:///data/hadoop-hdfs/1/dfs/nn&lt;/value&gt;</p><p>  &lt;/property&gt;</p><p>

在 datanode上配置 hdfs.xml 用来存储实际数据(我们只有一台机，所以既是namenode又是datanode)

[plain] view plaincopyprint?

$ vim hdfs-site.xml

$ vim hdfs-site.xml

增加dfs.datanode.data.dir(dfs.data.dir已经过时)配置

[html] view plaincopyprint?

<property>
<name>dfs.datanode.data.dir</name>
<value>file:///data/hadoop-hdfs/1/dfs/dn,file:///data/hadoop-hdfs/2/dfs/dn</value>
</property>

&lt;property&gt;</p><p>     &lt;name&gt;dfs.datanode.data.dir&lt;/name&gt;</p><p>     &lt;value&gt;file:///data/hadoop-hdfs/1/dfs/dn,file:///data/hadoop-hdfs/2/dfs/dn&lt;/value&gt;</p><p>  &lt;/property&gt;

建立这些文件夹

[plain] view plaincopyprint?

$ mkdir -p /data/hadoop-hdfs/1/dfs/nn
$ mkdir -p /data/hadoop-hdfs/1/dfs/dn
$ mkdir -p /data/hadoop-hdfs/2/dfs/dn

$ mkdir -p /data/hadoop-hdfs/1/dfs/nn</p><p>$ mkdir -p /data/hadoop-hdfs/1/dfs/dn</p><p>$ mkdir -p /data/hadoop-hdfs/2/dfs/dn

修改文件夹用户

[plain] view plaincopyprint?

$ chown -R hdfs:hdfs /data/hadoop-hdfs/1/dfs/nn /data/hadoop-hdfs/1/dfs/dn /data/hadoop-hdfs/2/dfs/dn

$ chown -R hdfs:hdfs /data/hadoop-hdfs/1/dfs/nn /data/hadoop-hdfs/1/dfs/dn /data/hadoop-hdfs/2/dfs/dn

修改文件夹权限

[plain] view plaincopyprint?

$ chmod 700 /data/hadoop-hdfs/1/dfs/nn

$ chmod 700 /data/hadoop-hdfs/1/dfs/nn

3.4 格式化namenode

[plain] view plaincopyprint?

$ sudo -u hdfs hdfs namenode -format

$ sudo -u hdfs hdfs namenode -format

3.5 配置 Secondary NameNode

在hdfs-site.xml中加入

[html] view plaincopyprint?

<property>
<name>dfs.namenode.http-address</name>
<value>0.0.0.0:50070</value>
<description>
The address and the base port on which the dfs NameNode Web UI will listen.
</description>
</property>

&lt;property&gt;</p><p>  &lt;name&gt;dfs.namenode.http-address&lt;/name&gt;</p><p>  &lt;value&gt;0.0.0.0:50070&lt;/value&gt;</p><p>  &lt;description&gt;</p><p>    The address and the base port on which the dfs NameNode Web UI will listen.</p><p>  &lt;/description&gt;</p><p>&lt;/property&gt;

3.6 启动hadoop

[plain] view plaincopyprint?

$ for x in `cd /etc/init.d ; ls hadoop-*` ; do sudo service $x start ; done
Starting Hadoop nodemanager: [ OK ]
starting nodemanager, logging to /var/log/hadoop-yarn/yarn-yarn-nodemanager-xmseapp03.ehealthinsurance.com.out
Starting Hadoop proxyserver: [ OK ]
starting proxyserver, logging to /var/log/hadoop-yarn/yarn-yarn-proxyserver-xmseapp03.ehealthinsurance.com.out
Starting Hadoop resourcemanager: [ OK ]
starting resourcemanager, logging to /var/log/hadoop-yarn/yarn-yarn-resourcemanager-xmseapp03.ehealthinsurance.com.out
Starting Hadoop datanode: [ OK ]
starting datanode, logging to /var/log/hadoop-hdfs/hadoop-hdfs-datanode-xmseapp03.ehealthinsurance.com.out
Starting Hadoop namenode: [ OK ]
starting namenode, logging to /var/log/hadoop-hdfs/hadoop-hdfs-namenode-xmseapp03.ehealthinsurance.com.out
Starting Hadoop secondarynamenode: [ OK ]
starting secondarynamenode, logging to /var/log/hadoop-hdfs/hadoop-hdfs-secondarynamenode-xmseapp03.ehealthinsurance.com.out
…

$ for x in `cd /etc/init.d ; ls hadoop-*` ; do sudo service $x start ; done</p><p>Starting Hadoop nodemanager:                               [  OK  ]</p><p>starting nodemanager, logging to /var/log/hadoop-yarn/yarn-yarn-nodemanager-xmseapp03.ehealthinsurance.com.out</p><p>Starting Hadoop proxyserver:                               [  OK  ]</p><p>starting proxyserver, logging to /var/log/hadoop-yarn/yarn-yarn-proxyserver-xmseapp03.ehealthinsurance.com.out</p><p>Starting Hadoop resourcemanager:                           [  OK  ]</p><p>starting resourcemanager, logging to /var/log/hadoop-yarn/yarn-yarn-resourcemanager-xmseapp03.ehealthinsurance.com.out</p><p>Starting Hadoop datanode:                                  [  OK  ]</p><p>starting datanode, logging to /var/log/hadoop-hdfs/hadoop-hdfs-datanode-xmseapp03.ehealthinsurance.com.out</p><p>Starting Hadoop namenode:                                  [  OK  ]</p><p>starting namenode, logging to /var/log/hadoop-hdfs/hadoop-hdfs-namenode-xmseapp03.ehealthinsurance.com.out</p><p>Starting Hadoop secondarynamenode:                         [  OK  ]</p><p>starting secondarynamenode, logging to /var/log/hadoop-hdfs/hadoop-hdfs-secondarynamenode-xmseapp03.ehealthinsurance.com.out</p><p>...

都成功后用jps看下

[plain] view plaincopyprint?

$jps
17033 NodeManager
16469 DataNode
17235 ResourceManager
17522 JobHistoryServer
16565 NameNode
16680 SecondaryNameNode
17593 Jps

$jps</p><p>17033 NodeManager</p><p>16469 DataNode</p><p>17235 ResourceManager</p><p>17522 JobHistoryServer</p><p>16565 NameNode</p><p>16680 SecondaryNameNode</p><p>17593 Jps</p><p>

4 客户端测试

打开你的浏览器输入 http://<hadoop server ip>:50070

如果看到

Hadoop Administration

DFS Health/Status

这样的字样就成功进入了hadoop的命令控制台

来源URL：http://blog.csdn.net/nsrainbow/article/details/36629741