Hadoop的核心功能有两个:HDFS与MapReduce。
与HDFS相关的服务有SecondaryNameNode 及MapReduce相关的服务有TaskTracker两种。
Hadoop集群中有两种角色:master与slave,master又分为主master与次master。其中:
- 主master同时提供SecondaryNameNode 及
tiddlyLinkNonExisting”>SecondaryNameNode
服务; - 所有slave可以提供TaskTracker 两种服务。
Hadoop有三种集群方式可以选择:
- Local (Standalone) Mode(无集群模式)
- Pseudo-Distributed Mode(单机集群模式)
- Fully-Distributed Mode(多机集群模式)
一个Hadoop集群由多台电脑组成,每台电脑可作为一种或多种角色存在。 tiddlyLinkNonExisting”>Fully-Distributed
当使用
无密码SSH登录
启动Hadoop的方式是在主master上调用下面的命令:
$NameNode服 务;
在主master上启动SecondaryNameNode服 务; 在次master上启动SecondaryNameNode服 务; 在所有slave上启动DataNode 服务; 在主master上 启动 tiddlyLinkNonExisting”>TaskTracker
服务。在此需要注意以下几点:
- 启动JobTracker 服务不需要SSH授权;
- 需要通过SSH登录之后才能启动SecondaryNameNode、TaskTracker服 务,因此:
- 因为需要启动SencondaryNameNode 服务,所以要为主master提供SSH授权;
- 因为需要启动SencoddaryNameNode 服务,所以要为所有的次master提供SSH授权;
- 因为需要启动DataNode和 主服务器的地址
- 必须在所有master及slave上的conf/core-site.xml中设置此项。并且因为Hadoop架构是主master模式,所以在一个集群中的所有master及slave上设置的fs.default.name值应该是唯一一个
tiddlyLinkNonExisting”>DataNode
服务的地址dfs.datanode.ipc.address
位 置:conf/hdfs-site.xml
必须项:否
默认值:0.0.0.0:50020
说明:tiddlyLinkNonExisting”>NameNode
HTTP状态监视地址dfs.secondary.http.address
位 置:conf/hdfs-site.xml
必须项:否
默认值:0.0.0.0:50090
说明:tiddlyLinkNonExisting”>DataNode
HTTP状态监视地址与
tiddlyLinkNonExisting”>JobTracker
主服务器地址及端口- 必须在所有master及slave上的conf/mapred-site.xml中设置此项。并且因为Hadoop架构是主master模式,所以在一个集群中的所有master及slave上设置的mapred.job.tracker的值应该是唯一一个
tiddlyLinkNonExisting”>TaskTracker
服务地址mapred.job.tracker.http.address
位 置:conf/mapred-site.xml
必须项:否
默认值:0.0.0.0:50030
说明:tiddlyLinkNonExisting”>TaskTracker
HTTP状态监视地址来源URL:http://www.360doc.com/content/12/0621/13/10248211_219606715.shtml
- 必须在所有master及slave上的conf/mapred-site.xml中设置此项。并且因为Hadoop架构是主master模式,所以在一个集群中的所有master及slave上设置的mapred.job.tracker的值应该是唯一一个