Hadoop集群配置

首先恢复单机配置,可以参考教程:
http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-single-node-cluster/
本文大部分参考了这个《Hadoop集群配置教程》,非常感谢!

Master:10.182.165.114 node1 (Namenode 和 JobTracker)
Slave:10.182.165.156 node2

1、下载、创建用户

2、设置为ssh为:无需密码的、自动登录

3、安装JDK,设置环境变量

4、配置conf(Master和Slave)

配置文件:conf/core-site.xml

配置文件:conf/mapred-site.xml

配置文件:conf/hdfs-site.xml

5、格式化namenode,启动

6、拷贝数据

以上的单机配置完毕,下面开始集群配置

0、做Host映射

不要像我一样耍小聪明,以为IP也行,Hadoop会做反向DNS,所以老老实实的Host吧……

1、在master上配置IP列表

2、在两台机器上,都设置map/reduce的slots

mapred.map.tasks:一般是slaves * 10 -> 20
mapred.reduce.tasks:一般是slave_cpu_core * 2 -> 8

配置文件:conf/mapred-site.xml

3、重新格式化Namenode,每次重新建集群时候都要?
bin/hadoop namenode -format

4、启动dfs,在master上执行

5、重新拷贝文件
./bin/hadoop dfs -copyFromLocal ./book_data/ /user/hadoop/book_data

6、启动map-reduce

7、运行

又添加了几组数据,也是37秒,数据还是太小。。

Leave a Reply

Your email address will not be published.