Hadoop伪集群测试

Hadoop的执行模式有三种:单机、伪集群和集群。

前面《Hadoop单机测试》文章中,我们已经搞定了纯单机模式。下面来说伪集群。

伪集群的各个进程将跑在不同的JVM里,并且使用HDFS。

2012.06.21更新:更新Hadoop版本到1.0.3

1、配置伪集群

conf/core-site.xml

conf/hdfs-site.xml

conf/mapred-site.xml

2、准备无需密码登录的ssh(从localhost)
Hadoop集群的很多部署操作都依赖于无密码登录。
密钥登录方式:

除此之外,一般都会有主机的known_host认证会打扰登录过程(yes/no那个选择)

这样就可以搞定了,危险就是可能会有中间人攻击,不过一般忽略不计啦。

最后ssh localhost能直接登录,无需密码就搞定了。

3、启动Hadoop,格式化。

先编辑bin/start-all.sh,添加上JAVA_HOME变量。因为我在~/.bashrc中设置的,启动后总提示“localhost: Error: JAVA_HOME is not set.”。

然后看看web监控端口:
HDFS Namenode: http://localhost:50070
Job Tracker: http://localhost:50030

4、准备input数据、执行

同单机不同,这次是全部要在HDFS上啦。

在我本机运行完大概是用了1分12秒的样子。
查看结果:

Leave a Reply

Your email address will not be published.