Hadoop单机测试

经过电话确认,终于把Rackspace激活了,又多了一个玩具,以后再跑大实验时候可以用用看。

以下主要参考Hadoop的官方教程。

2012年6月21日更新:更新到最新的版本Hadoop 1.0.3

1、下载Hadoop

wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.0.3/hadoop-1.0.3-bin.tar.gz

tar -xzvf hadoop-1.0.3-bin.tar.gz

2、设置JAVA_HOME

vim ./conf/hadoop-env.sh
# 设置为你的JDK 6位置
export JAVA_HOME=/usr/lib/jvm/java-6-sun/

3、单机测试

这实际是单机走一遍Hadoop流程,input目录下有一些文件,Hadoop的Grep例子将遍历文件,并找到匹配正则的部分。

用Shell可以轻易完成:

grep ".*dfs.*" *

用Hadoop单机跑明显慢(数据小,流程的开销占了多数)

mkdir input

cp conf/*xml input

./bin/hadoop jar ./hadoop-examples-1.0.3.jar grep input output 'dfs[a-z.]+'

完成后,会出现output文件夹,里面是结果。

Leave a Reply

Your email address will not be published. Required fields are marked *