Tag Archives: Hadoop

Hadoop: The Definitive Guide 第四章 Hadoop I/O

1、为了HDFS中的保证数据完整性,Hadoop使用Checksum的方法,每io.bytes.per.checksum个字节计算一个CRC-32的CheckSum。默认是512字节,生成4字节的checksum,所以在空间开销上

2、Hadoop/HDFS支持压缩,当数据规模很大的时候,不仅可以节省空间,还可以减少网络I/O等的消耗。

3、在支持的压缩算法中,压缩比:bzip2 > gzip > lzo,速度:lzo > gzip > bzip2。

解[......]

继续阅读

Hadoop小集群(5结点)测试

1、Map/Reduce任务
输入:
文件格式
id value
其中id是1~100之间的随机整数,value为1~100之间的随机浮点数。
输出:
每个id的最大value

生成这类文件,可以用python搞定,见本文末尾的附录。

2、Map/Reduce程序
这里就直接使用新(0.20.2)的API了,即org.apache.hadoop.mapreduce.*下的接口。
特别注意:
job.setNumReduceTasks(5)
指定了本Job的Redu[......]

继续阅读

关于Hadoop中出现“Exceeded MAX_FAILED_UNIQUE_FETCHES”的错误

出现在日志或者Web控制界面,有类似如下的情况:
10/09/07 19:24:51 INFO mapred.JobClient: Task Id : attempt_201009071911_0004_r_000000_2, Status : FAILED
Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out.
导致这种错误的原因很多,主要来说是Reduce阶段取map结果->reduce结点时出错的。
我的[......]

继续阅读

Hadoop集群配置

首先恢复单机配置,可以参考教程:
http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-single-node-cluster/
本文大部分参考了这个《Hadoop集群配置教程》,非常感谢!

Master:10.182.165.114 node1 (Namenode 和 JobTracker)
Slave:10.182.165.156 node2

1、下载、创建用户
/usr/sbin/add[......]

继续阅读

Hadoop伪集群测试

Hadoop的执行模式有三种:单机、伪集群和集群。

前面《Hadoop单机测试》文章中,我们已经搞定了纯单机模式。下面来说伪集群。

伪集群的各个进程将跑在不同的JVM里,并且使用HDFS。

2012.06.21更新:更新Hadoop版本到1.0.3

1、配置伪集群

conf/core-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl&qu[......]

继续阅读