Category Archives: 大数据技术

1、java.net.URL
把解析 " hdfs://localhost:9000:/user/liheyuan/xxx " 这种HDFS URL的解析器加到java.net.URL中，然后用传统Java的URL相关接口搞定。
import java.io.InputStream;
import java.net.URL;
import org.apache.hadoop.fs.FsUrlStreamHandlerFactory;
import org.apa[......]

继续阅读

Hadoop小集群(5结点)测试

Leave a reply

1、Map/Reduce任务
输入：
文件格式
id value
其中id是1~100之间的随机整数，value为1~100之间的随机浮点数。
输出：
每个id的最大value

生成这类文件，可以用python搞定，见本文末尾的附录。

2、Map/Reduce程序
这里就直接使用新(0.20.2)的API了，即org.apache.hadoop.mapreduce.*下的接口。
特别注意：
job.setNumReduceTasks(5)
指定了本Job的Redu[......]

继续阅读

关于Hadoop中出现“Exceeded MAX_FAILED_UNIQUE_FETCHES”的错误

1 Reply

出现在日志或者Web控制界面，有类似如下的情况：
10/09/07 19:24:51 INFO mapred.JobClient: Task Id : attempt_201009071911_0004_r_000000_2, Status : FAILED
Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out.
导致这种错误的原因很多，主要来说是Reduce阶段取map结果->reduce结点时出错的。
我的[......]

继续阅读

四号程序员

Keep It Simple and Stupid

Category Archives: 大数据技术

MooseFS分布式文件系统的搭建

Hadoop: The Definitive Guide 第四章 Hadoop I/O

HDFS的Java接口

Hadoop小集群(5结点)测试

关于Hadoop中出现“Exceeded MAX_FAILED_UNIQUE_FETCHES”的错误