Tag Archives: Hadoop

定制Hadoop的MapReduce任务的FileOutputFormat

需求：Reduce输出特殊的格式结果
例如：如Reducer的结果，压到Guava的BloomFilter中
import com.google.common.hash.BloomFilter;
import com.google.common.hash.Funnels;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.h[......]

继续阅读

Hadoop本地开发调试任务

Leave a reply

1 pom准备
<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0[......]

继续阅读

如何拓展Hadoop的InputFormat为其他分隔符

1 Reply

在Hadoop中，常用的TextInputFormat是以换行符作为Record分隔符的。

在实际应用中，我们经常会出现一条Record中包含多行的情况，例如：
<doc>
....
</doc>
此时，需要拓展TextInputFormat以完成这个功能。

先来看一下原始实现：
public class TextInputFormat extends FileInputFormat<LongWritable, Text> {[......]

继续阅读

Hive中找出Table和Partition的真实路径。

Leave a reply

在Hive中，如果使用了External Table或者Partition，那么路径是不在自己的hive warehouse下的。
-- 获取table的真实hdfs路径
desc formatted my_table;

-- 获取partition的真实hdfs路径
desc formatted my_table (pt='20140804');
[......]

继续阅读

如何在Hadoop中控制map的个数

Leave a reply

转载自：如何在hadoop中控制map的个数

hadoop提供了一个设置map个数的参数mapred.map.tasks，我们可以通过这个参数来控制map的个数。但是通过这种方式设置map的个数，并不是每次都有效的。原因是mapred.map.tasks只是一个hadoop的参考数值，最终map的个数，还取决于其他的因素。
为了方便介绍，先来看几个名词：
block_size : hdfs的文件块大小，默认为64M，可以通过参数dfs.block.size设置
total_size[......]

继续阅读

四号程序员

Keep It Simple and Stupid

Tag Archives: Hadoop

定制Hadoop的MapReduce任务的FileOutputFormat

Hadoop本地开发调试任务

如何拓展Hadoop的InputFormat为其他分隔符

Hive中找出Table和Partition的真实路径。

如何在Hadoop中控制map的个数