Tag Archives: 分隔符

如何拓展Hadoop的InputFormat为其他分隔符

在Hadoop中,常用的TextInputFormat是以换行符作为Record分隔符的。

在实际应用中,我们经常会出现一条Record中包含多行的情况,例如:
<doc>
….
</doc>
此时,需要拓展TextInputFormat以完成这个功能。

先来看一下原始实现:
public class TextInputFormat extends FileInputFormat<LongWritable, Text> {[……]

继续阅读