Category Archives: Hadoop && Hive && HBase && Mahout

Hive自定义UDF/UDAF/UDTF中,如何获得List的ObjectInspector

在Hive中,在使用GenercU**F实现自定义UDF/UDAF/UDTF时,经常要制定输出类型,其中要获得一个ObjectInspector。

对于基础类型:

对于List等复合类型,要2步:

 

 

 

如何拓展Hadoop的InputFormat为其他分隔符

在Hadoop中,常用的TextInputFormat是以换行符作为Record分隔符的。

在实际应用中,我们经常会出现一条Record中包含多行的情况,例如:

此时,需要拓展TextInputFormat以完成这个功能。

先来看一下原始实现:

根据上面的代码, 不难发现,换行符实际上是由”textinputformat.record.delim[……]

继续阅读

Hive中找出Table和Partition的真实路径。

在Hive中,如果使用了External Table或者Partition,那么路径是不在自己的hive warehouse下的。