<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:media="http://search.yahoo.com/mrss/"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Hive - 四号程序员</title>
	<atom:link href="https://www.coder4.com/archives/tag/hive/feed" rel="self" type="application/rss+xml" />
	<link>https://www.coder4.com</link>
	<description>Keep It Simple and Stupid</description>
	<lastBuildDate>Tue, 20 Jan 2015 04:01:03 +0000</lastBuildDate>
	<language>en-US</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=6.8.3</generator>
	<item>
		<title>Writing Hive Custom Aggregate Functions (UDAF)</title>
		<link>https://www.coder4.com/archives/4379</link>
					<comments>https://www.coder4.com/archives/4379#respond</comments>
		
		<dc:creator><![CDATA[coder4]]></dc:creator>
		<pubDate>Tue, 20 Jan 2015 04:00:31 +0000</pubDate>
				<category><![CDATA[大数据技术]]></category>
		<category><![CDATA[Hive]]></category>
		<category><![CDATA[udaf]]></category>
		<guid isPermaLink="false">http://www.coder4.com/?p=4379</guid>

					<description><![CDATA[转载自：《Writing Hive Custom Aggregate Functions (UDAF): Part II》 Now that we got eclipse configured (see Part I) for UDAF development, its time to write our first UDAF. Searching for custom UDAF, most people might have already came across the followi[......] 继续阅读]]></description>
		
					<wfw:commentRss>https://www.coder4.com/archives/4379/feed</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>Hive自定义UDF/UDAF/UDTF中，如何获得List的ObjectInspector</title>
		<link>https://www.coder4.com/archives/4331</link>
					<comments>https://www.coder4.com/archives/4331#respond</comments>
		
		<dc:creator><![CDATA[coder4]]></dc:creator>
		<pubDate>Tue, 25 Nov 2014 06:14:17 +0000</pubDate>
				<category><![CDATA[大数据技术]]></category>
		<category><![CDATA[Hive]]></category>
		<category><![CDATA[list]]></category>
		<category><![CDATA[ObjectInspector]]></category>
		<guid isPermaLink="false">http://www.coder4.com/?p=4331</guid>

					<description><![CDATA[在Hive中，在使用GenercU**F实现自定义UDF/UDAF/UDTF时，经常要制定输出类型，其中要获得一个ObjectInspector。 对于基础类型： PrimitiveObjectInspectorFactory.javaStringObjectInspector) 对于List等复合类型，要2步： ObjectInspectorFactory .getStandardListObjectInspector(PrimitiveObjectInspectorFa[......] 继续阅读]]></description>
		
					<wfw:commentRss>https://www.coder4.com/archives/4331/feed</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>Hive中找出Table和Partition的真实路径。</title>
		<link>https://www.coder4.com/archives/4272</link>
					<comments>https://www.coder4.com/archives/4272#respond</comments>
		
		<dc:creator><![CDATA[coder4]]></dc:creator>
		<pubDate>Tue, 05 Aug 2014 09:14:11 +0000</pubDate>
				<category><![CDATA[大数据技术]]></category>
		<category><![CDATA[Hadoop]]></category>
		<category><![CDATA[HDFS]]></category>
		<category><![CDATA[Hive]]></category>
		<category><![CDATA[partition]]></category>
		<category><![CDATA[table]]></category>
		<category><![CDATA[路径]]></category>
		<guid isPermaLink="false">http://www.coder4.com/?p=4272</guid>

					<description><![CDATA[在Hive中，如果使用了External Table或者Partition，那么路径是不在自己的hive warehouse下的。 -- 获取table的真实hdfs路径 desc formatted my_table; -- 获取partition的真实hdfs路径 desc formatted my_table (pt='20140804'); &#160;[......] 继续阅读]]></description>
		
					<wfw:commentRss>https://www.coder4.com/archives/4272/feed</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>[转载]Hive 窗口函数、分析函数 应用场景</title>
		<link>https://www.coder4.com/archives/4231</link>
					<comments>https://www.coder4.com/archives/4231#respond</comments>
		
		<dc:creator><![CDATA[coder4]]></dc:creator>
		<pubDate>Thu, 08 May 2014 09:15:04 +0000</pubDate>
				<category><![CDATA[大数据技术]]></category>
		<category><![CDATA[Hive]]></category>
		<category><![CDATA[分析函数]]></category>
		<category><![CDATA[窗口函数]]></category>
		<guid isPermaLink="false">http://www.coder4.com/?p=4231</guid>

					<description><![CDATA[Hive 0.12后，支持了窗口函数、分析函数 (具体见官方wiki) 转载自《HIVE 窗口及分析函数 应用场景》： 窗口函数应用场景： （1）用于分区排序 （2）动态Group By （3）Top N （4）累计计算 （5）层次查询 一、分析函数 用于等级、百分点、n分片等。 函数 说明 RANK() 返回数据项在分组中的排名，排名相等会在名次中留下空位 DENSE_RANK() 返回数据项在分组中的排名，排名相等会在名次中不会留下空位 NTILE([......] 继续阅读]]></description>
		
					<wfw:commentRss>https://www.coder4.com/archives/4231/feed</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>Hive中如何强制UDF在Reducer执行</title>
		<link>https://www.coder4.com/archives/4143</link>
					<comments>https://www.coder4.com/archives/4143#respond</comments>
		
		<dc:creator><![CDATA[coder4]]></dc:creator>
		<pubDate>Thu, 20 Feb 2014 10:26:28 +0000</pubDate>
				<category><![CDATA[大数据技术]]></category>
		<category><![CDATA[Hive]]></category>
		<category><![CDATA[Reducer]]></category>
		<category><![CDATA[UDF]]></category>
		<guid isPermaLink="false">http://www.coder4.com/?p=4143</guid>

					<description><![CDATA[转载自：http://kernel-panik.blogspot.com/2013/05/force-udf-execution-to-happen-in-hive.html Doing quick and dirty URL fetch from hive, I wanted for URL"s to be ditributed among 5 jobs. Input is small it's very hard to tune up on mapper side things to[......] 继续阅读]]></description>
		
					<wfw:commentRss>https://www.coder4.com/archives/4143/feed</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>Hive中实现Group By后，取Top K条记录</title>
		<link>https://www.coder4.com/archives/4059</link>
					<comments>https://www.coder4.com/archives/4059#respond</comments>
		
		<dc:creator><![CDATA[coder4]]></dc:creator>
		<pubDate>Thu, 05 Dec 2013 07:36:57 +0000</pubDate>
				<category><![CDATA[大数据技术]]></category>
		<category><![CDATA[Group By]]></category>
		<category><![CDATA[Hive]]></category>
		<category><![CDATA[Top K]]></category>
		<guid isPermaLink="false">http://www.coder4.com/?p=4059</guid>

					<description><![CDATA[RT，在Hive中，使用了Group By后，是无法再sort，再取Top K的，我们可以用UDF + distributed by + sort by 实现这个功能。 参考自：EXTRACT TOP N RECORDS IN EACH GROUP IN HADOOP/HIVE Assume you have a table with three columns: user, category and value. For each user, you want to select[......] 继续阅读]]></description>
		
					<wfw:commentRss>https://www.coder4.com/archives/4059/feed</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>Hive中的TRANSFORM：使用脚本完成Map/Reduce。</title>
		<link>https://www.coder4.com/archives/4052</link>
					<comments>https://www.coder4.com/archives/4052#comments</comments>
		
		<dc:creator><![CDATA[coder4]]></dc:creator>
		<pubDate>Sat, 30 Nov 2013 08:45:39 +0000</pubDate>
				<category><![CDATA[Linux]]></category>
		<category><![CDATA[大数据技术]]></category>
		<category><![CDATA[Hive]]></category>
		<category><![CDATA[transform]]></category>
		<guid isPermaLink="false">http://www.coder4.com/?p=4052</guid>

					<description><![CDATA[数据、例子，修改自：《Hive with Python example》 首先来看一下数据： hive&#62; select * from test; OK 1 3 2 2 3 1 假设，我们要输出每一列的md5值。在目前的hive中是没有这个udf的。 我们看一下Python的代码： #!/home/tops/bin/python import sys import hashlib for line in sys.st[......] 继续阅读]]></description>
		
					<wfw:commentRss>https://www.coder4.com/archives/4052/feed</wfw:commentRss>
			<slash:comments>2</slash:comments>
		
		
			</item>
		<item>
		<title>Hive中的InputFormat、OutputFormat与SerDe</title>
		<link>https://www.coder4.com/archives/4031</link>
					<comments>https://www.coder4.com/archives/4031#comments</comments>
		
		<dc:creator><![CDATA[coder4]]></dc:creator>
		<pubDate>Thu, 28 Nov 2013 03:50:45 +0000</pubDate>
				<category><![CDATA[大数据技术]]></category>
		<category><![CDATA[Hive]]></category>
		<category><![CDATA[InputFormat]]></category>
		<category><![CDATA[OutputFormat]]></category>
		<category><![CDATA[SerDe]]></category>
		<guid isPermaLink="false">http://www.coder4.com/?p=4031</guid>

					<description><![CDATA[前言 Hive中，默认使用的是TextInputFormat，一行表示一条记录。在每条记录(一行中)，默认使用^A分割各个字段。 在有些时候，我们往往面对多行，结构化的文档，并需要将其导入Hive处理，此时，就需要自定义InputFormat、OutputFormat，以及SerDe了。 首先来理清这三者之间的关系，我们直接引用Hive官方说法： SerDe is a short name for "Serializer and Deserializer." Hive us[......] 继续阅读]]></description>
		
					<wfw:commentRss>https://www.coder4.com/archives/4031/feed</wfw:commentRss>
			<slash:comments>1</slash:comments>
		
		
			</item>
		<item>
		<title>Hive中Group By的去重</title>
		<link>https://www.coder4.com/archives/4007</link>
					<comments>https://www.coder4.com/archives/4007#comments</comments>
		
		<dc:creator><![CDATA[coder4]]></dc:creator>
		<pubDate>Tue, 29 Oct 2013 06:42:31 +0000</pubDate>
				<category><![CDATA[大数据技术]]></category>
		<category><![CDATA[COLLECT_SET]]></category>
		<category><![CDATA[Hive]]></category>
		<category><![CDATA[去重]]></category>
		<guid isPermaLink="false">http://www.coder4.com/?p=4007</guid>

					<description><![CDATA[在Hive的是用中，我们经常会有这种需求： 按照同一个id进行Ｇroup By，然后对另一个字段去重，例如下面得数据： id pic 1 1.jpg 2 2.jpg 1 1.jpg 此时，是用DISTINCT或者2 col得Group By都是不行得，我们可以用这个UDAF：collect_set(col)，它将对同一个group by 得key进行set去重后，转换为一个array。 再举一个例子，我们可以对pic进行去重，拼接： SELECT id, CONCAT_W[......] 继续阅读]]></description>
		
					<wfw:commentRss>https://www.coder4.com/archives/4007/feed</wfw:commentRss>
			<slash:comments>1</slash:comments>
		
		
			</item>
		<item>
		<title>如何在Hive中使用Json格式数据</title>
		<link>https://www.coder4.com/archives/3964</link>
					<comments>https://www.coder4.com/archives/3964#respond</comments>
		
		<dc:creator><![CDATA[coder4]]></dc:creator>
		<pubDate>Wed, 04 Sep 2013 09:33:26 +0000</pubDate>
				<category><![CDATA[大数据技术]]></category>
		<category><![CDATA[Hive]]></category>
		<category><![CDATA[JSON]]></category>
		<guid isPermaLink="false">http://www.coder4.com/?p=3964</guid>

					<description><![CDATA[本文参考了：http://pkghosh.wordpress.com/2012/05/06/hive-plays-well-with-json/ 表示感谢！ 总体来说，有两大类方法： 1、将json以字符串的方式整个入Hive表，然后使用LATERAL VIEW json_tuple的方法，获取所需要的列名。 2、将json拆成各个字段，入Hive表。这将需要使用第三方的SerDe，例如：https://code.google.com/p/hive-json-serde/[......] 继续阅读]]></description>
		
					<wfw:commentRss>https://www.coder4.com/archives/3964/feed</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
	</channel>
</rss>
