<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:media="http://search.yahoo.com/mrss/"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Hadoop - 四号程序员</title>
	<atom:link href="https://www.coder4.com/archives/tag/hadoop/feed" rel="self" type="application/rss+xml" />
	<link>https://www.coder4.com</link>
	<description>Keep It Simple and Stupid</description>
	<lastBuildDate>Thu, 14 Aug 2025 05:56:58 +0000</lastBuildDate>
	<language>en-US</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=6.8.3</generator>
	<item>
		<title>定制Hadoop的MapReduce任务的FileOutputFormat</title>
		<link>https://www.coder4.com/archives/7121</link>
					<comments>https://www.coder4.com/archives/7121#respond</comments>
		
		<dc:creator><![CDATA[coder4]]></dc:creator>
		<pubDate>Thu, 12 Nov 2020 09:33:09 +0000</pubDate>
				<category><![CDATA[大数据技术]]></category>
		<category><![CDATA[FileOutputFormat]]></category>
		<category><![CDATA[Hadoop]]></category>
		<category><![CDATA[Map]]></category>
		<category><![CDATA[Reduce]]></category>
		<category><![CDATA[定制]]></category>
		<guid isPermaLink="false">https://www.coder4.com/?p=7121</guid>

					<description><![CDATA[需求：Reduce输出特殊的格式结果 例如：如Reducer的结果，压到Guava的BloomFilter中 import com.google.common.hash.BloomFilter; import com.google.common.hash.Funnels; import org.apache.hadoop.fs.FSDataOutputStream; import org.apache.hadoop.fs.FileSystem; import org.apache.h[......] 继续阅读]]></description>
		
					<wfw:commentRss>https://www.coder4.com/archives/7121/feed</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>Hadoop本地开发调试任务</title>
		<link>https://www.coder4.com/archives/7118</link>
					<comments>https://www.coder4.com/archives/7118#respond</comments>
		
		<dc:creator><![CDATA[coder4]]></dc:creator>
		<pubDate>Thu, 12 Nov 2020 09:17:34 +0000</pubDate>
				<category><![CDATA[Java]]></category>
		<category><![CDATA[debug]]></category>
		<category><![CDATA[Hadoop]]></category>
		<category><![CDATA[本地]]></category>
		<category><![CDATA[调试]]></category>
		<guid isPermaLink="false">https://www.coder4.com/?p=7118</guid>

					<description><![CDATA[1 pom准备 &#60;?xml version="1.0" encoding="UTF-8"?&#62; &#60;project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0[......] 继续阅读]]></description>
		
					<wfw:commentRss>https://www.coder4.com/archives/7118/feed</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>如何拓展Hadoop的InputFormat为其他分隔符</title>
		<link>https://www.coder4.com/archives/4313</link>
					<comments>https://www.coder4.com/archives/4313#comments</comments>
		
		<dc:creator><![CDATA[coder4]]></dc:creator>
		<pubDate>Sat, 08 Nov 2014 07:58:39 +0000</pubDate>
				<category><![CDATA[大数据技术]]></category>
		<category><![CDATA[Hadoop]]></category>
		<category><![CDATA[InputFormat]]></category>
		<category><![CDATA[分隔符]]></category>
		<guid isPermaLink="false">http://www.coder4.com/?p=4313</guid>

					<description><![CDATA[在Hadoop中，常用的TextInputFormat是以换行符作为Record分隔符的。 在实际应用中，我们经常会出现一条Record中包含多行的情况，例如： &#60;doc&#62; .... &#60;/doc&#62; 此时，需要拓展TextInputFormat以完成这个功能。 先来看一下原始实现： public class TextInputFormat extends FileInputFormat&#60;LongWritable, Text&#62; {[......] 继续阅读]]></description>
		
					<wfw:commentRss>https://www.coder4.com/archives/4313/feed</wfw:commentRss>
			<slash:comments>1</slash:comments>
		
		
			</item>
		<item>
		<title>Hive中找出Table和Partition的真实路径。</title>
		<link>https://www.coder4.com/archives/4272</link>
					<comments>https://www.coder4.com/archives/4272#respond</comments>
		
		<dc:creator><![CDATA[coder4]]></dc:creator>
		<pubDate>Tue, 05 Aug 2014 09:14:11 +0000</pubDate>
				<category><![CDATA[大数据技术]]></category>
		<category><![CDATA[Hadoop]]></category>
		<category><![CDATA[HDFS]]></category>
		<category><![CDATA[Hive]]></category>
		<category><![CDATA[partition]]></category>
		<category><![CDATA[table]]></category>
		<category><![CDATA[路径]]></category>
		<guid isPermaLink="false">http://www.coder4.com/?p=4272</guid>

					<description><![CDATA[在Hive中，如果使用了External Table或者Partition，那么路径是不在自己的hive warehouse下的。 -- 获取table的真实hdfs路径 desc formatted my_table; -- 获取partition的真实hdfs路径 desc formatted my_table (pt='20140804'); &#160;[......] 继续阅读]]></description>
		
					<wfw:commentRss>https://www.coder4.com/archives/4272/feed</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>如何在Hadoop中控制map的个数</title>
		<link>https://www.coder4.com/archives/4242</link>
					<comments>https://www.coder4.com/archives/4242#respond</comments>
		
		<dc:creator><![CDATA[coder4]]></dc:creator>
		<pubDate>Tue, 13 May 2014 08:57:06 +0000</pubDate>
				<category><![CDATA[大数据技术]]></category>
		<category><![CDATA[Hadoop]]></category>
		<category><![CDATA[Map]]></category>
		<category><![CDATA[个数]]></category>
		<guid isPermaLink="false">http://www.coder4.com/?p=4242</guid>

					<description><![CDATA[转载自：如何在hadoop中控制map的个数 hadoop提供了一个设置map个数的参数mapred.map.tasks，我们可以通过这个参数来控制map的个数。但是通过这种方式设置map的个数，并不是每次都有效的。原因是mapred.map.tasks只是一个hadoop的参考数值，最终map的个数，还取决于其他的因素。 为了方便介绍，先来看几个名词： block_size : hdfs的文件块大小，默认为64M，可以通过参数dfs.block.size设置 total_size[......] 继续阅读]]></description>
		
					<wfw:commentRss>https://www.coder4.com/archives/4242/feed</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>Mahout - Clustering (聚类篇)</title>
		<link>https://www.coder4.com/archives/4181</link>
					<comments>https://www.coder4.com/archives/4181#comments</comments>
		
		<dc:creator><![CDATA[coder4]]></dc:creator>
		<pubDate>Sat, 12 Apr 2014 13:31:39 +0000</pubDate>
				<category><![CDATA[大数据技术]]></category>
		<category><![CDATA[Hadoop]]></category>
		<category><![CDATA[Mahout]]></category>
		<category><![CDATA[数据挖掘]]></category>
		<category><![CDATA[机器学习]]></category>
		<category><![CDATA[聚类]]></category>
		<guid isPermaLink="false">http://www.coder4.com/?p=4181</guid>

					<description><![CDATA[什么是Mahout？ " Apache Mahout™ project's goal is to build a scalable machine learning library " 我来拓展一下： (1) Mahout 是Apache旗下的开源项目，集成了大量的机器学习算法。 (2) 大部分算法，可以运行在Hadoop上，具有很好的拓展性，使得大数据上的机器学习成为可能。 本篇主要探讨 Mahout 0.9 中的聚类(Clustering)工具的用法。 一、数据准[......] 继续阅读]]></description>
		
					<wfw:commentRss>https://www.coder4.com/archives/4181/feed</wfw:commentRss>
			<slash:comments>7</slash:comments>
		
		
			</item>
		<item>
		<title>升级到JDK 7后，Sort出现兼容性问题的解法。</title>
		<link>https://www.coder4.com/archives/4102</link>
					<comments>https://www.coder4.com/archives/4102#respond</comments>
		
		<dc:creator><![CDATA[coder4]]></dc:creator>
		<pubDate>Wed, 22 Jan 2014 01:52:07 +0000</pubDate>
				<category><![CDATA[大数据技术]]></category>
		<category><![CDATA[7]]></category>
		<category><![CDATA[Hadoop]]></category>
		<category><![CDATA[jdk]]></category>
		<category><![CDATA[sort]]></category>
		<guid isPermaLink="false">http://www.coder4.com/?p=4102</guid>

					<description><![CDATA[在昨天的文章 TimSort in Java 7 中，我们讨论了升级到JDK 7后，Collection的sort方法，出现兼容性问题的原因。 究其根本，还是我们写的compare函数不够严谨。 本文主要针对Hadoop、Hive，从系统的部署、配置层面提出一些解法。 1、Hive 在执行前，指定JVM选项。 set mapreduce.map.java.opts=-Xmx2000m -Djava.util.Arrays.useLegacyMergeSort=true[......] 继续阅读]]></description>
		
					<wfw:commentRss>https://www.coder4.com/archives/4102/feed</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>Hadoop使用Streaming的一些坑</title>
		<link>https://www.coder4.com/archives/4083</link>
					<comments>https://www.coder4.com/archives/4083#respond</comments>
		
		<dc:creator><![CDATA[coder4]]></dc:creator>
		<pubDate>Tue, 07 Jan 2014 08:36:46 +0000</pubDate>
				<category><![CDATA[大数据技术]]></category>
		<category><![CDATA[Hadoop]]></category>
		<category><![CDATA[Streaming]]></category>
		<guid isPermaLink="false">http://www.coder4.com/?p=4083</guid>

					<description><![CDATA[有的时候，使用Hadoop Streaming比写Map、Reduce要轻量一些。但是由一些坑要注意。 例如，使用SequenceFile、指定分隔符等等。 hadoop jar /path/hadoop-xxxx-streaming.jar \ -D mapred.reduce.tasks=100 \ -input path/xxx \ -output path/yyy \ -file ./dna.[......] 继续阅读]]></description>
		
					<wfw:commentRss>https://www.coder4.com/archives/4083/feed</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>[转 ]Hadoop - How to do a secondary sort on values ?</title>
		<link>https://www.coder4.com/archives/3946</link>
					<comments>https://www.coder4.com/archives/3946#respond</comments>
		
		<dc:creator><![CDATA[coder4]]></dc:creator>
		<pubDate>Sun, 28 Jul 2013 11:33:30 +0000</pubDate>
				<category><![CDATA[Linux]]></category>
		<category><![CDATA[大数据技术]]></category>
		<category><![CDATA[Hadoop]]></category>
		<category><![CDATA[Reduce]]></category>
		<category><![CDATA[value 排序]]></category>
		<category><![CDATA[二次排序]]></category>
		<guid isPermaLink="false">http://www.coder4.com/?p=3946</guid>

					<description><![CDATA[关于在hadoop中，如何让reduce阶段同一个key下的values有序，一篇很好的文章，写的比《Hadoop权威指南》清楚！ 转载自： http://www.bigdataspeak.com/2013/02/hadoop-how-to-do-secondary-sort-on_25.html The problem at hand here is that you need to work upon a sorted values set in your reducer.[......] 继续阅读]]></description>
		
					<wfw:commentRss>https://www.coder4.com/archives/3946/feed</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>[转载]MapReduce的模式、算法和用例</title>
		<link>https://www.coder4.com/archives/3862</link>
					<comments>https://www.coder4.com/archives/3862#respond</comments>
		
		<dc:creator><![CDATA[coder4]]></dc:creator>
		<pubDate>Wed, 03 Apr 2013 10:17:34 +0000</pubDate>
				<category><![CDATA[大数据技术]]></category>
		<category><![CDATA[Hadoop]]></category>
		<category><![CDATA[MapReduce]]></category>
		<category><![CDATA[模式]]></category>
		<guid isPermaLink="false">http://www.coder4.com/?p=3862</guid>

					<description><![CDATA[转载自：http://yangguan.org/mapreduce-patterns-algorithms-and-use-cases/ 翻译自：http://highlyscalable.wordpress.com/2012/02/01/mapreduce-patterns/ 在这篇文章里总结了几种网上或者论文中常见的MapReduce模式和算法，并系统化的解释了这些技术的不同之处。所有描述性的文字和代码都使用了标准hadoop的MapReduce模型，包括Mappers, Red[......] 继续阅读]]></description>
		
					<wfw:commentRss>https://www.coder4.com/archives/3862/feed</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
	</channel>
</rss>
