Tag Archives: Hadoop

[转 ]Hadoop – How to do a secondary sort on values ?

关于在hadoop中,如何让reduce阶段同一个key下的values有序,一篇很好的文章,写的比《Hadoop权威指南》清楚!

转载自:

http://www.bigdataspeak.com/2013/02/hadoop-how-to-do-secondary-sort-on_25.html

The problem at hand here is that you need to work upon a sorted values set in your reducer.[……]

继续阅读

[转载]MapReduce的模式、算法和用例

转载自:http://yangguan.org/mapreduce-patterns-algorithms-and-use-cases/

翻译自:http://highlyscalable.wordpress.com/2012/02/01/mapreduce-patterns/

在这篇文章里总结了几种网上或者论文中常见的MapReduce模式和算法,并系统化的解释了这些技术的不同之处。所有描述性的文字和代码都使用了标准hadoop的MapReduce模型,包括Mappers, Red[……]

继续阅读

Hadoop集群配置详细版

之前配置Hadoop的很多步骤不太详细,配置文件的许多优化点也没太搞清楚,重新写一下。

2012.06.22更新:Hadoop版本兼容到1.0.3。

0、ssh免密码登录
ssh-keygen -t rsa -P ""
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys
echo "StrictHostKeyChecking no" >> ~/.ssh/c[……]

继续阅读