Tag Archives: MapReduce

[转]Hadoop MapReduce 二次排序原理及其应用

转载自:《Hadoop MapReduce 二次排序原理及应用》

关于二次排序主要涉及到这么几个东西:

0.20.0以前使用的是

  • setPartitionerClass
  • setOutputkeyComparatorClass
  • setOutputValueGroupingComparator

0.20.0以后使用是

  • job.setPartitionerClass(Partitioner p);
  • job.setSortComparatorClass([......]

    继续阅读

[转载]MapReduce的模式、算法和用例

转载自:http://yangguan.org/mapreduce-patterns-algorithms-and-use-cases/

翻译自:http://highlyscalable.wordpress.com/2012/02/01/mapreduce-patterns/

在这篇文章里总结了几种网上或者论文中常见的MapReduce模式和算法,并系统化的解释了这些技术的不同之处。所有描述性的文字和代码都使用了标准hadoop的MapReduce模型,包括Mappers, Red[......]

继续阅读

WordCount的一个变种版本...Hadoop

本来是要用Hadoop给柯西搜索写一下锚文本聚集。但是发现上个版本的爬虫居然没有存锚文本,实在无聊,写了个统计域名(实际是host)的计数器。

输入:一行一个url
流程:提取url的domain,对domain计数+1
输出:域名,域名计数

这次完全用新的API写的。

代码如下:

Mapper
package com.keseek.hadoop;

import java.io.IOException;
import java.net.URI;

imp[......]

继续阅读

[转载]PageRank in MapReduce

转载自一个台湾朋友写的PageRank in MapReduce

其实我一直没想到PR怎么算是因为...不知道怎么多次迭代,原来是用反复RunJob来实现的。

前言

有一陣子沒有寫MapReduce程式了,所以找個代表性的實例來練習一下...

PageRank in MapReduce

PageRank演算法最早是由Google兩位創辦人Sergey Brin & Larry Page在1998年的時候發表在World-Wide Web Conference[......]

继续阅读