Author Archives: coder4

Hadoop The Definitive Guide 2nd读书笔记 – 第七章

本章主要介绍了Hadoop中的各种数据类型……

1、从泛型的角度看问题。
箭头代表从输入到输出
map(k1, v1) -> list(k2, v2)
combine(k2, list(v2)) -> list(k2, v2)
reduce(k2, list(v2)) -> list(k3, v3)

2、从1中可以看到，map的输出k2 v2和reduce的输入k2和v2必须相同。
如果有combine的话，map的输出也必须和combine相匹配。[......]

继续阅读

Hadoop The Definitive Guide 2nd读书笔记 – 第六章

Leave a reply

这张围绕着Map/Reduce的流程和一些优化。

1、Map/Reduce任务执行涉及到的四方：
client：运行JobClient的进程。
JobTracker：分配、调度任务。
TaskTracker：具体运行任务的虚拟机。
HDFS：分布式文件系统。

2、JobClient执行runJob()后，实际是submitJob()，然后进入执行流程

(1)run job
(2)向JobTracker申请JobID
(3)拷贝所需的JAR包、配置文件等到HDFS上[......]

继续阅读

[转载]PageRank in MapReduce

Leave a reply

转载自一个台湾朋友写的PageRank in MapReduce

其实我一直没想到PR怎么算是因为...不知道怎么多次迭代，原来是用反复RunJob来实现的。

前言

有一陣子沒有寫MapReduce程式了，所以找個代表性的實例來練習一下...

PageRank in MapReduce

PageRank演算法最早是由Google兩位創辦人Sergey Brin & Larry Page在1998年的時候發表在World-Wide Web Conference[......]

继续阅读

Hadoop The Definitive Guide 2nd读书笔记 - 第五章

Leave a reply

这一章主要是走开发Map/Reduce流程，另外介绍Hadoop的配置。

1、配置类org.apache.hadoop.conf.Configuration
属性名是String，Value是boolean、int、long、float、String、Class、File等。

2、上面提到的Configuration是从如下的xml配置文件中读出来的。
注意格式！
<?xml version="1.0"?>
<configuration>
<p[......]

继续阅读

vimrc备份

Leave a reply

set hlsearch
set nocompatible
set nu
filetype on
syntax on
set autoindent
set smartindent
set tabstop=4
set shiftwidth=4
set expandtab
if has('mouse')
set mouse-=a
endif[......]

继续阅读

四号程序员

Keep It Simple and Stupid

Author Archives: coder4

Hadoop The Definitive Guide 2nd读书笔记 – 第七章

Hadoop The Definitive Guide 2nd读书笔记 – 第六章

[转载]PageRank in MapReduce

Hadoop The Definitive Guide 2nd读书笔记 - 第五章

vimrc备份