这张围绕着Map/Reduce的流程和一些优化。
1、Map/Reduce任务执行涉及到的四方:
client:运行JobClient的进程。
JobTracker:分配、调度任务。
TaskTracker:具体运行任务的虚拟机。
HDFS:分布式文件系统。
2、JobClient执行runJob()后,实际是submitJob(),然后进入执行流程
(1)run job
(2)向JobTracker申请JobID
(3)拷贝所需的JAR包、配置文件等到HDFS上[......]
这张围绕着Map/Reduce的流程和一些优化。
1、Map/Reduce任务执行涉及到的四方:
client:运行JobClient的进程。
JobTracker:分配、调度任务。
TaskTracker:具体运行任务的虚拟机。
HDFS:分布式文件系统。
2、JobClient执行runJob()后,实际是submitJob(),然后进入执行流程
(1)run job
(2)向JobTracker申请JobID
(3)拷贝所需的JAR包、配置文件等到HDFS上[......]
转载自一个台湾朋友写的PageRank in MapReduce
其实我一直没想到PR怎么算是因为...不知道怎么多次迭代,原来是用反复RunJob来实现的。
前言
有一陣子沒有寫MapReduce程式了,所以找個代表性的實例來練習一下...
PageRank in MapReduce
PageRank演算法最早是由Google兩位創辦人Sergey Brin & Larry Page在1998年的時候發表在World-Wide Web Conference[......]
这一章主要是走开发Map/Reduce流程,另外介绍Hadoop的配置。
1、配置类org.apache.hadoop.conf.Configuration
属性名是String,Value是boolean、int、long、float、String、Class、File等。
2、上面提到的Configuration是从如下的xml配置文件中读出来的。
注意格式!
<?xml version="1.0"?>
<configuration>
<p[......]
set hlsearch
set nocompatible
set nu
filetype on
syntax on
set autoindent
set smartindent
set tabstop=4
set shiftwidth=4
set expandtab
if has('mouse')
set mouse-=a
endif[......]
悲剧么,Clubuptime挂那天写的,然后发现备份时候没打包上,幸好有Google Cache。
MooseFS是一个优秀的分布式文件系统,提供了Fuse接口的客户端,挂载后和读写本地磁盘上的文件无异,是替代NFS的理想选择。
除了无需重启拓展结点、稳定性子等技术特性之外,作者的更新和技术支持非常好,文档比较全面。
MooseFS分为三个部分,Master Server,Chunk Server和MetaLog Server.
其中,Master Server存储了元信息,[......]