vimrc备份

Leave a reply

set hlsearch
set nocompatible
set nu
filetype on
syntax on
set autoindent
set smartindent
set tabstop=4
set shiftwidth=4
set expandtab
if has('mouse')
set mouse-=a
endif[......]

继续阅读

MooseFS分布式文件系统的搭建

Leave a reply

悲剧么，Clubuptime挂那天写的，然后发现备份时候没打包上，幸好有Google Cache。

MooseFS是一个优秀的分布式文件系统，提供了Fuse接口的客户端，挂载后和读写本地磁盘上的文件无异，是替代NFS的理想选择。

除了无需重启拓展结点、稳定性子等技术特性之外，作者的更新和技术支持非常好，文档比较全面。

MooseFS分为三个部分，Master Server,Chunk Server和MetaLog Server.
其中，Master Server存储了元信息，[......]

继续阅读

Hadoop: The Definitive Guide 第四章 Hadoop I/O

Leave a reply

1、为了HDFS中的保证数据完整性，Hadoop使用Checksum的方法，每io.bytes.per.checksum个字节计算一个CRC-32的CheckSum。默认是512字节，生成4字节的checksum，所以在空间开销上

2、Hadoop/HDFS支持压缩，当数据规模很大的时候，不仅可以节省空间，还可以减少网络I/O等的消耗。

3、在支持的压缩算法中，压缩比：bzip2 > gzip > lzo，速度：lzo > gzip > bzip2。

解[......]

继续阅读

HDFS的Java接口

Leave a reply

至少有两种方法：

1、java.net.URL
把解析 " hdfs://localhost:9000:/user/liheyuan/xxx " 这种HDFS URL的解析器加到java.net.URL中，然后用传统Java的URL相关接口搞定。
import java.io.InputStream;
import java.net.URL;
import org.apache.hadoop.fs.FsUrlStreamHandlerFactory;
import org.apa[......]

继续阅读

Hadoop小集群(5结点)测试

Leave a reply

1、Map/Reduce任务
输入：
文件格式
id value
其中id是1~100之间的随机整数，value为1~100之间的随机浮点数。
输出：
每个id的最大value

生成这类文件，可以用python搞定，见本文末尾的附录。

2、Map/Reduce程序
这里就直接使用新(0.20.2)的API了，即org.apache.hadoop.mapreduce.*下的接口。
特别注意：
job.setNumReduceTasks(5)
指定了本Job的Redu[......]

继续阅读

四号程序员

Keep It Simple and Stupid

vimrc备份

MooseFS分布式文件系统的搭建

Hadoop: The Definitive Guide 第四章 Hadoop I/O

HDFS的Java接口

Hadoop小集群(5结点)测试