之前配置Hadoop的很多步骤不太详细,配置文件的许多优化点也没太搞清楚,重新写一下。
1、ssh免密码登录
ssh-keygen -t rsa -P ""
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys
echo "StrictHostKeyChecking no" >> ~/.ssh/config
2、安装JDK7
#下载 && 解压[......]
之前配置Hadoop的很多步骤不太详细,配置文件的许多优化点也没太搞清楚,重新写一下。
1、ssh免密码登录
ssh-keygen -t rsa -P ""
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys
echo "StrictHostKeyChecking no" >> ~/.ssh/config
2、安装JDK7
#下载 && 解压[......]
本来是要用Hadoop给柯西搜索写一下锚文本聚集。但是发现上个版本的爬虫居然没有存锚文本,实在无聊,写了个统计域名(实际是host)的计数器。
输入:一行一个url
流程:提取url的domain,对domain计数+1
输出:域名,域名计数
这次完全用新的API写的。
代码如下:
Mapper
package com.keseek.hadoop;
import java.io.IOException;
import java.net.URI;
imp[......]
今天下午将Thrift定义的格式生成Java,折腾了3个小时,在依赖包齐全的前提下,死活出一堆编译错误。
最后开始翻代码,终于发现了原因:index是Java接口内部保留字,请不要用它做任何函数名、结构体、变量名……
create keyspace yqjc_bbs;
use yqjc_bbs;
create column family title with comparator = AsciiType and keys_cached=1.0 and rows_cached = 1000000;
对与版本更新频繁的项目一直都没有好感。比如Cassandra,比如Thrift,天天更新的能靠谱么……
Anyway,用什么不是我能决定的了,还是老老实实编译Thrift吧……
需求就是,至少(也只需要)支持C++和Python
Thrift的依赖写着boost,不加with-boost就不给编译with-cpp唉……
#configure
./configure –with-cpp –with-python –with-boost –without-csharp –w[......]
最近评论