Category Archives: 大数据技术

Hadoop / Hive / HBase / Mahout

[原创]Cassandra快速入门(0.6.12)

前言:本教程以Cassandra 0.6.12为例,简述单机配置及C++客户端的使用。
1、下载
目前支持c++接口的最新稳定版是0.6.12
wget http://apache.etoak.com//cassandra/0.6.12/apache-cassandra-0.6.12-bin.tar.gz
2、单机配置
cd apache-cassandra-0.6.12-bin
cd conf

#编辑配置文件,它包含了单机的基本配置
vim storage-conf.yam[......]

继续阅读

使用NoSQL的必要性?

我们来进行一些测试,论证是否有必要采用NoSQL。

因为没有条件造成同时并发读、写,因此暂时只测试单独的读和写。
MySQL
数据量:195W(行)

表结构:

ID(自增)

P_ID(逻辑上外键于另外一个表,考虑到效率,这里我们没有做这个外键)

URL(网页的URL)

主要测试的业务逻辑:根据某个P_ID来找出所有URL

插入速度:每秒1K行左右。

没有索引时候: 10.204(s)   10.172(s) 10.078(s)

对P_ID[......]

继续阅读

KFS,一个克隆GFS的文件系统

KFS(KOSMOS DISTRIBUTED FILE SYSTEM),一个类似GFS、Hadoop中HDFS 的一个开源的分布式文件系统。

PS: google的三大基石 gfs,bigtable,map-reduce 相对应的开源产品 gfs:kfs(据传google创史人的同窗所创),hdfs(hadoop的子项目) bigtable:hbase(hadoop的子项目),Hypertable(从hbase项目组分离出去的,用c++实现) map-reduce:hadoop(apach[......]

继续阅读