Category Archives: 大数据技术

Hadoop / Hive / HBase / Mahout

Hadoop集群配置

首先恢复单机配置,可以参考教程:
http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-single-node-cluster/
本文大部分参考了这个《Hadoop集群配置教程》,非常感谢!

Master:10.182.165.114 node1 (Namenode 和 JobTracker)
Slave:10.182.165.156 node2

1、下载、创建用户
/usr/sbin/add[......]

继续阅读

Hadoop伪集群测试

Hadoop的执行模式有三种:单机、伪集群和集群。

前面《Hadoop单机测试》文章中,我们已经搞定了纯单机模式。下面来说伪集群。

伪集群的各个进程将跑在不同的JVM里,并且使用HDFS。

2012.06.21更新:更新Hadoop版本到1.0.3

1、配置伪集群

conf/core-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl&qu[......]

继续阅读

Hadoop单机测试

经过电话确认,终于把Rackspace激活了,又多了一个玩具,以后再跑大实验时候可以用用看。

以下主要参考Hadoop的官方教程。

2012年6月21日更新:更新到最新的版本Hadoop 1.0.3

1、下载Hadoop
wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-1.0.3/hadoop-1.0.3-bin.tar.gz

tar -xzvf hadoop-1.0.3-bin.tar.gz
2、设[......]

继续阅读

关于Cassandra占用8080端口的问题

今天需要再一台服务器上开两个cassandra,更改了storage-conf.xml中的port后,依然出现“java.net.BindException: Address already in use”的错误,感觉非常诡异……

经过检查发现,cassandra启动时候默认启动了8080端口用于jmx(Java性能检测),如果我们不需要的话,去掉就可以了。

配置在bin/cassandra.in.sh中,如下去掉即可:
cassandra_home=`dirname $0`/..[......]

继续阅读

初试Gevent – 高性能的Python并发框架

Gevent是一个基于greenlet的Python的并发框架,以微线程greenlet为核心,使用了epoll事件监听机制以及诸多其他优化而变得高效。

于greenlet、eventlet相比,性能略低,但是它封装的API非常完善,最赞的是提供了一个monkey类,可以将现有基于Python线程直接转化为greenlet,相当于proxy了一下(打了patch)。

今天有空就迫不及待的试一下效果。

1、安装

Gevent依赖libevent和greenlet,需要分别安[......]

继续阅读