[转载]基于用户投票的排名算法

这是 阮一峰 写的系列的文章,共6篇,对于投票类的排名计算,非常有意义,由于图、公式比较多,就直接贴出原文链接了。

基于用户投票的排名算法(一):Delicious和Hacker News

基于用户投票的排名算法(二):Reddit

基于用户投票的排名算法(三):Stack Overflow

基于用户投票的排名算法(四):牛顿冷却定律

基于用户投票的排名算法(五):威尔逊区间

基于用户投票的排名算法(六):贝叶斯平均[......]

继续阅读

Hive中的TRANSFORM:使用脚本完成Map/Reduce。

数据、例子,修改自:《Hive with Python example》

首先来看一下数据:
hive> select * from test;
OK
1 3
2 2
3 1
假设,我们要输出每一列的md5值。在目前的hive中是没有这个udf的。

我们看一下Python的代码:
#!/home/tops/bin/python

import sys
import hashlib

for line in sys.st[......]

继续阅读

Hive中的InputFormat、OutputFormat与SerDe

前言
Hive中,默认使用的是TextInputFormat,一行表示一条记录。在每条记录(一行中),默认使用^A分割各个字段。

在有些时候,我们往往面对多行,结构化的文档,并需要将其导入Hive处理,此时,就需要自定义InputFormat、OutputFormat,以及SerDe了。

首先来理清这三者之间的关系,我们直接引用Hive官方说法:

SerDe is a short name for "Serializer and Deserializer."
Hive us[......]

继续阅读