[转载]基于用户投票的排名算法

这是阮一峰写的系列的文章，共6篇，对于投票类的排名计算，非常有意义，由于图、公式比较多，就直接贴出原文链接了。

基于用户投票的排名算法（一）：Delicious和Hacker News

基于用户投票的排名算法（二）：Reddit

基于用户投票的排名算法（三）：Stack Overflow

基于用户投票的排名算法（四）：牛顿冷却定律

基于用户投票的排名算法（五）：威尔逊区间

基于用户投票的排名算法（六）：贝叶斯平均[......]

Hive中的TRANSFORM：使用脚本完成Map/Reduce。

2 Replies

数据、例子，修改自：《Hive with Python example》

首先来看一下数据：
hive> select * from test;
OK
1 3
2 2
3 1
假设，我们要输出每一列的md5值。在目前的hive中是没有这个udf的。

我们看一下Python的代码：
#!/home/tops/bin/python

import sys
import hashlib

for line in sys.st[......]

Hive中的InputFormat、OutputFormat与SerDe

1 Reply

前言
Hive中，默认使用的是TextInputFormat，一行表示一条记录。在每条记录(一行中)，默认使用^A分割各个字段。

在有些时候，我们往往面对多行，结构化的文档，并需要将其导入Hive处理，此时，就需要自定义InputFormat、OutputFormat，以及SerDe了。

首先来理清这三者之间的关系，我们直接引用Hive官方说法：

SerDe is a short name for "Serializer and Deserializer."
Hive us[......]

Hive如何在GROUP BY 后，获取每个GROUP的Top N

1 Reply

转载自：http://stackoverflow.com/questions/9390698/hive-getting-top-n-records-in-group-by-query

原标题：Hive getting top n records in group by query
SELECT page-id, user-id, clicks
FROM (
SELECT page-id, user-id, rank(page-id) as rank, clicks FROM[......]