Category Archives: C && C++

其实就是随机洗牌。

Knuth给过一个算法，为代码如下：

注意：随机数不是1~n，而是i~n！！
For i = 1 to n
Pick a random integer j from i to n
Swap A[i] and A[j]
关于为什么如此，吾等码农就不了解了，等大神来证明吧……[......]

大量数据取k个最大值并排序

1 Reply

需求是这样的，我们都知道，在信息检索中，经常要取top-k(一共k，而不是第k)个得分最大的文档，并且从大到小排序。

而且文档规模很大，最少也要上千万。

话说这是一道很可以拿来面试的题啊。

我们不考虑Hadoop神马的，就说说单机怎么搞。

最傻的做法就是把1000万个都存储下来，然后sort，然后取min(k, vec.size())。

这样有两个缺点：
1、内存占用非常大，其实我们只要保留最大的1000个，但这样就要保存N个。在1000万的测试中，它要占用68M[......]

1 Reply

SimpleBM25F是BM25F的基础拓展版本，主要用于多个域的拓展，感兴趣的可以看《Simple BM25 Extension to Multiple Weighted Fields》。

主要观点：按照权重将不同域重复相应次数，拼成无结构的混合文本桶，然后只计算一次BM25得分。

而之前很多人采用的各个域先计算不同的BM25，再线性组合的做法，则破坏了词项独立性而效果很差。

传统：bm25.cpp
#include <xapian.h>
#include &[......]