Search Engines: Information Retrieval in Practice – 第7章

这章想看很久了,信息检索最核心的东西:检索模型(Retrieval Models)!

1、信息检索发展45年来的核心问题:让人们找到所需要的信息。

2、理想很丰满,但现实很骨感,我们现在只能做好一件事情:对文档进行排序,让最相关的排在前面—-这就是信息检索模型。

3、检索模型的成功应用,让1990s间,检索效果提升了100%以上。

4、说到“文档相关”,有两组需要区分的概念:
(1)话题相关 or 用户相关。用户相关显然是最理想的情况,但一般很难实现,多数情况,还是话题(文本)层面的相关。
(2)二值相关 or 多级相关。二值:0 or 1,相关或不相关。分级:3 2 1 0,即相关中,也分为不同等级。

5、布尔检索模型(Boolean Retrieval):
优势:结果可预测,结果易于理解,效率高。
劣势:构造查询太复杂,结果无序。

6、在法律等专业领域,还保留着布尔模型,但一般是由专业人员,称为“search intermediaries”的人,构造Query,进行检索。

7、向量空间模型(Vector Space Model),研究主要集中于1960s和1970s。

8、VSM将文档D、查询Q都表示成t-维度的向量:
D = (di1, di2, …, dit),di1为文档i中第1个词的权重。

9、VSM计算向量D和Q的余弦夹角。夹角越小的,说明D和Q越相似,即D越相关。

10、上面提到的向量中某一个维度的词权重,di1怎么计算呢?一般采用tf-idf的方法计算。

11、idf反映了词在文档集C中的重要程度,词在文档集合中出现的越多,说明它越不具有区分度。

12、Roccbio算法基于“优化查询”的思想,可以与VSM很好的结合在一起。它根据相关、不相关的词权重,调整查询中不同词的权重向量。

假设查询向量为Q,现在有了一些相关反馈结果,我们想根据这些反馈,得到一个优化的查询向量Q’,则:

 

 

Leave a Reply

Your email address will not be published.