Tag Archives: Search Engines

Search Engines: Information Retrieval in Practice – 第7章

这章想看很久了，信息检索最核心的东西：检索模型(Retrieval Models)！

1、信息检索发展45年来的核心问题：让人们找到所需要的信息。

2、理想很丰满，但现实很骨感，我们现在只能做好一件事情：对文档进行排序，让最相关的排在前面----这就是信息检索模型。

3、检索模型的成功应用，让1990s间，检索效果提升了100%以上。

4、说到“文档相关”，有两组需要区分的概念：
(1)话题相关 or 用户相关。用户相关显然是最理想的情况，但一般很难实现，多数情况，还是[......]

Search Engines: Information Retrieval in Practice – 第5章

Ranking with Indexes

本章内容：索引结构

1、每个系统都需要对应的数据结构(data structures)。信息检索中最常用的数据结构是：倒排索引(inverted index)。

2、本章的另外一个主题是：查询处理(Query processing)，即如何让查询使用索引的数据。

3、抽象检索模型：
(1)一篇文档被转化为对应的词项(index terms)，形成不同的特征(features)
(2)主题特征(topical features)[......]

Search Engines: Information Retrieval in Practice – 第4章

Topic:Processing Text...

本章主题：文本处理

1、本章的主题:文本变换(Text Transformation)和文本处理(Text Processing)

2、将单词(Words)转化为可建索引的词项(Terms)的形式。

3、最懒的方法是:什么都不处理，这样，所有词都可以且只能被精确匹配。这样，诸如大小写、词形变换等导致的单词，就无法被检索出来。

4、分词(Tokenization):将段落转化为Words的过程。

5、归一化(St[......]

Search Engines: Information Retrieval in Practice – 第3章

本章介绍了关于搜索原信息获取的问题，数据源除了Web、Feed之外，还有邮件、文档等各种可能的内网资源。

1、web的采集系统称为web crawler。两个最大的挑战：
(1)Web规模巨大，消耗巨大带宽、存储、CPU资源
(2) 不可控情况，很多网页会阻止你采集（加访问权限），有的Form表单无法采集，会产生数百万的组合结果(这种情况下，最好放弃form表单的采集)。

2、web上的每一个资源通过URL（Uniform resource locator）表示。分为scheme[......]

Search Engines: Information Retrieval in Practice - 第2章

第2章：Architecture of a Search Engine (搜索引擎的整体结构)

1、搜索引擎的两个目标：Effectiveness(效果quality)和Efficienct(性能speed)。

2、搜索引擎的组成：
(1) Indexing Process (建索引)
包括：
Text Acquistion (文档获取)，典型的有：Crawling (爬虫), Metadata (元信息抽取)。
Text Transformation (文档转换)，主要是：[......]