Category Archives: [IR] Lucene && Sphinx && Xapian

Search Engines: Information Retrieval in Practice – 第3章

本章介绍了关于搜索原信息获取的问题,数据源除了Web、Feed之外,还有邮件、文档等各种可能的内网资源。

1、web的采集系统称为web crawler。两个最大的挑战:
(1)Web规模巨大,消耗巨大带宽、存储、CPU资源
(2) 不可控情况,很多网页会阻止你采集(加访问权限),有的Form表单无法采集,会产生数百万的组合结果(这种情况下,最好放弃form表单的采集)。

2、web上的每一个资源通过URL(Uniform resource locator)表示。分为scheme[……]

继续阅读

Search Engines: Information Retrieval in Practice – 第2章

第2章:Architecture of a Search Engine (搜索引擎的整体结构)

1、搜索引擎的两个目标:Effectiveness(效果quality)和Efficienct(性能speed)。

2、搜索引擎的组成
(1) Indexing Process (建索引)
包括:
Text Acquistion (文档获取),典型的有:Crawling (爬虫), Metadata (元信息抽取)。
Text Transformation (文档转换),主要是:[……]

继续阅读

试用ICTCLAS分词系统

贵所的ICTCLAS号称是目前最好的中文分词系统。今天使用了一下,记录下心得。

我的需求主要是分词,无需词性标注,而这一点可能恰恰是ICTCLAS的亮点。
主要流程:
ICTCLAS_Init(cfg_path)
ICTCLAS_ParagraphProcess(input, input_len, buffer, ENCODING, 0)
buffer是缓冲区,建议为6 * input_len
0是我不需要词性标注

对这个类包装了一下,方便今后使用。
PS:ICTCLAS[……]

继续阅读

学习Xapian(4) – Faceting Search(Filter / 过滤)

在信息检索中,有一类任务叫做Faceting Search,在Wikipedia中的定义如下:
Faceted search, also called faceted navigation or faceted browsing, is a technique for accessing a collection of information represented using a faceted classification, allowing users to explore by fil[……]

继续阅读