压缩数据库可以减小数据库体积,提高检索性能。
xapian-compact – Compact a database, or merge and compact several
Usage: xapian-compact [OPTIONS] SOURCE_DATABASE… DESTINATION_DATABASE
Options:
-b, –blocksize Set the blocksize in bytes (e.g. 4096) or K (e.g. 4K[……]
压缩数据库可以减小数据库体积,提高检索性能。
xapian-compact – Compact a database, or merge and compact several
Usage: xapian-compact [OPTIONS] SOURCE_DATABASE… DESTINATION_DATABASE
Options:
-b, –blocksize Set the blocksize in bytes (e.g. 4096) or K (e.g. 4K[……]
本章介绍了关于搜索原信息获取的问题,数据源除了Web、Feed之外,还有邮件、文档等各种可能的内网资源。
1、web的采集系统称为web crawler。两个最大的挑战:
(1)Web规模巨大,消耗巨大带宽、存储、CPU资源
(2) 不可控情况,很多网页会阻止你采集(加访问权限),有的Form表单无法采集,会产生数百万的组合结果(这种情况下,最好放弃form表单的采集)。
2、web上的每一个资源通过URL(Uniform resource locator)表示。分为scheme[……]
第2章:Architecture of a Search Engine (搜索引擎的整体结构)
1、搜索引擎的两个目标:Effectiveness(效果quality)和Efficienct(性能speed)。
2、搜索引擎的组成:
(1) Indexing Process (建索引)
包括:
Text Acquistion (文档获取),典型的有:Crawling (爬虫), Metadata (元信息抽取)。
Text Transformation (文档转换),主要是:[……]