让程序崩溃后生成Core Dump

用Doxygen生成文档时，在处理一个图片时报如下错误：
sh: dot: not found
Problems running dot: exit code=127, command='dot', arguments='"/home/liheyuan/code/zookeeper-3.3.3/src/c/docs/html/zookeeper_8h__incl.dot" -Tpng -o "/home/liheyuan/code/zookeeper-3.3.3/src/c/docs/htm[......]

继续阅读

Xapian压缩数据库

1 Reply

压缩数据库可以减小数据库体积，提高检索性能。
xapian-compact - Compact a database, or merge and compact several

Usage: xapian-compact [OPTIONS] SOURCE_DATABASE... DESTINATION_DATABASE

Options:
-b, --blocksize Set the blocksize in bytes (e.g. 4096) or K (e.g. 4K[......]

继续阅读

Search Engines: Information Retrieval in Practice – 第3章

Leave a reply

本章介绍了关于搜索原信息获取的问题，数据源除了Web、Feed之外，还有邮件、文档等各种可能的内网资源。

1、web的采集系统称为web crawler。两个最大的挑战：
(1)Web规模巨大，消耗巨大带宽、存储、CPU资源
(2) 不可控情况，很多网页会阻止你采集（加访问权限），有的Form表单无法采集，会产生数百万的组合结果(这种情况下，最好放弃form表单的采集)。

2、web上的每一个资源通过URL（Uniform resource locator）表示。分为scheme[......]

继续阅读

四号程序员

Keep It Simple and Stupid

让程序崩溃后生成Core Dump

Search Engines: Information Retrieval in Practice – 第4章

Doxygen生成文档时报"sh: dot: not found"

Xapian压缩数据库

Search Engines: Information Retrieval in Practice – 第3章