Search Engines: Information Retrieval in Practice - 第2章

第2章:Architecture of a Search Engine (搜索引擎的整体结构)

1、搜索引擎的两个目标:Effectiveness(效果quality)和Efficienct(性能speed)。

2、搜索引擎的组成
(1) Indexing Process (建索引)
包括:
Text Acquistion (文档获取),典型的有:Crawling (爬虫), Metadata (元信息抽取)。
Text Transformation (文档转换),主要是:[......]

继续阅读

Screen下如何滚动窗口

Linux下的GNU Screen是很好的软件。

参考文章:FAQ: How to scrollback in GNU SCREEN?

如何滚动窗口呢?

首先,进入拷贝模式:
Ctrl + a + [
然后,如下方式移动:

(其实,此时上下左右,PageUp和PageDown都可以用的。)
h - Move the cursor left by one character
j - Move the cursor down by one line[......]

继续阅读

通过Python接口wx_Oracle访问数据库

Oracle数据库是商业软件,封闭的东西,折腾是难免的。

即使有Python接口,也是依赖Oracle原生类库的。

目前比较流行的Python访问Oracle的接口是:cx Oracle

1、安装instantclient

地址参考之前的一篇文章:《Linux下配置OCI(Oracle调用接口)》

以我的10g为例子,需要下面两个文件:

sdk-10.2.0.5.0-linux-x64.zip  需要这之中的include头文件

basiclite-10[......]

继续阅读