《Lucene in Action》第五章---高级主题

5.1  Filed的Cache
有时,存在这样的需求:快速的访问每个Document的Field,但是Lucene只是做了反向索引,因此这种正向索引非常耗时。

Stored fields是一种解决方法,但是也很慢,特别当量大的时候,占用很多内存。

Field的Cache能很好地解决这个问题。

要求

Document必须只有一个Token

用法

float[] weights = FieldCache.DEFAULT.getFloats(reader, “[......]

继续阅读

《Lucene In Action》第四章.Analysis(分词)

简单来说,Analysis就是把field Text转化成基本的Term的形式。

通过分词,将Text转化为Token,Token+对应的Field即为Term。

分词的处理包括:萃取、丢弃标点、移除发音、小写、移除常用单词、去除变形(去掉过去时等)等。

本章将介绍如何使用内置的分词器,以及如何根据语言、环境等特点创建自己的分词器。
4.1  使用Analysis
分词用于所有需要将Text转化成Term的场合,在Lucene中主要有两个:

1、Index(索引)[......]

继续阅读

Ubuntu配置VPN

Ubuntu配置VPN,一开始是灰色的,不可用。。需要安装一些东西。

起初Network Configuration中VPN标签是灰色不可用状态,因为ubuntu默认没有安装任何相应协议的网络管理器。

$ sudo apt-get install network-manager-pptp // 安装PPTP协议管理器

$ sudo apt-get install network-manager-openvpn // 安装OpenVPN协议管理器

$ sudo Networ[......]

继续阅读