Tag Archives: [IR] Lucene && Sphinx && Xapian

《Lucene in Action》第五章---高级主题

Leave a reply

5.1 Filed的Cache
有时，存在这样的需求：快速的访问每个Document的Field，但是Lucene只是做了反向索引，因此这种正向索引非常耗时。

Stored fields是一种解决方法，但是也很慢，特别当量大的时候，占用很多内存。

Field的Cache能很好地解决这个问题。

要求

Document必须只有一个Token！

用法

float[] weights = FieldCache.DEFAULT.getFloats(reader, “[......]

继续阅读

《Lucene In Action》第四章.Analysis（分词）

Leave a reply

简单来说，Analysis就是把field Text转化成基本的Term的形式。

通过分词，将Text转化为Token，Token+对应的Field即为Term。

分词的处理包括：萃取、丢弃标点、移除发音、小写、移除常用单词、去除变形（去掉过去时等）等。

本章将介绍如何使用内置的分词器，以及如何根据语言、环境等特点创建自己的分词器。
4.1 使用Analysis
分词用于所有需要将Text转化成Term的场合，在Lucene中主要有两个：

1、Index（索引）[......]

继续阅读

《Lucene In Action》第三章.搜索

Leave a reply

主要的类

IndexSearcher：搜索的主类。

Query（及具体子类）：被传入IndexSearcher的search方法，用于逻辑上的搜索。

QueryParser：将人工输入的查询字符串转化成Query对象。

TopDocs：存储着得分最高的那些文档，由IndexSearcher的search方法返回。

ScoreDoc：TopDocs中的每一个文档，他们只保留着Document的引用。
3.1 实现简单的索引功能
可以通过符合Lucene的字符串或者[......]

继续阅读

Lucene in Action(2nd)--第二章索引

Leave a reply

2.1 从概念理解Lucene的Index（索引）文档模型
Lucene主要有两种文档模型：Document和Field，一个Document可能包含若干个Field。

每一个Field有不同的策略：

1.被索引 or not，将该字段（Field）经过分析（Analyisi）后，加入索引中，并不是原文。

2.如果被索引，可选择是否保存“term vector”(向量)，用于相似检索。

3.可选择是否存储(store)，将原文直接拷贝，不做索引，用于检索后的取出。[......]

继续阅读

运行Lucene的Demo1

2 Replies

1、配置Java环境

以前都是安装的，导致ClassPath配置不正确，需要设置如下：

JAVA_HOME = C:\Java\jdk1.6.0_14

PATH = %JAVA_HOME%\bin;%JAVA_HOME%\jre\bin

CLASSPATH = .;%JAVA_HOME%\lib;%JAVA_HOME%\lib\tools.jar;D:\soft\lucene\lucene-core-3.0.1.jar;D:\soft\lucene\lucene-demo[......]

继续阅读

四号程序员

Keep It Simple and Stupid

Tag Archives: [IR] Lucene && Sphinx && Xapian

《Lucene in Action》第五章---高级主题

《Lucene In Action》第四章.Analysis（分词）

《Lucene In Action》第三章.搜索

Lucene in Action(2nd)--第二章索引

运行Lucene的Demo1