《Lucene in Action》第五章---高级主题

5.1 Filed的Cache

有时，存在这样的需求：快速的访问每个Document的Field，但是Lucene只是做了反向索引，因此这种正向索引非常耗时。

Stored fields是一种解决方法，但是也很慢，特别当量大的时候，占用很多内存。

Field的Cache能很好地解决这个问题。

要求

Document必须只有一个Token！

用法

float[] weights = FieldCache.DEFAULT.getFloats(reader, “weight”);

之后，使用weights[docID]即可访问对应的Field值。

在第一次使用FieldCache后，Doc的数值会被缓存在内存中，直到Reader关闭。

因此，它将消耗大量内存。

尽量不要将“顶层Reader”传入FiledCache，防止因为reopoen导致的双倍内存消耗。

5.2 对检索结果排序

默认情况下，Lucene将按照相关性倒序排序，即最相关的在前面。

除了在前段进行排序外，本节讲述了一种Lucene提供的排序方法，注意：它将使用FieldCache，因此有可能导致大量内存消耗！

需要排序的Field字段，必须使用Field.Index.NOT_ANALYZED!!!

在IndexSearcher中，提供了下属函数

search(Query, Filter, int, Sort)

Sort即使排序器。

除此之外，还必须额外开启它，

IndexSearcher.IndexsetDefaultFieldSortScoring(doTrackScores,doMaxScore)，要排序至少前面这个doTrackScores为true。

根据多字段排序

new SortField("category", SortField.STRING), SortField.FIELD_SCORE, new SortField("pubmonth", SortField.INT,true) )

如上所示：使用SortField可以组合多个关键字来排序。最后一个参数可省略，即是否reverse（逆向）。

一般来说，不用自己手写Sorter。

更改String的排序规则

默认String是采用compareTo比较的，也可以自己定义，即通过拓展Locale的方法来实现：

SortField (String field, Locale locale)

5.5 SpanTermQuery（精确控制距离的查询）

SpanTermQuery在查询的将基础上，提供了更为精确的距离控制，例如查询"President Obama"和"health care reform"距离相近的结果。如果传统的AND方法，可能查询出结果，但也许距离非常的远。

SpanTermQuery精确的控制需要全局的遍历Document中的索引。

SpanTermQuery共有6个子类，如下所示。

SpanFirstQuery：只匹配在Field开头出现的。

SpanNearQuery：匹配距离相近的。

SpanNotQuery：匹配不重叠的。

FieldMaskingSpanQuery：多Field查询

SpanOrQuery：SpanQuery的合集。

这些子类都继承自SpanTermQuery，这个类除了TermQuery的功能外，还记录了Position的信息。

使用这些子类的方法是

1.创建SpanTermQuery，

2.作为参数传入SpanFirstQuery的构造函数中

SpanFirstQuery

例如，需要查询"the quick brown fox jump over a lazy dog"开头的brown

SpanTermQuery brown = new SpanTermQuery("f","brown");

SpanFirstQuery sfq = new SpanFirstQuery(brown, 2);

2代表从开头起2个单词内。

例如这个例子中，2是不能查询到的，3才行。

SpansNearQuery

SpanQuery[] quick_brown_dog =
new SpanQuery[]{quick, brown, dog};//quick brown 和dog都是SpanTermQuery

SpanNearQuery snq =
new SpanNearQuery(quick_brown_dog, 0, true); //要求quick brown dog是连续的，显然查询不到

snq = new SpanNearQuery(quick_brown_dog, 5, true); //5，刚刚好因为brown和dog间差了5个！

再看一下第三个参数boolean的作用，表示是否按照数组中定义的顺序（order）来

例如下面的例子，仍然对于"the quick brown fox jump over a lazy dog"

snq = new SpanNearQuery(new SpanQuery[]{lazy, fox}, 3, false);

虽然lazy和fox之间距离是负的（顺序反了），但是如果指定order为false，则刚好可以查询到。

SpanNotQuery

SpanNotQuery将去除那些两个SpanQuery相互重叠的结果，更准确的说，是去除“中间重叠挖掉的那部分”。

例如有两个Document："the quick brown fox jump over a lazy dog"和"the quick red fox jumps over the sleepy cat"

SpanNearQuery quick_fox =
new SpanNearQuery(new SpanQuery[]{quick, fox}, 1, true); //基础的SpanQuery，默认匹配2个Document

//匹配的这两个结果的中间重叠部分为：red/brown

SpanNotQuery quick_fox_dog = new SpanNotQuery(quick_fox, dog);//因为dog不是red或者brown，所以仍为两个

SpanNotQuery no_quick_red_fox = new SpanNotQuery(quick_fox, red); //现在只剩下brown那个doc了。

这种Query经常用于连接的时候。

SpanOrQuery

用途是：组合SpanQuery的结果，用法如下：

SpanOrQuery or = new SpanOrQuery(new SpanQuery[]{qf_near_ld, qf_near_sc});

qf_near_ld和qf_near_sc都是SpanNearQuery。

遗憾的是，目前lucene core尚不支持从QueryParser中解析并生成各种SpanQuery。

5.6 对搜索结果进行过滤（Filtering a search）

Filter用于对搜索结果进行过滤，可能是处于安全考虑（Doc的访问有权限），或者纯粹的再搜索需求。

TermRangeFilter

过滤Filed中在一定范围内的Term，用于String类型，字符请用NumericRangeFilter。

Filter filter = new TermRangeFilter("title2", "d", "j", true, true); //field是title2，在d*和j*之间，最后两个true表示包含大写和小写的Term。

Filter支持半开区间，例如：

filter = new TermRangeFilter("modified", null, jan31, false, true);//则左边没有下限。

或者用static方法构造：

filter = TermRangeFilter.Less("modified", jan31);

最后再search()的时候传入即可。

NumericRangeFilter

Filter filter = NumericRangeFilter.newIntRange("pubmonth",201001,201006,true, true); //过滤数字

如上所示，只支持static方法创建，需要按照Long，int等分别创建。

FieldCacheRangeFilter

FieldCacheRangeFilter与TermRangeFilter和NumericRangeFilter的功能几乎一样，但是使用了Field内置的Cache，因此有些时候具有更好的性能。

Filter filter = FieldCacheRangeFilter.newStringRange("title2", "d", "j", true, true);

filter = FieldCacheRangeFilter.newIntRange("pubmonth", 201001, 201006, true, true);

FieldCacheTermsFilter

基于Term的过滤器，根据Filed和Term进行过滤。

例如有一个Country的Field，用户可下拉选择结果Doc中部分含指定国家的Doc。

Filter filter = new FieldCacheTermsFilter("category", new String[] {"/health/alternative/chinese","/technology/computers/ai","/technology/computers/programming"});

Doc的名为category的Field中，含有任意上述一个都会被接受。在这种情况下，Doc的每个Field只能有1个Term！即必须是唯一确定的。

如果需要对多Term的Field进行过滤，可以使用TermsFilter，在contri中。

QueryWrapperFilter

QueryWrapperFilter可以将任意的Query包装成Filter，用于过滤。

TermQuery categoryQuery = new TermQuery(new Term("category", "/philosophy/eastern"));

Filter categoryFilter = new QueryWrapperFilter(categoryQuery);

SpanQueryFilter

与QueryWrapperFilter相似，SpanQueryFilter将SpanQuery包装起来，用作Filter。

panQuery categoryQuery = new SpanTermQuery(new Term("category", "/philosophy/eastern"));

Filter categoryFilter = new SpanQueryFilter(categoryQuery);

一般情况下，QueryWrapperFilter就足够了。

保证安全性的Filter

假设不同的Doc被不同Owner所有，要在前段根据用户进行过滤，则一种简单的策略是：

为每个Doc创建一个名为Owner的Filed，然后对它使用QueryWrapperFilter对最终的搜索结果按照Filter进行过滤（结合前端的信息）。

6.4节提供了一个更高级的方法解决这个问题。

使用BooleanQuery用作Filter

区别是，Boost的数值会不同，因为BooleanQuery会考虑所有的Doc的数值，而Filter不会。

PrefixFilter

可以对Term只为XX前缀的Doc进行过滤。

Filter prefixFilter = new PrefixFilter(new Term("category", "/technology/computers"));

使用Cache以获得更好的性能

所有的Filter都可以被包装以支持Cache的形式。

CachingWrapperFilter cachingFilter;
cachingFilter = new CachingWrapperFilter(filter);

对Filter进行Filter

FilteredDocIdSet是一个抽象类，通过重载其match方法来决定某个docID是否应该被过滤掉。

一般用于动态检查的时候使用，可自己拓展逻辑。

其他非Core的Filter

除了core的Filter之外，在contri中叶有其他的Filter，例如ChainedFilter：将Filter进行组合，允许复杂的链Filter。

6.4节介绍了如何自定义Filter。

5.7 自定义函数更高Score

org.apache.lucene.search.function包中定义了一系列函数，可用于对查询结果的相关性Score进行更改。

各种自定义函数

ValueSourceQuery是所有自定义函数的基类。

最基本的实现类是FieldScoreQuery，它从Field中静态地提取Score数值。

即给Doc添加如下Field，注意必须是not analyzerd not norms（保证是数值类型）

doc.add(new Field("score","42",Field.Store.NO,Field.Index.NOT_ANALYZED_NO_NORMS));

在查询的时候：

Query q = new FieldScoreQuery("score", FieldScoreQuery.Type.BYTE);

后面这个FieldScoreQuery.Type也可以选择INT、LONG等等，根据实际需要来。

CustomScoreQuery可以与其他Query相结合。

例如下面这个更改默认参数的例子：

Query q = new QueryParser(Version.LUCENE_30,"content",new StandardAnalyzer(Version.LUCENE_30)).parse("the green hat");
FieldScoreQuery qf = new FieldScoreQuery("score",FieldScoreQuery.Type.BYTE);
CustomScoreQuery customQ = new CustomScoreQuery(q, qf) {
public CustomScoreProvider getCustomScoreProvider(IndexReader r) {
return new CustomScoreProvider(r) {
public float customScore(int doc,float subQueryScore,float valSrcScore) {
return (float) (Math.sqrt(subQueryScore) * valSrcScore);

}
};
}

};

在这个构造函数customScore中，subQueryScore是Query默认的Score(CustomScoreQuery的q传入)，valSrcScore是构造参数传入的FieldScoreQuery的静态Score(CustomScoreQuery的qf传入)。

定义函数来Boost最近更改的Doc

CustomScoreQuery可以设定自己的BI逻辑，对Doc进行不同的Boost。

具体的例子见书吧。

5.8 同时搜索多个Index

在一个搜索引擎中可能存在多个Index，例如每个月生成一次Index，这样可以按照月份搜索。

可以使用MultiSearcher进行搜索。

IndexSearcher[] searchers = new IndexSearcher[2];
searchers[0] = new IndexSearcher(aTOmDirectory);
searchers[1] = new IndexSearcher(nTOzDirectory);

MultiSearcher searcher = new MultiSearcher(searchers);

TermRangeQuery query = new TermRangeQuery("animal","h","t",true, true);

TopDocs hits = searcher.search(query, 10);

ParallelMultiSearcher支持多线程同时搜索。

5.9 使用TermVetor搜索“相似书籍”

若创建Index的时候，指定保存TermVector，则可以使用TermVector来搜索类似结果，例如，搜索类似主题的：

TermFreqVector vector =
reader.getTermFreqVector(id, "subject");
BooleanQuery subjectQuery = new BooleanQuery();
for (String vecTerm : vector.getTerms()) {
TermQuery tq = new TermQuery(
new Term("subject", vecTerm));
subjectQuery.add(tq, BooleanClause.Occur.SHOULD);
}

5.10 使用FieldLoader读取Field

读取Filed需要耗费大量的资源，其实一个Doc中的众多Field不必在每次search的时候都全部读出！

我们可以使用FieldLoader来更改这个策略：

可以自己拓展FieldSelector，并覆盖下面这个抽象方法：

FieldSelectorResult accept(String fieldName);

它根据传入的fieldName来给出具体策略结果，FieldSelectorResult有下述几种情况：

LOAD：直接读取

LAZY_LOAD：直到Field.stringValue() 或者Field.binaryValue() 的时候再读取

NO_LOAD：不读取这个Field的

LOAD_AND_BREAK：读取这个Field并终止，不再读取其他Field

LOAD_FOR_MERGE：在合并segment的时候，使用内置的Field。

SIZE：只读取Field的大小，并添加一个4字节的SIZE的Field

SIZE_AND_BREAK：与SIZE类似，但只读取当前的SIZE，不再读取其他的。

Lucene的Core也提供了一些具体实现类：

LoadFirstFieldSelector：只读取第一个1个Field

MapFieldSelector：传入一个Map，Map指定了哪些Field你想读取，哪些你不想读取

SetBasedFieldSelector：传入两个Set，第一个Set是你想读取的，第二个是Lazy-Load读取的。

需要注意的是，FiledSelector本身也有开销，要在实际测试之后再谨慎使用！

5.11 杀死慢速搜索

可以使用TimeLimitingCollector来结束过慢的搜索，超时后抛出TimeExceededException异常。

TopScoreDocCollector topDocs = TopScoreDocCollector.create(10, false);

Collector collector = new TimeLimitingCollector(topDocs,1000);

searcher.search(q, collector);

这个方法也有一定缺陷，即不一定准确，而且会拖慢搜索进度。

四号程序员

Keep It Simple and Stupid