Category Archives: 搜索技术

ElasticSearch / Lucene / Sphinx / Xapian

es常用命令

1 查看所有索引
GET /_cat/indices?v
2 集群状态监控
GET _cluster/health
3 集群某索引的详细统计信息
GET /index-name/_stats
4 查看索引的分片在不同结点之间的分布
GET _cat/shards/索引名
5 索引的统计信息
GET _all/_stats
6 查看索引mapping
GET /index-name/_mapping?pretty
7 给索引mapping添加字段
POST /index-[......]

Python计算N维向量的余弦夹角。

1 Reply

又名余弦相似度，代码如下：
import math

def cos_dist(a, b):
if len(a) != len(b):
return None
part_up = 0.0
a_sq = 0.0
b_sq = 0.0
for a1, b1 in zip(a,b):
part_up += a1*b1
a_sq += a1**2
b_sq += b1**2[......]

Search Engines: Information Retrieval in Practice – 第7章

这章想看很久了，信息检索最核心的东西：检索模型(Retrieval Models)！

1、信息检索发展45年来的核心问题：让人们找到所需要的信息。

2、理想很丰满，但现实很骨感，我们现在只能做好一件事情：对文档进行排序，让最相关的排在前面----这就是信息检索模型。

3、检索模型的成功应用，让1990s间，检索效果提升了100%以上。

4、说到“文档相关”，有两组需要区分的概念：
(1)话题相关 or 用户相关。用户相关显然是最理想的情况，但一般很难实现，多数情况，还是[......]

Python相对完美的URL拼接函数

6 Replies

参考文章：Normalize URL path python

首先说下什么叫URL拼接，我们有这么一个HTML片段：
<a href="../../a.html">click me</a>
做为一只辛苦的爬虫，我们要跟踪到这个click me指向的页面，假设这个片段来自：http://www.xxxdu.com，那么目标页面是什么呢？

显然不是
http://www.xxxdu.com/../../a.html
而是
http://www.xxxdu[......]

Search Engines: Information Retrieval in Practice – 第5章

Ranking with Indexes

本章内容：索引结构

1、每个系统都需要对应的数据结构(data structures)。信息检索中最常用的数据结构是：倒排索引(inverted index)。

2、本章的另外一个主题是：查询处理(Query processing)，即如何让查询使用索引的数据。

3、抽象检索模型：
(1)一篇文档被转化为对应的词项(index terms)，形成不同的特征(features)
(2)主题特征(topical features)[......]