<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:media="http://search.yahoo.com/mrss/"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>搜索技术 - 四号程序员</title>
	<atom:link href="https://www.coder4.com/archives/category/ir/feed" rel="self" type="application/rss+xml" />
	<link>https://www.coder4.com</link>
	<description>Keep It Simple and Stupid</description>
	<lastBuildDate>Tue, 02 Jun 2020 09:16:42 +0000</lastBuildDate>
	<language>en-US</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=6.8.3</generator>
	<item>
		<title>es常用命令</title>
		<link>https://www.coder4.com/archives/6847</link>
					<comments>https://www.coder4.com/archives/6847#respond</comments>
		
		<dc:creator><![CDATA[coder4]]></dc:creator>
		<pubDate>Tue, 12 Nov 2019 02:12:53 +0000</pubDate>
				<category><![CDATA[搜索技术]]></category>
		<category><![CDATA[elastic search]]></category>
		<category><![CDATA[es]]></category>
		<category><![CDATA[命令]]></category>
		<category><![CDATA[常用]]></category>
		<guid isPermaLink="false">https://www.coder4.com/?p=6847</guid>

					<description><![CDATA[1 查看所有索引 GET /_cat/indices?v 2 集群状态监控 GET _cluster/health 3 集群某索引的详细统计信息 GET /index-name/_stats 4 查看索引的分片在不同结点之间的分布 GET _cat/shards/索引名 5 索引的统计信息 GET _all/_stats 6 查看索引mapping GET /index-name/_mapping?pretty 7 给索引mapping添加字段 POST /index-[......] 继续阅读]]></description>
		
					<wfw:commentRss>https://www.coder4.com/archives/6847/feed</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>Python计算N维向量的余弦夹角。</title>
		<link>https://www.coder4.com/archives/3826</link>
					<comments>https://www.coder4.com/archives/3826#comments</comments>
		
		<dc:creator><![CDATA[coder4]]></dc:creator>
		<pubDate>Tue, 19 Feb 2013 08:25:48 +0000</pubDate>
				<category><![CDATA[Python]]></category>
		<category><![CDATA[搜索技术]]></category>
		<category><![CDATA[余弦夹角]]></category>
		<category><![CDATA[余弦相似度]]></category>
		<guid isPermaLink="false">http://www.coder4.com/?p=3826</guid>

					<description><![CDATA[又名余弦相似度，代码如下： import math def cos_dist(a, b): if len(a) != len(b): return None part_up = 0.0 a_sq = 0.0 b_sq = 0.0 for a1, b1 in zip(a,b): part_up += a1*b1 a_sq += a1**2 b_sq += b1**2[......] 继续阅读]]></description>
		
					<wfw:commentRss>https://www.coder4.com/archives/3826/feed</wfw:commentRss>
			<slash:comments>1</slash:comments>
		
		
			</item>
		<item>
		<title>Search Engines: Information Retrieval in Practice – 第7章</title>
		<link>https://www.coder4.com/archives/3672</link>
					<comments>https://www.coder4.com/archives/3672#respond</comments>
		
		<dc:creator><![CDATA[coder4]]></dc:creator>
		<pubDate>Thu, 01 Nov 2012 12:42:52 +0000</pubDate>
				<category><![CDATA[搜索技术]]></category>
		<category><![CDATA[Information Retrieval in Practice]]></category>
		<category><![CDATA[Search Engines]]></category>
		<category><![CDATA[信息检索实践]]></category>
		<category><![CDATA[检索模型]]></category>
		<category><![CDATA[第7章]]></category>
		<category><![CDATA[第七章]]></category>
		<category><![CDATA[读书笔记]]></category>
		<guid isPermaLink="false">http://www.coder4.com/?p=3672</guid>

					<description><![CDATA[这章想看很久了，信息检索最核心的东西：检索模型(Retrieval Models)！ 1、信息检索发展45年来的核心问题：让人们找到所需要的信息。 2、理想很丰满，但现实很骨感，我们现在只能做好一件事情：对文档进行排序，让最相关的排在前面----这就是信息检索模型。 3、检索模型的成功应用，让1990s间，检索效果提升了100%以上。 4、说到“文档相关”，有两组需要区分的概念： (1)话题相关 or 用户相关。用户相关显然是最理想的情况，但一般很难实现，多数情况，还是[......] 继续阅读]]></description>
		
					<wfw:commentRss>https://www.coder4.com/archives/3672/feed</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>Python相对完美的URL拼接函数</title>
		<link>https://www.coder4.com/archives/2674</link>
					<comments>https://www.coder4.com/archives/2674#comments</comments>
		
		<dc:creator><![CDATA[coder4]]></dc:creator>
		<pubDate>Thu, 01 Dec 2011 02:05:32 +0000</pubDate>
				<category><![CDATA[Python]]></category>
		<category><![CDATA[搜索技术]]></category>
		<category><![CDATA[URL]]></category>
		<category><![CDATA[拼接]]></category>
		<guid isPermaLink="false">http://www.coder4.com/?p=2674</guid>

					<description><![CDATA[参考文章：Normalize URL path python 首先说下什么叫URL拼接，我们有这么一个HTML片段： &#60;a href="../../a.html"&#62;click me&#60;/a&#62; 做为一只辛苦的爬虫，我们要跟踪到这个click me指向的页面，假设这个片段来自：http://www.xxxdu.com，那么目标页面是什么呢？ 显然不是 http://www.xxxdu.com/../../a.html 而是 http://www.xxxdu[......] 继续阅读]]></description>
		
					<wfw:commentRss>https://www.coder4.com/archives/2674/feed</wfw:commentRss>
			<slash:comments>6</slash:comments>
		
		
			</item>
		<item>
		<title>Search Engines: Information Retrieval in Practice – 第5章</title>
		<link>https://www.coder4.com/archives/2639</link>
					<comments>https://www.coder4.com/archives/2639#respond</comments>
		
		<dc:creator><![CDATA[coder4]]></dc:creator>
		<pubDate>Wed, 16 Nov 2011 08:43:34 +0000</pubDate>
				<category><![CDATA[搜索技术]]></category>
		<category><![CDATA[Information Retrieval in Practice]]></category>
		<category><![CDATA[Search Engines]]></category>
		<category><![CDATA[信息检索实践]]></category>
		<category><![CDATA[第5章]]></category>
		<category><![CDATA[第五章]]></category>
		<category><![CDATA[读书笔记]]></category>
		<guid isPermaLink="false">http://www.coder4.com/?p=2639</guid>

					<description><![CDATA[Ranking with Indexes 本章内容：索引结构 1、每个系统都需要对应的数据结构(data structures)。信息检索中最常用的数据结构是：倒排索引(inverted index)。 2、本章的另外一个主题是：查询处理(Query processing)，即如何让查询使用索引的数据。 3、抽象检索模型： (1)一篇文档被转化为对应的词项(index terms)，形成不同的特征(features) (2)主题特征(topical features)[......] 继续阅读]]></description>
		
					<wfw:commentRss>https://www.coder4.com/archives/2639/feed</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>Search Engines: Information Retrieval in Practice – 第4章</title>
		<link>https://www.coder4.com/archives/2619</link>
					<comments>https://www.coder4.com/archives/2619#respond</comments>
		
		<dc:creator><![CDATA[coder4]]></dc:creator>
		<pubDate>Mon, 07 Nov 2011 15:15:58 +0000</pubDate>
				<category><![CDATA[搜索技术]]></category>
		<category><![CDATA[Information Retrieval in Practice]]></category>
		<category><![CDATA[Search Engines]]></category>
		<category><![CDATA[信息检索实践]]></category>
		<category><![CDATA[第4章]]></category>
		<category><![CDATA[第四章]]></category>
		<category><![CDATA[读书笔记]]></category>
		<guid isPermaLink="false">http://www.coder4.com/?p=2619</guid>

					<description><![CDATA[Topic:Processing Text... 本章主题：文本处理 1、本章的主题:文本变换(Text Transformation)和文本处理(Text Processing) 2、将单词(Words)转化为可建索引的词项(Terms)的形式。 3、最懒的方法是:什么都不处理，这样，所有词都可以且只能被精确匹配。这样，诸如大小写、词形变换等导致的单词，就无法被检索出来。 4、分词(Tokenization):将段落转化为Words的过程。 5、归一化(St[......] 继续阅读]]></description>
		
					<wfw:commentRss>https://www.coder4.com/archives/2619/feed</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>Xapian压缩数据库</title>
		<link>https://www.coder4.com/archives/2612</link>
					<comments>https://www.coder4.com/archives/2612#comments</comments>
		
		<dc:creator><![CDATA[coder4]]></dc:creator>
		<pubDate>Wed, 02 Nov 2011 15:31:08 +0000</pubDate>
				<category><![CDATA[搜索技术]]></category>
		<category><![CDATA[Xapian]]></category>
		<category><![CDATA[压缩]]></category>
		<guid isPermaLink="false">http://www.coder4.com/?p=2612</guid>

					<description><![CDATA[压缩数据库可以减小数据库体积，提高检索性能。 xapian-compact - Compact a database, or merge and compact several Usage: xapian-compact [OPTIONS] SOURCE_DATABASE... DESTINATION_DATABASE Options: -b, --blocksize Set the blocksize in bytes (e.g. 4096) or K (e.g. 4K[......] 继续阅读]]></description>
		
					<wfw:commentRss>https://www.coder4.com/archives/2612/feed</wfw:commentRss>
			<slash:comments>1</slash:comments>
		
		
			</item>
		<item>
		<title>Search Engines: Information Retrieval in Practice – 第3章</title>
		<link>https://www.coder4.com/archives/2606</link>
					<comments>https://www.coder4.com/archives/2606#respond</comments>
		
		<dc:creator><![CDATA[coder4]]></dc:creator>
		<pubDate>Tue, 01 Nov 2011 15:33:31 +0000</pubDate>
				<category><![CDATA[搜索技术]]></category>
		<category><![CDATA[Information Retrieval in Practice]]></category>
		<category><![CDATA[Search Engines]]></category>
		<category><![CDATA[信息检索实践]]></category>
		<category><![CDATA[读书笔记]]></category>
		<guid isPermaLink="false">http://www.coder4.com/?p=2606</guid>

					<description><![CDATA[本章介绍了关于搜索原信息获取的问题，数据源除了Web、Feed之外，还有邮件、文档等各种可能的内网资源。 1、web的采集系统称为web crawler。两个最大的挑战： (1)Web规模巨大，消耗巨大带宽、存储、CPU资源 (2) 不可控情况，很多网页会阻止你采集（加访问权限），有的Form表单无法采集，会产生数百万的组合结果(这种情况下，最好放弃form表单的采集)。 2、web上的每一个资源通过URL（Uniform resource locator）表示。分为scheme[......] 继续阅读]]></description>
		
					<wfw:commentRss>https://www.coder4.com/archives/2606/feed</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>Search Engines: Information Retrieval in Practice -  第2章</title>
		<link>https://www.coder4.com/archives/2563</link>
					<comments>https://www.coder4.com/archives/2563#respond</comments>
		
		<dc:creator><![CDATA[coder4]]></dc:creator>
		<pubDate>Tue, 25 Oct 2011 06:07:52 +0000</pubDate>
				<category><![CDATA[搜索技术]]></category>
		<category><![CDATA[Information Retrieval in Practice]]></category>
		<category><![CDATA[Search Engines]]></category>
		<category><![CDATA[信息检索实践]]></category>
		<category><![CDATA[读书笔记]]></category>
		<guid isPermaLink="false">http://www.coder4.com/?p=2563</guid>

					<description><![CDATA[第2章：Architecture of a Search Engine (搜索引擎的整体结构) 1、搜索引擎的两个目标：Effectiveness(效果quality)和Efficienct(性能speed)。 2、搜索引擎的组成： (1) Indexing Process (建索引) 包括： Text Acquistion (文档获取)，典型的有：Crawling (爬虫), Metadata (元信息抽取)。 Text Transformation (文档转换)，主要是：[......] 继续阅读]]></description>
		
					<wfw:commentRss>https://www.coder4.com/archives/2563/feed</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>试用ICTCLAS分词系统</title>
		<link>https://www.coder4.com/archives/2261</link>
					<comments>https://www.coder4.com/archives/2261#respond</comments>
		
		<dc:creator><![CDATA[coder4]]></dc:creator>
		<pubDate>Mon, 03 Oct 2011 15:53:34 +0000</pubDate>
				<category><![CDATA[搜索技术]]></category>
		<category><![CDATA[ICTCLAS]]></category>
		<category><![CDATA[分词]]></category>
		<guid isPermaLink="false">http://www.coder4.com/?p=2261</guid>

					<description><![CDATA[贵所的ICTCLAS号称是目前最好的中文分词系统。今天使用了一下，记录下心得。 我的需求主要是分词，无需词性标注，而这一点可能恰恰是ICTCLAS的亮点。 主要流程： ICTCLAS_Init(cfg_path) ICTCLAS_ParagraphProcess(input, input_len, buffer, ENCODING, 0) buffer是缓冲区，建议为6 * input_len 0是我不需要词性标注 对这个类包装了一下，方便今后使用。 PS：ICTCLAS[......] 继续阅读]]></description>
		
					<wfw:commentRss>https://www.coder4.com/archives/2261/feed</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
	</channel>
</rss>
