<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:media="http://search.yahoo.com/mrss/"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Search Engines - 四号程序员</title>
	<atom:link href="https://www.coder4.com/archives/tag/search-engines/feed" rel="self" type="application/rss+xml" />
	<link>https://www.coder4.com</link>
	<description>Keep It Simple and Stupid</description>
	<lastBuildDate>Fri, 02 Nov 2012 07:37:55 +0000</lastBuildDate>
	<language>en-US</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=6.8.3</generator>
	<item>
		<title>Search Engines: Information Retrieval in Practice – 第7章</title>
		<link>https://www.coder4.com/archives/3672</link>
					<comments>https://www.coder4.com/archives/3672#respond</comments>
		
		<dc:creator><![CDATA[coder4]]></dc:creator>
		<pubDate>Thu, 01 Nov 2012 12:42:52 +0000</pubDate>
				<category><![CDATA[搜索技术]]></category>
		<category><![CDATA[Information Retrieval in Practice]]></category>
		<category><![CDATA[Search Engines]]></category>
		<category><![CDATA[信息检索实践]]></category>
		<category><![CDATA[检索模型]]></category>
		<category><![CDATA[第7章]]></category>
		<category><![CDATA[第七章]]></category>
		<category><![CDATA[读书笔记]]></category>
		<guid isPermaLink="false">http://www.coder4.com/?p=3672</guid>

					<description><![CDATA[这章想看很久了，信息检索最核心的东西：检索模型(Retrieval Models)！ 1、信息检索发展45年来的核心问题：让人们找到所需要的信息。 2、理想很丰满，但现实很骨感，我们现在只能做好一件事情：对文档进行排序，让最相关的排在前面----这就是信息检索模型。 3、检索模型的成功应用，让1990s间，检索效果提升了100%以上。 4、说到“文档相关”，有两组需要区分的概念： (1)话题相关 or 用户相关。用户相关显然是最理想的情况，但一般很难实现，多数情况，还是[......] 继续阅读]]></description>
		
					<wfw:commentRss>https://www.coder4.com/archives/3672/feed</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>Search Engines: Information Retrieval in Practice – 第5章</title>
		<link>https://www.coder4.com/archives/2639</link>
					<comments>https://www.coder4.com/archives/2639#respond</comments>
		
		<dc:creator><![CDATA[coder4]]></dc:creator>
		<pubDate>Wed, 16 Nov 2011 08:43:34 +0000</pubDate>
				<category><![CDATA[搜索技术]]></category>
		<category><![CDATA[Information Retrieval in Practice]]></category>
		<category><![CDATA[Search Engines]]></category>
		<category><![CDATA[信息检索实践]]></category>
		<category><![CDATA[第5章]]></category>
		<category><![CDATA[第五章]]></category>
		<category><![CDATA[读书笔记]]></category>
		<guid isPermaLink="false">http://www.coder4.com/?p=2639</guid>

					<description><![CDATA[Ranking with Indexes 本章内容：索引结构 1、每个系统都需要对应的数据结构(data structures)。信息检索中最常用的数据结构是：倒排索引(inverted index)。 2、本章的另外一个主题是：查询处理(Query processing)，即如何让查询使用索引的数据。 3、抽象检索模型： (1)一篇文档被转化为对应的词项(index terms)，形成不同的特征(features) (2)主题特征(topical features)[......] 继续阅读]]></description>
		
					<wfw:commentRss>https://www.coder4.com/archives/2639/feed</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>Search Engines: Information Retrieval in Practice – 第4章</title>
		<link>https://www.coder4.com/archives/2619</link>
					<comments>https://www.coder4.com/archives/2619#respond</comments>
		
		<dc:creator><![CDATA[coder4]]></dc:creator>
		<pubDate>Mon, 07 Nov 2011 15:15:58 +0000</pubDate>
				<category><![CDATA[搜索技术]]></category>
		<category><![CDATA[Information Retrieval in Practice]]></category>
		<category><![CDATA[Search Engines]]></category>
		<category><![CDATA[信息检索实践]]></category>
		<category><![CDATA[第4章]]></category>
		<category><![CDATA[第四章]]></category>
		<category><![CDATA[读书笔记]]></category>
		<guid isPermaLink="false">http://www.coder4.com/?p=2619</guid>

					<description><![CDATA[Topic:Processing Text... 本章主题：文本处理 1、本章的主题:文本变换(Text Transformation)和文本处理(Text Processing) 2、将单词(Words)转化为可建索引的词项(Terms)的形式。 3、最懒的方法是:什么都不处理，这样，所有词都可以且只能被精确匹配。这样，诸如大小写、词形变换等导致的单词，就无法被检索出来。 4、分词(Tokenization):将段落转化为Words的过程。 5、归一化(St[......] 继续阅读]]></description>
		
					<wfw:commentRss>https://www.coder4.com/archives/2619/feed</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>Search Engines: Information Retrieval in Practice – 第3章</title>
		<link>https://www.coder4.com/archives/2606</link>
					<comments>https://www.coder4.com/archives/2606#respond</comments>
		
		<dc:creator><![CDATA[coder4]]></dc:creator>
		<pubDate>Tue, 01 Nov 2011 15:33:31 +0000</pubDate>
				<category><![CDATA[搜索技术]]></category>
		<category><![CDATA[Information Retrieval in Practice]]></category>
		<category><![CDATA[Search Engines]]></category>
		<category><![CDATA[信息检索实践]]></category>
		<category><![CDATA[读书笔记]]></category>
		<guid isPermaLink="false">http://www.coder4.com/?p=2606</guid>

					<description><![CDATA[本章介绍了关于搜索原信息获取的问题，数据源除了Web、Feed之外，还有邮件、文档等各种可能的内网资源。 1、web的采集系统称为web crawler。两个最大的挑战： (1)Web规模巨大，消耗巨大带宽、存储、CPU资源 (2) 不可控情况，很多网页会阻止你采集（加访问权限），有的Form表单无法采集，会产生数百万的组合结果(这种情况下，最好放弃form表单的采集)。 2、web上的每一个资源通过URL（Uniform resource locator）表示。分为scheme[......] 继续阅读]]></description>
		
					<wfw:commentRss>https://www.coder4.com/archives/2606/feed</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>Search Engines: Information Retrieval in Practice -  第2章</title>
		<link>https://www.coder4.com/archives/2563</link>
					<comments>https://www.coder4.com/archives/2563#respond</comments>
		
		<dc:creator><![CDATA[coder4]]></dc:creator>
		<pubDate>Tue, 25 Oct 2011 06:07:52 +0000</pubDate>
				<category><![CDATA[搜索技术]]></category>
		<category><![CDATA[Information Retrieval in Practice]]></category>
		<category><![CDATA[Search Engines]]></category>
		<category><![CDATA[信息检索实践]]></category>
		<category><![CDATA[读书笔记]]></category>
		<guid isPermaLink="false">http://www.coder4.com/?p=2563</guid>

					<description><![CDATA[第2章：Architecture of a Search Engine (搜索引擎的整体结构) 1、搜索引擎的两个目标：Effectiveness(效果quality)和Efficienct(性能speed)。 2、搜索引擎的组成： (1) Indexing Process (建索引) 包括： Text Acquistion (文档获取)，典型的有：Crawling (爬虫), Metadata (元信息抽取)。 Text Transformation (文档转换)，主要是：[......] 继续阅读]]></description>
		
					<wfw:commentRss>https://www.coder4.com/archives/2563/feed</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
	</channel>
</rss>
