<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:media="http://search.yahoo.com/mrss/"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>分词 - 四号程序员</title>
	<atom:link href="https://www.coder4.com/archives/tag/%E5%88%86%E8%AF%8D/feed" rel="self" type="application/rss+xml" />
	<link>https://www.coder4.com</link>
	<description>Keep It Simple and Stupid</description>
	<lastBuildDate>Wed, 25 Apr 2012 09:13:02 +0000</lastBuildDate>
	<language>en-US</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=6.8.3</generator>
	<item>
		<title>试用开源分词系统SCWS</title>
		<link>https://www.coder4.com/archives/2474</link>
					<comments>https://www.coder4.com/archives/2474#respond</comments>
		
		<dc:creator><![CDATA[coder4]]></dc:creator>
		<pubDate>Mon, 17 Oct 2011 12:44:10 +0000</pubDate>
				<category><![CDATA[C && C++]]></category>
		<category><![CDATA[SCWS]]></category>
		<category><![CDATA[分词]]></category>
		<category><![CDATA[开源]]></category>
		<guid isPermaLink="false">http://www.coder4.com/?p=2474</guid>

					<description><![CDATA[在前一段时间，使用了贵所的ICTCLAS分词系统，总体下来有两点不太满意： 1、分词速度奇慢，分词速度勉强能达到600KB/s 2、词库拓展麻烦，不加词库则分词效果欠佳。 3、无可用的授权 其实ICTCLAS本身，在贵所内部就存在诸多争议，譬如版权之争……具体细节不方便描述了。 国内有很多人，特别是学术界很推崇ICTCLAS，大家都觉得隐马是高级算法，效果自然会很好，譬如这篇很偏激的争论帖子： http://www.oschina.net/question/9[......] 继续阅读]]></description>
		
					<wfw:commentRss>https://www.coder4.com/archives/2474/feed</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>试用ICTCLAS分词系统</title>
		<link>https://www.coder4.com/archives/2261</link>
					<comments>https://www.coder4.com/archives/2261#respond</comments>
		
		<dc:creator><![CDATA[coder4]]></dc:creator>
		<pubDate>Mon, 03 Oct 2011 15:53:34 +0000</pubDate>
				<category><![CDATA[搜索技术]]></category>
		<category><![CDATA[ICTCLAS]]></category>
		<category><![CDATA[分词]]></category>
		<guid isPermaLink="false">http://www.coder4.com/?p=2261</guid>

					<description><![CDATA[贵所的ICTCLAS号称是目前最好的中文分词系统。今天使用了一下，记录下心得。 我的需求主要是分词，无需词性标注，而这一点可能恰恰是ICTCLAS的亮点。 主要流程： ICTCLAS_Init(cfg_path) ICTCLAS_ParagraphProcess(input, input_len, buffer, ENCODING, 0) buffer是缓冲区，建议为6 * input_len 0是我不需要词性标注 对这个类包装了一下，方便今后使用。 PS：ICTCLAS[......] 继续阅读]]></description>
		
					<wfw:commentRss>https://www.coder4.com/archives/2261/feed</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>《Lucene In Action》第四章.Analysis（分词）</title>
		<link>https://www.coder4.com/archives/761</link>
					<comments>https://www.coder4.com/archives/761#respond</comments>
		
		<dc:creator><![CDATA[coder4]]></dc:creator>
		<pubDate>Wed, 07 Jul 2010 16:00:58 +0000</pubDate>
				<category><![CDATA[Java]]></category>
		<category><![CDATA[搜索技术]]></category>
		<category><![CDATA[[IR] Lucene && Sphinx && Xapian]]></category>
		<category><![CDATA[分词]]></category>
		<category><![CDATA[读书笔记]]></category>
		<guid isPermaLink="false">http://www.coder4.com/?p=761</guid>

					<description><![CDATA[简单来说，Analysis就是把field Text转化成基本的Term的形式。 通过分词，将Text转化为Token，Token+对应的Field即为Term。 分词的处理包括：萃取、丢弃标点、移除发音、小写、移除常用单词、去除变形（去掉过去时等）等。 本章将介绍如何使用内置的分词器，以及如何根据语言、环境等特点创建自己的分词器。 4.1  使用Analysis 分词用于所有需要将Text转化成Term的场合，在Lucene中主要有两个： 1、Index（索引）[......] 继续阅读]]></description>
		
					<wfw:commentRss>https://www.coder4.com/archives/761/feed</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
	</channel>
</rss>
