<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:media="http://search.yahoo.com/mrss/"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>爬虫 - 四号程序员</title>
	<atom:link href="https://www.coder4.com/archives/tag/%E7%88%AC%E8%99%AB/feed" rel="self" type="application/rss+xml" />
	<link>https://www.coder4.com</link>
	<description>Keep It Simple and Stupid</description>
	<lastBuildDate>Fri, 24 Jun 2011 06:09:32 +0000</lastBuildDate>
	<language>en-US</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=6.8.3</generator>
	<item>
		<title>设计网页爬虫需注意的问题</title>
		<link>https://www.coder4.com/archives/1691</link>
					<comments>https://www.coder4.com/archives/1691#respond</comments>
		
		<dc:creator><![CDATA[coder4]]></dc:creator>
		<pubDate>Fri, 24 Jun 2011 06:09:32 +0000</pubDate>
				<category><![CDATA[计算机技术]]></category>
		<category><![CDATA[Larbin]]></category>
		<category><![CDATA[源代码阅读]]></category>
		<category><![CDATA[爬虫]]></category>
		<category><![CDATA[随笔]]></category>
		<guid isPermaLink="false">http://www.coder4.com/?p=1691</guid>

					<description><![CDATA[最近有空的时候在读Larbin的源代码，虽然是03年的了，但是很多细节都考虑的很周到，记录一下细节问题吧。 1、针对同一IP/HOST，不可访问过频繁，最好按其进行队列。 2、注意处理、过滤url后缀，以及Content-Type，我觉得Content-Type才是王道吧。 3、注意去重的问题，包括URL去重和网页内容去重。特别是有的网站是多个域名，很可能爬到实际内容重复，只是url不同的。Larbin中URL去重用的是简单的比特位Hash表。 看到了再继续更新。[......] 继续阅读]]></description>
		
					<wfw:commentRss>https://www.coder4.com/archives/1691/feed</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
		<item>
		<title>[转]Python写爬虫抓站的一些技巧</title>
		<link>https://www.coder4.com/archives/1575</link>
					<comments>https://www.coder4.com/archives/1575#respond</comments>
		
		<dc:creator><![CDATA[coder4]]></dc:creator>
		<pubDate>Mon, 23 May 2011 18:21:04 +0000</pubDate>
				<category><![CDATA[Python]]></category>
		<category><![CDATA[技巧]]></category>
		<category><![CDATA[爬虫]]></category>
		<guid isPermaLink="false">http://www.coder4.com/?p=1575</guid>

					<description><![CDATA[转载自：http://blog.csdn.net/sding/archive/2011/02/28/6214207.aspx 1.最基本的抓站 import urllib2 content = urllib2.urlopen('http://XXXX').read() - 2.使用代理服务器 这在某些情况下比较有用，比如IP被封了，或者比如IP访问的次数受到限制等等。 import urllib2 proxy_support = urllib2.Pro[......] 继续阅读]]></description>
		
					<wfw:commentRss>https://www.coder4.com/archives/1575/feed</wfw:commentRss>
			<slash:comments>0</slash:comments>
		
		
			</item>
	</channel>
</rss>
