旧版的setuptools已经不能用于Python3上了,国外有大神fork出了另一分支distribute,它可以支持Python3:
#下载
wget http://pypi.python.org/packages/source/d/distribute/distribute-0.6.24.tar.gz
#解压缩 && 安装
tar -xzvf ./distribute-0.6.24.tar.gz
cd distribute-0.6.24/
python3[......]
旧版的setuptools已经不能用于Python3上了,国外有大神fork出了另一分支distribute,它可以支持Python3:
#下载
wget http://pypi.python.org/packages/source/d/distribute/distribute-0.6.24.tar.gz
#解压缩 && 安装
tar -xzvf ./distribute-0.6.24.tar.gz
cd distribute-0.6.24/
python3[......]
Python 标准库中有很多实用的工具类,但是在具体使用时,标准库文档上对使用细节描述的并不清楚,比如 urllib2 这个 HTTP 客户端库。这里总结了一些 urllib2 库的使用细节。
1 Proxy 的设置
2 Timeout 设置
3 在 HTTP Request 中加入特定的 Header
4 Redirect
5 Cookie
6 使用 HTTP 的 PUT 和 DELETE 方法
7 得到 HTT[......]
参考文章:Normalize URL path python
首先说下什么叫URL拼接,我们有这么一个HTML片段:
<a href="../../a.html">click me</a>
做为一只辛苦的爬虫,我们要跟踪到这个click me指向的页面,假设这个片段来自:http://www.xxxdu.com,那么目标页面是什么呢?
显然不是
http://www.xxxdu.com/../../a.html
而是
http://www.xxxdu[......]
摘抄自:http://webpy.org/tutorial3.zh-cn
要注意 web.py 将会转义任何任何用到的变量,所以当你将 name 的值设为是一段 HTML 时,它会被转义显示成纯文本。如果要关闭该选项,可以写成 $:name 来代替 $name。
如果我们想部分转移,怎么办?
webpy显然提供了转移函数,我们在应用层直接调用就可以了。
from web.net import htmlquote
htmlquote(raw_text)[......]
高亮的概念很简单:搜索引擎中,把匹配的关键词变色。
我们可以用Python的正则实现这个功能。
re.sub提供了替换全部的功能,在替换串repl中,可以用\g<0>表示找到的第一个组,代码如下:
text = re.sub("%s" % (w), "<em>\g<0></em>", text, re.IGNORECASE | re.MULTILINE)[......]