Python中向gz(gzip)文件中写入utf8(utf-8)字符串

这是一个内牛满面的问题，我从半年前开始找这个问题的答案，今天才解决……

需求版本1：我需要将字符串直接写入成以gz格式，这个很简单。
import gzip
fp = gzip.open("file", "wb")
fp.write(data)
fp.close()
需求版本2：现在字符串data需要是utf-8的，上述方法就不行了，解决方法：
import codecs
gzfp = gzip.open("file&quot[......]

继续阅读

Python拥抱lxml

Leave a reply

之前一直在用BeautifulSoup，怎么说呢，上手容易，但经常容易出现各种诡异的问题，却很难找到方法修改。

lxml.html是一个偏向底层的HTML解析器，速度秒杀BeautifulSoup。

网站：http://lxml.de/lxmlhtml.html

解析页面：
# 下载页面，转化编码
import urllib2
str = urllib2.urlopen("http://www.coder4.com").read().decode(&q[......]

继续阅读

博客搬家了，换了新模板。

Leave a reply

ICD的空间10月底到期，涨价到了每月$10，且没有了首次5折优惠，有点不值当。

于是和@Ardix的博客搬到了一起，话说他现在也不怎么更新了，唉……

昨天终于把cpanel下定时备份public_html和mysql的Cron Job脚本搞定了，依旧是每天一备份。

今天升级了模板，新版的Evolve感觉比以前整洁了一点。

最近很忙，就先这样吧。

[......]

继续阅读

Python的Basic日志模板

Leave a reply

日志配置：
import logging
fmt = "%(asctime)s [%(levelname)s] %(message)s"
logging.basicConfig(format=fmt, filename="xxx.log", level=logging.INFO)
日志器获取、使用：
LOG = logging.getLogger(CONF.LOG_NAME)
LOG.info("xxx" % (...) )
LOG.debug("x" % (...) )
201[......]

继续阅读

BeautifulSoup中文乱码解决问题

Leave a reply

import urllib2
from BeautifulSoup import BeautifulSoup

page = urllib2.urlopen('http://www.leeon.me');
soup = BeautifulSoup(page,fromEncoding="gb18030")

print soup.originalEncoding
print soup.prettify()
如果中文页面编码是gb2312，gb[......]

继续阅读

四号程序员

Keep It Simple and Stupid

Python中向gz(gzip)文件中写入utf8(utf-8)字符串

Python拥抱lxml

博客搬家了，换了新模板。

Python的Basic日志模板

BeautifulSoup中文乱码解决问题