这是一个内牛满面的问题,我从半年前开始找这个问题的答案,今天才解决……
需求版本1:我需要将字符串直接写入成以gz格式,这个很简单。
import gzip
fp = gzip.open("file", "wb")
fp.write(data)
fp.close()
需求版本2:现在字符串data需要是utf-8的,上述方法就不行了,解决方法:
import codecs
gzfp = gzip.open("file"[......]
这是一个内牛满面的问题,我从半年前开始找这个问题的答案,今天才解决……
需求版本1:我需要将字符串直接写入成以gz格式,这个很简单。
import gzip
fp = gzip.open("file", "wb")
fp.write(data)
fp.close()
需求版本2:现在字符串data需要是utf-8的,上述方法就不行了,解决方法:
import codecs
gzfp = gzip.open("file"[......]
之前一直在用BeautifulSoup,怎么说呢,上手容易,但经常容易出现各种诡异的问题,却很难找到方法修改。
lxml.html是一个偏向底层的HTML解析器,速度秒杀BeautifulSoup。
网站:http://lxml.de/lxmlhtml.html
解析页面:
# 下载页面,转化编码
import urllib2
str = urllib2.urlopen("http://www.coder4.com").read().decode(&q[......]
日志配置:
import logging
fmt = "%(asctime)s [%(levelname)s] %(message)s"
logging.basicConfig(format=fmt, filename="xxx.log", level=logging.INFO)
日志器获取、使用:
LOG = logging.getLogger(CONF.LOG_NAME)
LOG.info("xxx" % (...) )
LOG.debug("x" % (...) )
201[......]
import urllib2
from BeautifulSoup import BeautifulSoup
page = urllib2.urlopen('http://www.leeon.me');
soup = BeautifulSoup(page,fromEncoding="gb18030")
print soup.originalEncoding
print soup.prettify()
如果中文页面编码是gb2312,gb[......]