Python拥抱lxml

之前一直在用BeautifulSoup,怎么说呢,上手容易,但经常容易出现各种诡异的问题,却很难找到方法修改。

lxml.html是一个偏向底层的HTML解析器,速度秒杀BeautifulSoup。

网站:http://lxml.de/lxmlhtml.html

解析页面:

一些高级点的功能,清理,具体参数见文档http://lxml.de/api/lxml.html.clean.Cleaner-class.html:

这个清理,默认会把page_structure=True,清理掉html、title等,所以使用时候要注意以下。

这个也很有用,提供一个base_url,将页面中所有url都转化为绝对(加上base_url)路径:

ll.make_links_absolute(self, base_url=None, resolve_base_href=True)

Leave a Reply

Your email address will not be published.