Java核心技术(第8版) - 读书笔记 - 第3章

1、Java采用UTF-16标准,一定程度上与Unicode兼容。Unicode有17个级别,1个标准和16个拓展。

2、Unicode标准中,第1级U+0000到U+FFFF,在Java中用2个字节表示(但U+D800到U+DBFF无定义)。

3、Unicode还定义了其余16个扩展级,从U+10000到U+10FFFF。在Java中用4个字节表示。它们的前两个字节就是U+D800~U+DBFF,即Java标准级别中没定义的部分,后两个字节就是U+DC00到U+DFFF。因此,这1[......]

继续阅读

Python相对完美的URL拼接函数

参考文章:Normalize URL path python

首先说下什么叫URL拼接,我们有这么一个HTML片段:
<a href="../../a.html">click me</a>
做为一只辛苦的爬虫,我们要跟踪到这个click me指向的页面,假设这个片段来自:http://www.xxxdu.com,那么目标页面是什么呢?

显然不是
http://www.xxxdu.com/../../a.html
而是
http://www.xxxdu[......]

继续阅读