Tag Archives: UTF-8

C++中，解析UTF-8字符的位置。

在C++的char*以及string中，使用的是字节流编码，即sizeof(char) == 1。

也就是说，C++是不去分字符的编码的。

而一个合法UTF8的字符长度可能为1～4位。

现在假设一串输入为UTF8编码，如何能准确的定位到每个UTF8字符的“CharPoint”，而不会错误的分割字符呢？

参考这个页面：http://www.nubaria.com/en/blog/?p=289

可以改造出下面的函数：
const unsigned char kFirs[......]

Python写UTF8文件，UE、记事本打开依然乱码的问题

现象：使用codecs打开文件，写入UTF-8文本，正常无错误。用vim打开正常，但记事本、UE等打开乱码。

原因：一般写文本时，默认是没有BOM头的，即编辑器不知道这个文本文件是神马编码，只能智能detect，这个detect有的弱有的强，比如UE、记事本就挂了，认为是ASCII格式的，于是就乱码了。

解决方法：如果为了编辑器打开正常，可以加入BOM编码。但一定要慎重，一旦加入后，头部会增加2~3个字节，如果程序再读取，显然会出错。这个如果使用UE编辑过PHP代码抓过狂的都应该懂得[......]