自学Python1.5-python2识别中文

经验一：在开头声明：

# -*- coding: utf-8 -*-
当然，也可以写成：
# coding:utf-8

经验二：遇到字符（节）串，立刻转化为unicode，不要用str()，直接使用unicode()

unicode_str = unicode(‘中文’, encoding=’utf-8′)
print unicode_str.encode(‘utf-8’)

经验三：如果对文件操作，打开文件的时候，最好用codecs.open，替代open(这个后面会讲到，先放在这里)import codecs

codecs.open(‘filename’, encoding=’utf8′)

经验四：声明字符串直接加u，声明的字符串就是unicode编码的字符串

a = u”中”

经验五：python在安装时，默认的编码是ascii，当程序中出现非ascii编码时，python的处理常常会报这样的错

UnicodeDecodeError: 'ascii' codec can't decode byte 0x?? in position 1: ordinal not in range(128)，

python没办法处理非ascii编码的，此时需要自己设置将python的默认编码，一般设置为utf8的编码格式。

查询系统默认编码可以在解释器中输入以下命令： Python代码

>>>sys.getdefaultencoding()

设置默认编码时使用： Python代码

>>>sys.setdefaultencoding('utf8')

可能会报

AttributeError: 'module' object has no attribute 'setdefaultencoding' 的错误，执行reload(sys)，在执行以上命令就可以顺利通过。

此时在执行sys.getdefaultencoding()就会发现编码已经被设置为utf8的了，但是在解释器里修改的编码只能保证当次有效，在重启解释器后，会发现，编码又被重置为默认的ascii了，那么有没有办法一次性修改程序或系统的默认编码呢。

一个解决的方案在程序中加入以下代码： Python代码

import sys 
reload(sys) 
sys.setdefaultencoding('utf8')

另一个方案是在/usr/local/lib/python.27/site-packages或者/usr/lib/python2.7下新建一个sitecustomize.py，内容为： Python代码，两个路径的原因是因为系统不同的原因，debian和ubuntu存放的目录是后者，其他没有测试。

# encoding=utf8 

import sys   
reload(sys) 
sys.setdefaultencoding('utf8')

重启python解释器，执行sys.getdefaultencoding()，发现编码已经被设置为utf8的了，多次重启之后，效果相同，这是因为系统在python启动的时候，自行调用该文件，设置系统的默认编码，而不需要每次都手动的加上解决代码，属于一劳永逸的解决方法。

……..

posted on 2018-10-12 11:26 CARLOS_CHIANG 阅读(…) 评论(…) 编辑收藏

自学Python1.5-python2识别中文的更多相关文章