如何查看字符编码?
导入chardet模块,可以用命令安装
pip install chardet
希望通过一个案例能让你快速入门
import chardet UTF8_TEXT="你好,世界".encode(\'utf-8\') SJIS_TEXT="你好,世界".encode(\'GB2312\') GBK_TEXT="你好,世界".encode(\'GBK\') \'\'\' 输出结果: {\'encoding\': \'utf-8\', \'confidence\': 0.9690625, \'language\': \'\'} {\'encoding\': None, \'confidence\': 0.0, \'language\': None} {\'encoding\': None, \'confidence\': 0.0, \'language\': None} 这是一个比较糟糕的问题,第一个有结果,另外两个没有结果,百度也不好百度,自己尝试了一下,发现原来内容不能不能输入一样的,改了皆可以输出结果了。 \'\'\' \'\'\' UTF8_TEXT="你好,世界".encode(\'utf-8\') SJIS_TEXT="哈哈哈".encode(\'GB2312\') GBK_TEXT="中国加油!".encode(\'GBK\') 输出结果: {\'encoding\': \'utf-8\', \'confidence\': 0.9690625, \'language\': \'\'} {\'encoding\': \'ISO-8859-1\', \'confidence\': 0.73, \'language\': \'\'} {\'encoding\': \'KOI8-R\', \'confidence\': 0.40958385256619645, \'language\': \'Russian\'} \'\'\' def main(): print(chardet.detect(UTF8_TEXT)) print(chardet.detect(SJIS_TEXT)) print(chardet.detect(GBK_TEXT)) if __name__ == \'__main__\': main() \'\'\' detect函数返回值是一个字典,得到confidence (可信度)与encoding (字符 编码)这一键值对。其中的可信度数値在0-1之向,越是接近1表明可以信頼的程 度越高。 \'\'\'
版权声明:本文为liangliangzz原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。