导入chardet模块,可以用命令安装

pip install chardet

 

希望通过一个案例能让你快速入门

import chardet

UTF8_TEXT="你好,世界".encode(\'utf-8\')
SJIS_TEXT="你好,世界".encode(\'GB2312\')
GBK_TEXT="你好,世界".encode(\'GBK\')
\'\'\'
输出结果:
{\'encoding\': \'utf-8\', \'confidence\': 0.9690625, \'language\': \'\'}
{\'encoding\': None, \'confidence\': 0.0, \'language\': None}
{\'encoding\': None, \'confidence\': 0.0, \'language\': None}
这是一个比较糟糕的问题,第一个有结果,另外两个没有结果,百度也不好百度,自己尝试了一下,发现原来内容不能不能输入一样的,改了皆可以输出结果了。

\'\'\'
\'\'\'
UTF8_TEXT="你好,世界".encode(\'utf-8\')
SJIS_TEXT="哈哈哈".encode(\'GB2312\')
GBK_TEXT="中国加油!".encode(\'GBK\')
输出结果:
{\'encoding\': \'utf-8\', \'confidence\': 0.9690625, \'language\': \'\'}
{\'encoding\': \'ISO-8859-1\', \'confidence\': 0.73, \'language\': \'\'}
{\'encoding\': \'KOI8-R\', \'confidence\': 0.40958385256619645, \'language\': \'Russian\'}

\'\'\'


def main():
    print(chardet.detect(UTF8_TEXT))
    print(chardet.detect(SJIS_TEXT))
    print(chardet.detect(GBK_TEXT))

if __name__ == \'__main__\':
    main()

\'\'\'
detect函数返回值是一个字典,得到confidence (可信度)与encoding (字符
编码)这一键值对。其中的可信度数値在0-1之向,越是接近1表明可以信頼的程
度越高。
\'\'\'

 

版权声明:本文为liangliangzz原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.cnblogs.com/liangliangzz/p/10225850.html