python jieba库基本使用

xiaoyh 2018-11-06 原文

第一步：先安装jieba库

　　输入命令：pip install jieba

　　

jieba库常用函数：

　　jieba库分词的三种模式：
　　1、精准模式：把文本精准地分开，不存在冗余
　　2、全模式：把文中所有可能的词语都扫描出来，存在冗余
　　3、搜索引擎模式：在精准模式的基础上，再次对长词进行切分

　　

　　精准模式：

　　>>> import jieba
　　>>> jieba.lcut(“中国是一个伟大的国家“)
　　Building prefix dict from the default dictionary …
　　Loading model from cache C:\Users\25282\AppData\Local\Temp\jieba.cache
　　Loading model cost 0.869 seconds.
　　Prefix dict has been built succesfully.
　　[‘中国’, ‘是’, ‘一个’, ‘伟大’, ‘的’, ‘国家’]

　　全模式：

　　>>> jieba.lcut(“中国是一个伟大的国家“,cut_all=True)
　　[‘中国’, ‘国是’, ‘一个’, ‘伟大’, ‘的’, ‘国家’]

　　搜索引擎模式：

　　>>> jieba.lcut_for_search(“中华人民共和国是伟大的“)
　　[‘中华’, ‘华人’, ‘人民’, ‘共和’, ‘共和国’, ‘中华人民共和国’, ‘是’, ‘伟大’, ‘的’]

　　向分词词典增加新词：

　　>>> jieba.add_word(“蟒蛇语言“)
　　>>> jieba.lcut(“python是蟒蛇语言“)
　　[‘python’, ‘是’, ‘蟒蛇语言’]

jieba库应用举例1 ——统计八荣八耻中出现的词汇

　　

　　

jieba库分词统计实例2–三国演义词汇

　（1）查找出“threekingdoms.txt”文件中出现频率前十位的词汇

　　

　（2）统计出“threekingdoms.txt”文件 “关羽”、“曹操”、“诸葛亮”、“刘备” 等人名出现的次数

　　

版权声明：本文为xiaoyh原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://www.cnblogs.com/xiaoyh/p/9919590.html

python jieba库基本使用的更多相关文章

Pandas之:Pandas高级教程以铁达尼号真实数据为例
Pandas之:Pandas高级教程以铁达尼号真实数据为例目录简介读写文件 DF的选择选择列数据选择 […]...
python之set集合，基础篇
集合：set 特点:1>、无序，因为集合是无序的，所以不可用下标值查询，也不可切片2>、去重， […]...
Python小白学习之路（十五）—【map()函数】【filter()函数】【reduce()函数】
一、map()函数 map()是 Python 内置的高阶函数有两个参数，第一个是接收一个函数 f（匿名函数 […]...
基于python机器学习人脸自动补全
import numpy as np import matplotlib.pyplot as plt from […]...
Django内置权限扩展案例
当Django的内置权限无法满足需求的时候就自己扩展吧~ 背景介绍 overmind项目使用了Django内置 […]...
python-re正则表达–持续更新
| 模式 | 描述| |—- |—-| | […]...
使用pop3查看最新邮件的主题(subject)
import poplibfrom email.header import decode_headerfrom […]...
关于怎么快速学好Android应用程序开发及其其他编程语言(大牛和高手勿喷，此篇文章也适合刚入门小师弟和小师妹)
　　无论你是从.NET转过来的也好还是从PHP转过来的等等等，能看到这篇文章的人一般都是想快速转行到Andr […]...

随机推荐

总结几个搜索编辑器漏洞 – 无名组
总结几个搜索编辑器漏洞 site:editor inurl:asp?id inurl:ewebeditor […]...
一种防脱裤撞库的可能性？
比较麻烦，就是每次登录网站的时候都通过找回密码的方式重置一个随机密码，这个密码只用这一次，下次登录的时候用户自 […]...
深入JVM内存区域管理，值得你收藏
JDK和JRE和JVM的关系 JDK(Java Development Kit)是程序开发者用来来编译、调试j […]...
基于VUE2.0的分页插件（很好用，很简单）
基于jQuery的分页插件很多，今天分享一下基于Vue的分页插件pagination.js，该插件使用用感觉很 […]...
一路踩坑，被迫聊聊 C# 代码调试技巧和远程调试
一：背景 1. 讲故事每次项目预交付的时候，总会遇到各种奇葩的坑，我觉得有必要梳理一下以及如何快速解决的，让 […]...
初识：LevelDB
本文让你搞懂LevelDB是啥，有啥特性，源码如何编译，源码如何调试等等~ 初识：LevelDB 上篇文章缘起 […]...
Linux系统介绍
什么是操作系统我们都知道计算机是由一堆硬件来组成的，为了有更好的控制这些硬件如何工作，于是就有了操作系统。 […]...
网络测速 – 风行天下-2080
网络测速 Posted on 2018-06-26 11:24 风行天下-2080 阅读(169) 评论 […]...

展开目录

目录导航