用R爬虫+词频统计+数据可视化 - 阿蛮的杜鹃

lizhilei-123 2021-08-03 原文


用R爬虫+词频统计+数据可视化


这篇文章我们将使用爬虫来进行简单静态页面爬取,然后进行文本分词,再进行可视化分析。主要用到以下三个包:

  • rvest 爬取网页
  • jiebaR 用于分词,词频统计
  • wordcloud2 用于文本分词

如果没有安装以上几个包,使用命令:install.packages(“…”)来安装。

1.首先我们进行网页爬取

我使用的是360浏览器,打开连接:  http://www.gov.cn/premier/2017-06/04/content_5199817.htm,右键选择审查元素,找到内容标签:

我们写爬虫代码:

> library(rvest)
载入需要的程辑包:xml2
> library(xml2)
> url <- \'http://www.gov.cn/premier/2017-06/04/content_5199817.htm\'
> web <- read_html(url,encoding="utf-8")
> position <- web %>% html_nodes("div.pages_content") %>% html_text()      ##%>%为管道函数,将左边的值赋给右边函数作为第一个参数的值。html_nodes()函数获取某网页内节点信息,html()函数获取标签内文本信息

  2.分词,统计词频

 我们加载jiebaR包,再进行分词:

> library(jiebaR)

> engine_s <- worker(stop_word="stopwords.txt") ##用notepad新建一个stopwords.txt文档存在R文档目录下,编码格式为utf-8(可以用getwd()函数查找当前目录)。初始化分词引擎并加载停用词。
> seg <- segment(position,engine_s)  ##分词

> f <- freq(seg)##统计词频
> head(f)##列出前六个

  3.可视化展示

我们需要使用到wordcloud2包:

> library(wordcloud2)
> f2 <- f2[1:100,]  ##如果词比较多的情况下,我们只选取最频繁的前100个进行分析
> wordcloud2(f2,size=0.8,shape=\'star\')  ##用五角星绘制

  

4.自定义个性化展示

我们想创建自己想要的形状,在百度搜索图片:

我们利用上图作为底图绘制:

> path <- "c:/Users/zhilei/Documents/test4.jpg"
> wordcloud2(f2,size=0.5,figPath=path)

  

是不是很酸爽啊!那就动手试试吧小伙伴!

发表于
2017-06-07 10:35 
阿蛮的杜鹃 
阅读(5142
评论(0
编辑 
收藏 
举报

 

版权声明:本文为lizhilei-123原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.cnblogs.com/lizhilei-123/p/6952692.html

用R爬虫+词频统计+数据可视化 - 阿蛮的杜鹃的更多相关文章

  1. 华中科技大学电子地图 – absolute

    华中科技大学电子地图 华中科技大学电子地图高清版! 极品收藏! 华中科技大学学子必备!...

  2. ListBox控件——c# – v朋朋

    C# ListBox 自动滚动到底部 方法:在ListBox中添加一条记录(ListBox.Items.Add […]...

  3. 微信小程序之后端处理 – zxNoral

    微信小程序之后端处理 首先,来看一下后端的关系图: 这边主要介绍PHP的一些基础语法等等,关于将php代码部署 […]...

  4. Leapms + cplex解决 混合整数规划问题

    CPleX是一个神秘的求解器, 听说久了就想用, 但是直接用有些困难, 尤其入门困难. 对初学者来说Leapm […]...

  5. 金融领域常用的数据分析方法 – 11-21

    金融领域常用的数据分析方法 1.策略的收紧与放松 策略放松:命中率方法                     […]...

  6. Linux远程连接与常用命令 – 虫师

    Linux远程连接与常用命令 2012-02-21 21:58  虫师  阅读(46863)  评论(5)  […]...

  7. Java Web应用程序的规范目录结构 – whiskyS-our

    Java Web应用程序的规范目录结构 2013-10-12 17:52  whiskyS-our  阅读(4 […]...

  8. 日期格式化和计算工具 – 听风tingfeng

    日期格式化和计算工具 package com.input4hua.xxx.utils; import com. […]...

随机推荐

  1. Linux大文件传输(转)

    我们经常需要在机器之间传输文件。比如备份,复制数据等等。这个是很常见,也是很简单的。用scp或者rsync就能 […]...

  2. SPSS AMOS常用统计软件及科研神器安装包资源【SPSS 006期】

    一、教学内容 二、备注 相关资料已上传我的资源,下载链接https://blog.csdn.net/TIQCm […]...

  3. 简单之美——系统设计黄金法则 – Albert在云端

    <转>简单之美——系统设计黄金法则 作者: 包云岗  发布时间: 2012-05-19 13:06 […]...

  4. 听云数据库管理平台NetopGO简介

    ➠更多技术干货请戳:听云博客 断断续续写了将近一个月,听云第一版数据库管理平台终于写完了,期间来来回回的改了好 […]...

  5. Windows Server2012 R2 无法安装.NET Framework 3.5的解决方法

    Windows server 2012R2,自带的是.NET Framework 4.5,如果想装SQL se […]...

  6. AI图像识别

    使用百度AI图像识别提供的API接口来搭建识图工具,首先要注册百度开发者账号,然后找到图像识别页面,创建应用, […]...

  7. ncm格式转mp3格式

    1.用浏览器播放你需要转换格式的那首网易云歌曲;2.播放结束后在internet选项——常规——浏览历史记录— […]...

  8. 房价下跌序幕刚刚拉开—《中国房事黑皮书(2008)》[转]

    分析中国房价未来趋势的文章,MS比较透彻,感觉还8错,先转过来再说。。。 [申明]该文章为转贴,原文链接:ht […]...

展开目录

目录导航