大家在谈租房时都在谈些什么?--豆瓣租房小组词云图
上次已经从豆瓣小组上爬取到了很多租房信息,但是标题大家都没有统一的规范,所以想通过统计词频来看看有什么关键字,看能不能利用统计出来的关键字对标题信息进行筛选提取。
在找词频统计的时候看到了,居然有一个词云图的东西。
这么好玩的东西当然不能错过啦。赶紧试试看先。
这次生成词云图真的是拢共分三步。
第一步:读取文本信息
第二步:用分词工具进行分词
第三步:用词云图库输出词云图
from wordcloud import WordCloud, ImageColorGenerator # 词云库,生成词云的主要工具
import matplotlib.pyplot as plt # 2D绘图套件
from PIL import Image # 图像生成需要的图像套件
import numpy as np # numpy计算工具
import pandas as pd # 数据分析工具
import jieba # 分词库,中文分词工具
excel_path = \'F:\SY\Python\douban_project\douban_baoan.xlsx\' #获取数据,并将数据转换成string格式
d = pd.read_excel(excel_path)
text = str(d[\'title\'])
cut_text = jieba.cut(text) # 用jieba对数据文本进行分词操作
result = "/".join(cut_text) # 必须给个符号分隔开分词结果来形成字符串,否则不能绘制词云
# print(result) # 若有需要可以预览分词效果
wc = WordCloud(font_path=r"F:\SY\Python\douban_project\yahei.ttf", background_color=\'white\', width=700,
height=500, max_font_size=70,
max_words=1000) # ,min_font_size=10)#,mode=\'RGBA\',colormap=\'pink\')
# 调用词云工具,因为默认没有中文字形,所以参数里需要输入字形路径。
# 背景颜色为白色,定义图片大小为700*500,最大字形为70,最大词数为1000
wc.generate(result) # 输入分词完的结果,并生成词云
wc.to_file(r"F:\SY\Python\douban_project\douban_baoan.png") # 按照设置的像素宽高度保存绘制好的词云图,比下面程序显示更清晰
# 4、显示图片
plt.figure("词云图") # 指定所绘图名称
plt.imshow(wc) # 以图片的形式显示词云
plt.axis("off") # 关闭图像坐标系
plt.show()
效果还不错,就像这样
接下来就是名(yi)侦(ben)探(zheng)的(jing)推(hu)理(shuo)时(ba)间(dao)了。
可以看到最大的字是公寓,科技园,单间,转租,地铁口,南山,因为爬取的是南山小组,南山这个词出现频率很高是正常的。
然后可以看出科技园应该是南山的一个亮点,有可能是需要租在科技园的人很多,也有可能是房主想把房子方便科技园人群上班作为一个亮点,从求租这个词出现的频率不高可以判断应该是后者。
从公寓和单间这个词可以看出南山区的公寓和单间房源应该是比较多的。
从地铁口可以大部分房子周边都有地铁,或者是房主这么生成的,毕竟两公里也有的说是地铁口附近。
几个地天词是桃园,西丽,大新,科技园。
总结起来就是,桃园,西丽,大新,科技园附近的房源比较多,其中以公寓和单间占大多数,且附近都有地铁口。