import requests
from bs4 import BeautifulSoup
import pandas as pd
url = \’http://top.baidu.com/buzz?b=62\’
headers = {\’User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18362\’}#伪装爬虫
r=requests.get(url)#发送get请求
r.encoding=r.apparent_encoding#统一编码
t=r.text
soup=BeautifulSoup(t,\’lxml\’)#提取html并解析内容
title=[]#创建两个列表
index=[]
for y in soup.find_all(class_=”keyword”):#使用find all方法
    title.append(y.get_text().strip())
for x in soup.find_all(\’td\’, class_=”last”):#查找以td标签的内容
    index.append(x.get_text().strip())
data=[title,index]
print(data)
s=pd.DataFrame(data,index=[“标题”,”搜索指数”])#使用工具使其可视化
print(s.T)

[[\’魔域\nsearch\’, \’英雄联盟\nsearch\’, \’我的世界\nsearch\’, \’梦幻西游\nsearch\’, \’dota2\nsearch\’, \’坦克世界\nsearch\’, \’冒险岛\nsearch\’, \’龙之谷\nsearch\’, \’守望先锋\nsearch\’, \’跑跑卡丁车\nsearch\’, \’逆水寒\nsearch\’, \’穿越火线\nsearch\’, \’流放之路\nsearch\’, \’剑灵\nsearch\’, \’战舰世界\nsearch\’, \’天涯明月刀\nsearch\’, \’激战2\nsearch\’, \’qq飞车\nsearch\’, \’剑网3\nsearch\’, \’300英雄\nsearch\’], [\’47426\’, \’25213\’, \’23726\’, \’10498\’, \’9962\’, \’9894\’, \’9740\’, \’6858\’, \’5567\’, \’4733\’, \’4111\’, \’4058\’, \’3970\’, \’3708\’, \’3519\’, \’3225\’, \’3050\’, \’2884\’, \’2812\’, \’2643\’]]
               标题   搜索指数
0      魔域\nsearch  47426
1    英雄联盟\nsearch  25213
2    我的世界\nsearch  23726
3    梦幻西游\nsearch  10498
4   dota2\nsearch   9962
5    坦克世界\nsearch   9894
6     冒险岛\nsearch   9740
7     龙之谷\nsearch   6858
8    守望先锋\nsearch   5567
9   跑跑卡丁车\nsearch   4733
10    逆水寒\nsearch   4111
11   穿越火线\nsearch   4058
12   流放之路\nsearch   3970
13     剑灵\nsearch   3708
14   战舰世界\nsearch   3519
15  天涯明月刀\nsearch   3225
16    激战2\nsearch   3050
17   qq飞车\nsearch   2884
18    剑网3\nsearch   2812
19  300英雄\nsearch   2643

版权声明:本文为dogp原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.cnblogs.com/dogp/p/12534246.html