使用json方法爬取虎牙直播动态页面直播数据
接上次随笔来讲,抓取动态页面不能用普通的函数去抓取了,这就要用到json方法了
json简介以及使用方法可以在这个网站里面学习https://www.w3school.com.cn/json/index.asp
回到正题:
动态页面的翻页查看是藏在这个里面的,如图可以看到,后面page=4就是代表这是第四页。
整个页面的所有信息都是在这里面可以查到的,而我们只需要使用json函数去抓取
这是抓取全部直播信息的代码,我们只需要找出正确的网址,然后设置for循环把i替代掉网址里边的页数一遍遍循环就可以抓取到每一页的所有主播的各种信息。
具体每个信息怎么抓在第二张图里就可以看出来,每个主播的信息都有函数去表示,只需要把表示的函数抓出来信息就出来了
也就是这里。
然后说一下如何把抓取到的数据导入数据库:
这里我是把整个平台的直播分类抓出来导入数据库了
这里就是全部的代码,操作起来尤其要注意连接数据库,数据库的信息一定要填写正确,要是自己电脑上的数据库的信息,一旦错误就运行不出来
本来是想把这些再分成四个大类的,然后由于不知道如何操作就这样存储了,id是设置了自增长让它自己根据抓取的直播类型数量自己加的
就是后面这四个大类。