声明:本作品不可用于任何商业途径,仅供学习交流!!!

分析:

进入阿里巴巴电商直播的网页>打开浏览器的抓包工具>点击正在直播板块下的(查看更多),进行抓包、分析:

分析json数据请求参数headers,处理该请求的反爬策略:

最后就是在编码工具多次测试等操作,实现项目工程代码:

下面是代码部分(本文只抓取3页的数据,并且把数据保存在redis数据库里面):

发起请求,提取可以被json.loads()可以读取处理的数据:

提取、处理数据:

把数据 保存在redis数据库里面(因为直播间数据和直播带货商品数据不方便放在同一个csv文件里面)

工程控制函数:

ok,下面是跑这个工程的效果:

这个是保存在redis数据库里面的字典形式的数据(测试工程代码的图):

下面是该工程的最终成果(为了打印的展示数据好看点,没有展示太多主播带货的商品数据):

这是redis数据库:

2021.5.5 更新:(给工程加入代理ip,对爬虫工程伪装)

获取优质可用免费代理ip的函数:

给发起请求的函数使用代理ip:

工程控制函数和跑该工程的效果:

声明:本作品不可用于任何商业途径,仅供学习交流!!!

版权声明:本文为YYQ-4414原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.cnblogs.com/YYQ-4414/p/14729574.html