Python爬虫之微信公众号(一)
之前有位朋友,听说是搞科研的,需要一些公众号的文章数据,特别是需要拿到含有关键字为“武汉“的公众号的文章。所以今天就写了一个爬虫爬取微信公众号的文章
一、大多数的爬取思路
现在,我们开始切入正题。我爬取公众号文章的方式和别人的方法可能不太一样,但是原理基本上是相通的。有些朋友可能是通过抓包的方式获取,有些朋友可能会通过搜狗微信获取,因为搜狗和微信有合作关系吧。
二、个人爬取思路介绍
现在来介绍我的方法。首先可以先申请一个微信公众号,然后新建图文,点击超链接。操作如下图所示:
三、分析网站数据包
接下来就来分析网络数据了。打开开发者工具,点击network,操作步骤如下图所示:
输入武汉,点击搜索
点击《武汉发布》这个公众号
到这里你会发现,当点击搜索时会出现两个数据包,那么到底哪一个才是有用的呢?
从上图,我们可以发现真正的有效数据在哪里。点击preview,可以发现很多的json格式的数据,里面有很多的信息,当然包括了我们需要的文章标题与文章的链接
四、headers信息分析
接下来要做的就是观察headers信息。
从上图,我们可以看到,爬取该公众号文章需要使用到的参数有哪些,既然知道了这些就真的够了吗?
也许不够哦!!
接下来,我们选择点击下一页
看看刚刚那些参数会不会有什么变化
我发现,有多出一个相同的接口,但是begin参数由0变为了5.那么从后续的测试当中发现它的规律是:0、5、10、15…
五、代码分析
基本上将网站分析完毕了那么就开始上代码吧。
首先构造请求头和查询参数
六、获取json数据
接下来要做的就是获取json数据
七、保存数据
获取到了json数据并提取到title和link之后,接下就是保存数据了。
最后结果如图所示:
本期完整代码已经上传到网盘,现在只是爬取到标题和链接,下一篇文章将讲解如何根据链接来获取公众号文章。
要获取本期源代码,只需在公众号回复:微信公众号爬虫1
下一篇结束之后将会把代码上传到github。敬请期待!!
致谢
好了,到这里又要跟大家说再见的时候了。希望我的文章能带给您知识,带给您帮助!同时也谢谢您能抽出宝贵的时间阅读,创作不易,如果您喜欢的话,点个关注再走吧。您的支持是我创作的动力,希望今后能带给大家更多优质的文章。
偶然在这相遇就是一种缘分,如果您觉得本文能够帮助到您,
那么我希望能够得到您的一丝肯定。
这份赞赏也许不必花费您一杯奶茶钱就能够学习到丰富的知识
每天学习一点点,进步大一点。