之前有位朋友,听说是搞科研的,需要一些公众号的文章数据,特别是需要拿到含有关键字为“武汉“的公众号的文章。所以今天就写了一个爬虫爬取微信公众号的文章

一、大多数的爬取思路

现在,我们开始切入正题。我爬取公众号文章的方式和别人的方法可能不太一样,但是原理基本上是相通的。有些朋友可能是通过抓包的方式获取,有些朋友可能会通过搜狗微信获取,因为搜狗和微信有合作关系吧。

二、个人爬取思路介绍

现在来介绍我的方法。首先可以先申请一个微信公众号,然后新建图文,点击超链接。操作如下图所示:

 

 

三、分析网站数据包

接下来就来分析网络数据了。打开开发者工具,点击network,操作步骤如下图所示:

 

输入武汉,点击搜索

 

点击《武汉发布》这个公众号

 

到这里你会发现,当点击搜索时会出现两个数据包,那么到底哪一个才是有用的呢?

从上图,我们可以发现真正的有效数据在哪里。点击preview,可以发现很多的json格式的数据,里面有很多的信息,当然包括了我们需要的文章标题与文章的链接

四、headers信息分析

接下来要做的就是观察headers信息。

 

从上图,我们可以看到,爬取该公众号文章需要使用到的参数有哪些,既然知道了这些就真的够了吗?

也许不够哦!!

接下来,我们选择点击下一页

 

看看刚刚那些参数会不会有什么变化

 

我发现,有多出一个相同的接口,但是begin参数由0变为了5.那么从后续的测试当中发现它的规律是:0、5、10、15…

五、代码分析

基本上将网站分析完毕了那么就开始上代码吧。

首先构造请求头和查询参数

 

六、获取json数据

接下来要做的就是获取json数据

 

七、保存数据

获取到了json数据并提取到title和link之后,接下就是保存数据了。

 

最后结果如图所示:

本期完整代码已经上传到网盘,现在只是爬取到标题和链接,下一篇文章将讲解如何根据链接来获取公众号文章。

要获取本期源代码,只需在公众号回复:微信公众号爬虫1

下一篇结束之后将会把代码上传到github。敬请期待!!

  致谢

好了,到这里又要跟大家说再见的时候了。希望我的文章能带给您知识,带给您帮助!同时也谢谢您能抽出宝贵的时间阅读,创作不易,如果您喜欢的话,点个关注再走吧。您的支持是我创作的动力,希望今后能带给大家更多优质的文章。

偶然在这相遇就是一种缘分,如果您觉得本文能够帮助到您,

那么我希望能够得到您的一丝肯定。

这份赞赏也许不必花费您一杯奶茶钱就能够学习到丰富的知识

每天学习一点点,进步大一点。

 

版权声明:本文为匿名原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接: