Python爬虫之微信公众号（一）

之前有位朋友，听说是搞科研的，需要一些公众号的文章数据，特别是需要拿到含有关键字为“武汉“的公众号的文章。所以今天就写了一个爬虫爬取微信公众号的文章

一、大多数的爬取思路

现在，我们开始切入正题。我爬取公众号文章的方式和别人的方法可能不太一样，但是原理基本上是相通的。有些朋友可能是通过抓包的方式获取，有些朋友可能会通过搜狗微信获取，因为搜狗和微信有合作关系吧。

二、个人爬取思路介绍

现在来介绍我的方法。首先可以先申请一个微信公众号，然后新建图文，点击超链接。操作如下图所示：

三、分析网站数据包

接下来就来分析网络数据了。打开开发者工具，点击network，操作步骤如下图所示：

输入武汉，点击搜索

点击《武汉发布》这个公众号

到这里你会发现，当点击搜索时会出现两个数据包，那么到底哪一个才是有用的呢？

从上图，我们可以发现真正的有效数据在哪里。点击preview，可以发现很多的json格式的数据，里面有很多的信息，当然包括了我们需要的文章标题与文章的链接

四、headers信息分析

接下来要做的就是观察headers信息。

从上图，我们可以看到，爬取该公众号文章需要使用到的参数有哪些，既然知道了这些就真的够了吗？

也许不够哦！！

接下来，我们选择点击下一页

看看刚刚那些参数会不会有什么变化

我发现，有多出一个相同的接口，但是begin参数由0变为了5.那么从后续的测试当中发现它的规律是：0、5、10、15…

五、代码分析

基本上将网站分析完毕了那么就开始上代码吧。

首先构造请求头和查询参数

六、获取json数据

接下来要做的就是获取json数据

七、保存数据

获取到了json数据并提取到title和link之后，接下就是保存数据了。

最后结果如图所示：

本期完整代码已经上传到网盘，现在只是爬取到标题和链接，下一篇文章将讲解如何根据链接来获取公众号文章。

要获取本期源代码，只需在公众号回复：微信公众号爬虫1

下一篇结束之后将会把代码上传到github。敬请期待！！

致谢

好了，到这里又要跟大家说再见的时候了。希望我的文章能带给您知识，带给您帮助！同时也谢谢您能抽出宝贵的时间阅读，创作不易，如果您喜欢的话，点个关注再走吧。您的支持是我创作的动力，希望今后能带给大家更多优质的文章。

偶然在这相遇就是一种缘分，如果您觉得本文能够帮助到您，

那么我希望能够得到您的一丝肯定。

这份赞赏也许不必花费您一杯奶茶钱就能够学习到丰富的知识

每天学习一点点，进步大一点。

本文链接：

Python爬虫之微信公众号（一）

一、大多数的爬取思路

二、个人爬取思路介绍

三、分析网站数据包

四、headers信息分析

五、代码分析

六、获取json数据

七、保存数据

致谢

Python爬虫之微信公众号（一）的更多相关文章

随机推荐

热门专题

目录导航