Python导出微信公众号文章

wzf-Learning 2021-12-12 原文

平时我们可能需要把感兴趣的公众号的文章保存为pdf，方便离线查看，也可以避免某些文章被删除后看不到。所以我们需要把该公众号的文章批量导出为pdf。这里我们使用python来实现该功能。

1、导出该公众号的所有文章链接等信息为CSV文件。

首先我们安装chrome的webscraper插件，用来爬取自己感兴趣的公众号的文章导出为CSV文件。文件保存文章的标题，时间和链接。具体插件的使用细节自己百度。

2、根据第一步生成的CSV文件批量导出为pdf

首先我们安装wkhtmltopdf工具程序。然后编写程序来读取上一步得到的csv文件批量导出为pdf。这里由于微信的图片防盗链措施，直接根据url导出pdf会发现图片缺失。所以我们需要对请求得到的html文件进行处理后，再导出为pdf。具体核心代码如下：

 1 def process(item):
 2     url = str(item[2])
 3     name = item[1] + item[0] + \'.pdf\'
 4     response = requests.get(url)
 5     html = response.text
 6     html = html.replace(\'data-src\', \'src\')
 7 
 8     try:
 9         pdfkit.from_string(html, name)
10     except:
11         pass
12     
13 with open("weixin.csv","r",encoding="gbk") as f:
14     f_csv=csv.reader(f)
15     next(f_csv)
16     pool = ThreadPool(processes=20)
17     pool.map(process, (i for i in f_csv))
18     pool.close()

其中使用了线程池来加速处理生成pdf，本地测试一分钟可以导出90+篇文章。

代码：GitHub

版权声明：本文为wzf-Learning原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://www.cnblogs.com/wzf-Learning/p/11153963.html

Python导出微信公众号文章的更多相关文章

随机推荐

ECharts图表——封装通用配置
　　前言　　前段时间在做大屏项目，大量用到echarts图表，大屏对设计规范要求比较高，而大屏项目，经常会因 […]...
discuz门户文章页面模板修改
discuz门户文章页面模板修改 discuz门户文章页面模板修改修改内容：view.htm 1.文章标题， […]...
Factory Method （工厂模式）
什么是工厂设计模式根据名字即可了解，工厂肯定是用来生产产品的，在我们的程序开发中，需要用到不同的类，对于熟悉 […]...
ftp服务器问题
ftp服务器问题最近ftp服务器迁移，遇到了521问题，可以尝试以下几种方法： 1，服务器管理器-&g […]...
(轉）英文學習網址 – SuperCai
(轉）英文學習網址新概念英语网络课堂新概念： http://jxue.com/zt/05zt/zxyy/ […]...
数据结构算法学习之队列(数组模拟java实现）
数组模拟队列数组模拟队列今天学习数组模拟队列。队列常用于生活中的方方面面。比如银行叫号排队。实际上就是队列 […]...
前端学习总结，经验分享，项目经验分享过程
前言来，和魔王哪吒总结一下，分享一下自己对前端学习总结，经验分享，以及写过的项目经验分享过程。如果觉得还不 […]...
JavaScript 使用 mediaDevices API 选择摄像头
JavaScript 使用 mediaDevices API 选择摄像头大多数智能手机都有前置和后置摄像头， […]...

展开目录

目录导航