武汉新冠肺炎疫情信息爬取

izcat 2020-03-11 原文

武汉新冠肺炎疫情信息爬取

身处疫情中心，在家无聊写了个小程序，每天自动抓取武汉卫健委公布的武汉地区的最新具体数据。

获取网站上的公布的数据后，自动转发到我的邮箱。

代码模块

main.py ：利用requests_html库，进行网站爬虫抓取疫情数据的逻辑
mymail.py：邮箱功能的实现，将邮件从新浪邮箱转发到QQ邮箱
anslyse.py：分析data.txt内的每日疫情数据，利用plt展现每日变化结果

踩坑

session对象的属性links 和 absolute_links 返回的是集合set，即使转成list也是无序的

因此从html源文件中读取到第 k 条新闻title与links[k]并不一一对应
解决方法：
- [x] 使用正规式解析新闻列表元素
- [ ] 尝试打开所有链接，检查新的页面是否是疫情信息发布页面
腾讯云服务器上无法运行以上代码，报错信息：ImportError: cannot import name ‘Coroutine’

具体在 from typing import Coroutine 原因不明
解决方法：
- [ ] 改用requests库

收获

能够使用Python编写简单的爬虫程序，抓取想要的信息
简单实践了Python发送邮件
熟悉了正则表达式的使用，根据需要分离有效数据
优化代码过程中，熟悉了map、zip等操作，简短的代码体现出了Python语言的优雅简洁之美

具体代码见我的github项目

（完）

版权声明：本文为izcat原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://www.cnblogs.com/izcat/p/12466026.html

武汉新冠肺炎疫情信息爬取的更多相关文章

随机推荐

(2)shiro角色资源权限
一般在web系统权限设计中，一般分为三个维度，用户，角色，资源，一个用户可以拥有多个角色，比如说可以是老师，也 […]...
jenkins+gitlab自动化编译部署方案探索及服务端编译webpack实战
利用jenkins自动把服务端打包编译后的代码部署到测试和线上环境，省去了手动整理待发布文件列表的麻烦，也避免 […]...
POI Excel 11 工作簿放大,设置页眉页脚 – java线程例子
POI Excel 11 工作簿放大,设置页眉页脚 2012-07-20 12:51 java线程例子阅 […]...
【Linux资源管理】iotop命令监控磁盘使用情况
一、iotop工具介绍 I/O可谓是数据库\服务器的最大瓶颈问题了，在使用top、nmon、zabbix、sa […]...
Linux从入门到精通——系统日志管理
####系统日志管理### 程序产生日志【进程和操作系统内核需要能够为发生的事件记录日 […]...
[开源飞控参数学习
一、PID调节一、姿态环，二、速率环，三、位置环四、高度环，一、姿态换（外环）： ATC_ […]...
一份数据分析学习清单.xls
今天给大家整理一份数据分析的学习清单，打算了解学习这方面的同学可以看看，基本上大的需要学习的点都有涉及；具体细 […]...
python django+bootstrap4+mysql智慧交通系统构建
之前，我做了一个实训的项目，但是一直没有展示如何做的，现在就让我讲解一下如何用django+b […]...

展开目录

目录导航