以下内容转载至数据化管理WeChat公众号(有少量删改)

原文连接:https://mp.weixin.qq.com/s/Uf4CDizLAbAmCiDB360huQ

大家好,近期有收到一些朋友留言,表示自己是做数据分析的工作,也想自己关注所在地区的疫情数据,问我怎么能方便地获取疫情的数据,本文就给大家介绍一下用Excel获取疫情数据的简单技能。

先搞清楚疫情数据的来源在哪里?

关注疫情的数据,官方的公布渠道就是通过国家卫健委、各省市区卫健委公布的信息,所以我们首先应该是考虑能不能从卫健委的网站获取数据?

例如下图是国家卫健委官网(http://www.nhc.gov.cn/)发布的页面:

如果你要用工具获取以上页面中的数据,就是需要抓取到上面的这串文本,然后通过文本关键字分析,提取出其中的关键数据出来,再整理成结构化数据,才能用于数据的分析。同理,如果你要获取某个省的疫情数据,也可以通过省级卫健委官网公布的数据,去提取整理。例如以下就是江西省卫健委公布的情况信息:

 

对于大多数人来说,这样去整理数据确实费时费力,技能也不一定跟得上,但是要自己获取这些数据的话,首先我们确实是这样考虑的,毕竟卫健委的是一手数据,质量也能保障。但是由于技术难度相对较大,所以这种方法本文就不介绍了。

如果暂时没有条件直接获取到官方数据的话,我们还可以获取别人整理好的数据,例如腾讯、阿里、新浪、丁香园、网易、百度等等,他们都有对应的疫情数据页面,而且是国家,省,市级的数据都已经整理好了,所以我们可以想办法从他们的页面中获取你要的数据。

以下就开始,给大家介绍简单的数据获取方法:

我们打开腾讯新闻的界面(https://news.qq.com/zt2020/page/feiyan.htm),里面是有全国的数据,有分省的数据,有市级的数据等,非常详细。(可以看到它们的数据来源,也是写着来源于卫健委发布的信息)

网页地址找到了,接下来就是用什么工具来获取?

工具其实是灵活的,看你熟悉使用哪个,Python可以,VBA也可以,或者其他编程语言都行。但我们今天用的工具,非常简单,直接用Excel的Power Query功能来实现(Excel 2016以上默认是内置此功能的),以下介绍操作的步骤:

Step1:找到数据的真正地址。刚才我们只是拿到了页面的地址,但这个地址中并没有包含我们要的数据。怎么找?

这就需要你具备一定的网站数据传输知识了,有兴趣的朋友可以百度“Chrome抓包分析”去了解更多。我在这里就直接提供我获取到的2个地址给大家参考使用:

省数据:https://api.inews.qq.com/newsqa/v1/query/pubished/daily/list?province=湖北

市数据:https://api.inews.qq.com/newsqa/v1/query/pubished/daily/list?province=湖北&city=武汉

Step2:用PQ来获取数据。如果你看不到以下界面,证明你没有PQ的功能。(没有这个功能也不用担心,文末提供了直接下载数据的方法)

PoweQuery下载连接:https://www.microsoft.com/zh-cn/download/details.aspx?id=39379

 

 

按下确定后,就可以进入以下界面了,事情就变得简单了,直接通过手工操作即可转换好数据。

 

 

 

关于PQ的具体操作,可参考下述连接:

 

Step3:最后一步就是“关闭并上载”到新工作表即可。

 

版权声明:本文为kamigao原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.cnblogs.com/kamigao/p/12327004.html