为什么要学这门课?应用场景有哪些?

1、上班族与自媒体人:采集各类数据用于工作/运营实战;
3、电商老板:采集竞品数据,帮助分析决策;
3、找个副业:学会数据采集技能,网上接单赚钱。

 

常见数据采集方式
(1)人工采集:费时费力,出错率高,工作效率非常低下。
(2)写爬虫采集:门槛略高,需会写编程,写完爬虫再调试,门槛高耗时长。

一小时教你学会数据采集,无需编程知识,轻松采集所需数据,提高工作效率,解放生产力,多个副业多赚钱。 

 

讲师介绍

微博ID@码代码的三哥

10+年互联网从业经验,科技公司技术副总监,精通数据处理、软件开发。

 

它能采集什么样的数据?

只要是电脑浏览器能打开的网站,它都可以采集。

 

它不能采集什么样数据?

只有手机App没有网站,这样的数据不能采集。

 

学习本课所需工具

1、安装谷歌浏览器

首先下载谷歌浏览器并安装,https://www.google.cn/chrome/

 

 

2、下载、安装爬虫插件

1)下载插件: https://pan.baidu.com/s/15StxxtZOihb2zlsDnIS2Vw  提取码:86tn

2)把下载的压缩包,复制到E盘根目录,解压,解压后名称为 webscraper_v0.5.3,如下图:

 

 

 

3)下载并安装谷歌插件,如下视频

https://www.bilibili.com/video/BV1W54y1r7nt/

 

课程内容

 

数据采集的思路(从大到小,从整体到局部)

https://www.bilibili.com/video/BV1rT4y1F7cQ/

 

1手把手教你采集微博数据(帖子内容、转、评、赞 数)

1)新建一个爬虫; 

https://www.bilibili.com/video/BV1Vv411r7j1/

 

2)设置帖子数据框;

https://www.bilibili.com/video/BV1kA411j7CG/

 

3)设置发帖时间;

https://www.bilibili.com/video/BV1Py4y1z7Co/

 

4)设置帖子内容;

https://www.bilibili.com/video/BV1Ra411A7Fu/

 

5)设置 转评赞数据框;

https://www.bilibili.com/video/BV1FZ4y157vy/

 

6)设置 转评赞数据;

https://www.bilibili.com/video/BV1Ua4y1s743/

 

7)采集并核对数据;

https://www.bilibili.com/video/BV1iV41127yD/

 

8)如何让帖子按时间排序,采集隐藏的完整发帖时间;

https://www.bilibili.com/video/BV1Br4y1w72x/

 

9)如何采集多个页面的帖子数据

https://www.bilibili.com/video/BV1Ra411c7jL/

 

 

2、数据采集思路详解(采集数据就是找规律)

1)分析规律,先整体后局部,整体–》整个数据框,局部 —》某一个数据项 

 

 

 

 

 

 

2)数据框类型介绍,常用的3种类型:

普通类型 Element

鼠标滚动类型 Element scroll down

鼠标点击类型 Element click

本节课用到了 Element 和 Element scroll down。

怎么选择类型,根据是否有特效来决定,无特效选Element,鼠标滚动选 Element scroll down,需要点击鼠标选Element click ,后面课程会对每一种类型做讲解和演示。

 

3)数据项类型介绍:

text 普通文本

image 图片

link 连接

Element attribute 某个元素的属性(高级用法)

本课程用到了text和Element attribute。

怎么选择数据类型,普通文本选text,图片选image,链接选link,Element attribute需要一点网页知识。 

——————

text 类型的使用

 

 

 

 

——————

Element attribute 类型的使用

 

 

 

 

 

4)如何采集多页数据:用3个页面的url来分析分页的规律;

研究采集网址的规律,找出分页参数,然后设置参数,比如采集1到10页,设置为[1-10]。

第一页:https://weibo.com/2644160831/profile?topnav=1&wvr=6&is_all=1

第二页:https://weibo.com/2644160831/profile?is_search=0&visible=0&is_all=1&is_tag=0&profile_ftype=1&page=2#feedtop

第三页:https://weibo.com/2644160831/profile?is_search=0&visible=0&is_all=1&is_tag=0&profile_ftype=1&page=3#feedtop

第四页:https://weibo.com/2644160831/profile?is_search=0&visible=0&is_all=1&is_tag=0&profile_ftype=1&page=4#feedtop

 

总结规律得出 page=x 是页面参数

所以采集1到10页面我们设置url为 

https://weibo.com/2644160831/profile?is_search=0&visible=0&is_all=1&is_tag=0&profile_ftype=1&page=[1-10]#feedtop

 

最后是互动问答时间

 

版权声明:本文为gezifeiyang原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.cnblogs.com/gezifeiyang/p/13811367.html