1小时教你学会如何采集微博数据：0基础小白也能轻松学会！

为什么要学这门课？应用场景有哪些？

1、上班族与自媒体人：采集各类数据用于工作/运营实战；
3、电商老板：采集竞品数据，帮助分析决策；
3、找个副业：学会数据采集技能，网上接单赚钱。

常见数据采集方式
（1）人工采集：费时费力，出错率高，工作效率非常低下。
（2）写爬虫采集：门槛略高，需会写编程，写完爬虫再调试，门槛高耗时长。

一小时教你学会数据采集，无需编程知识，轻松采集所需数据，提高工作效率，解放生产力，多个副业多赚钱。

讲师介绍

微博ID：@码代码的三哥

10+年互联网从业经验，科技公司技术副总监，精通数据处理、软件开发。

它能采集什么样的数据？

只要是电脑浏览器能打开的网站，它都可以采集。

它不能采集什么样数据？

只有手机App没有网站，这样的数据不能采集。

学习本课所需工具

1、安装谷歌浏览器

首先下载谷歌浏览器并安装，https://www.google.cn/chrome/

2、下载、安装爬虫插件

1）下载插件： https://pan.baidu.com/s/15StxxtZOihb2zlsDnIS2Vw 提取码：86tn

2）把下载的压缩包，复制到E盘根目录，解压，解压后名称为 webscraper_v0.5.3，如下图：

3）下载并安装谷歌插件，如下视频

https://www.bilibili.com/video/BV1W54y1r7nt/

课程内容

数据采集的思路（从大到小，从整体到局部）

https://www.bilibili.com/video/BV1rT4y1F7cQ/

1、手把手教你采集微博数据（帖子内容、转、评、赞次数）

1）新建一个爬虫；

https://www.bilibili.com/video/BV1Vv411r7j1/

2）设置帖子数据框；

https://www.bilibili.com/video/BV1kA411j7CG/

3）设置发帖时间；

https://www.bilibili.com/video/BV1Py4y1z7Co/

4）设置帖子内容；

https://www.bilibili.com/video/BV1Ra411A7Fu/

5）设置转评赞数据框；

https://www.bilibili.com/video/BV1FZ4y157vy/

6）设置转评赞数据；

https://www.bilibili.com/video/BV1Ua4y1s743/

7）采集并核对数据；

https://www.bilibili.com/video/BV1iV41127yD/

8）如何让帖子按时间排序，采集隐藏的完整发帖时间；

https://www.bilibili.com/video/BV1Br4y1w72x/

9）如何采集多个页面的帖子数据

https://www.bilibili.com/video/BV1Ra411c7jL/

2、数据采集思路详解（采集数据就是找规律）

1）分析规律，先整体后局部，整体–》整个数据框，局部 —》某一个数据项

2）数据框类型介绍,常用的3种类型：

普通类型 Element

鼠标滚动类型 Element scroll down

鼠标点击类型 Element click

本节课用到了 Element 和 Element scroll down。

怎么选择类型，根据是否有特效来决定，无特效选Element，鼠标滚动选 Element scroll down，需要点击鼠标选Element click ，后面课程会对每一种类型做讲解和演示。

3）数据项类型介绍：

text 普通文本

image 图片

link 连接

Element attribute 某个元素的属性（高级用法）

本课程用到了text和Element attribute。

怎么选择数据类型，普通文本选text，图片选image，链接选link，Element attribute需要一点网页知识。

——————

text 类型的使用

——————

Element attribute 类型的使用

4）如何采集多页数据：用3个页面的url来分析分页的规律；

研究采集网址的规律，找出分页参数，然后设置参数，比如采集1到10页，设置为[1-10]。

第一页：https://weibo.com/2644160831/profile?topnav=1&wvr=6&is_all=1

第二页：https://weibo.com/2644160831/profile?is_search=0&visible=0&is_all=1&is_tag=0&profile_ftype=1&page=2#feedtop

第三页：https://weibo.com/2644160831/profile?is_search=0&visible=0&is_all=1&is_tag=0&profile_ftype=1&page=3#feedtop

第四页：https://weibo.com/2644160831/profile?is_search=0&visible=0&is_all=1&is_tag=0&profile_ftype=1&page=4#feedtop

总结规律得出 page=x 是页面参数

所以采集1到10页面我们设置url为

https://weibo.com/2644160831/profile?is_search=0&visible=0&is_all=1&is_tag=0&profile_ftype=1&page=[1-10]#feedtop

最后是互动问答时间

本文链接：https://www.cnblogs.com/gezifeiyang/p/13811367.html

1小时教你学会如何采集微博数据：0基础小白也能轻松学会！

为什么要学这门课？应用场景有哪些？

讲师介绍

它能采集什么样的数据？

它不能采集什么样数据？

1小时教你学会如何采集微博数据：0基础小白也能轻松学会！的更多相关文章

随机推荐

热门专题

目录导航