爬虫大规模数据采集心得和示例

xuchunlin 2021-12-16 原文

本篇主要介绍网站数据非常大的采集心得

1. 什么样的数据才能称为数据量大：

　　我觉得这个可能会因为每个人的理解不太一样，给出的定义也不相同。我认为定义一个采集网站的数据大小，不仅仅要看这个网站包括的数据量的大小，还应该包括这个网址的采集难度，采集网站的服务器承受能力，采集人员所调配的网络带宽和计算机硬件资源等。这里我姑且把一个网站超过一千万个URL链接的叫做数据量大的网站。

2. 数据量大的网站采集方案：

　　2.1 . 采集需求分析：

　　　　　作为数据采集工程师，我认为最重要的是要做好数据采集的需求分析，首先要预估这个网址的数据量大小，然后去明确采集哪些数据，有没有必要去把目标网站的数据都采集下来，因为采集的数据量越多，耗费的时间就越多，需要的资源就越多，对目标网站造成的压力就越大，数据采集工程师不能为了采集数据，对目标网站造成太大的压力。原则是尽量少采集数据来满足自己的需求，避免全站采集。

　　2.2. 代码编写：

　　　　因为要采集的网站数据很多，所以要求编写的代码做到稳定运行一周甚至一个月以上，所以代码要足够的健壮，足够的强悍。一般要求做到网站不变更模板，程序能一直执行下来。这里有个编程的小技巧，我认为很重要，就是代码编写好以后，先去跑一两个小时，发现程序的一些报错的地方，修改掉，这样的前期代码测试，能保证代码的健壮性。

　　2.3 数据存储：

　　　　当数据量有三五千万的时候，无论是MySQL还是Oracle还是SQL Server，想在一个表里面存储，已经不太可能了，这个时候可以采用分表来存储。数据采集完毕，往数据库插入的时候，可以执行批量插入等策略。保证自己的存储不受数据库性能等方面的影响。

　　2.4 调配的资源：

　　　　由于目标网站数据很多，我们免不了要去使用大的带宽，内存，CPU等资源，这个时候我们可以搞一个分布式爬虫系统，来合理的管理我们的资源。

3. 爬虫的道德

　　对于一些初级的采集工程师，为了更快的采集到数据，往往开了很多的多进程和多线程，后果就是对目标网站造成了dos攻击，结果是目标网站果断的升级网站，加入更多的反爬策略，这种对抗对采集工程师也是极其不利的。个人建议下载速度不要超过2M,　多进程或者多线程不要过百。

示例：

　　

要采集的目标网站有四千万数据，网站的反爬策略是封ip，于是专门找了一台机器，开了二百多个进程去维护ip池，ip池可用的ip在500-1000个，并且保证ip是高度可用的。

代码编写完毕后，同是在两台机器上运行，每天机器开启的多线程不超过64个，下载速度不超过1M.

个人知识有限，请大牛多多包涵

版权声明：本文为xuchunlin原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://www.cnblogs.com/xuchunlin/p/9400462.html

爬虫大规模数据采集心得和示例的更多相关文章

抓取Web of Science经验分享
受新加坡某科研机构委托，需要对国内469所高校，156个学科，25年内在www.webofscience. […]...
爬虫处理网站的bug—小于号未转化为实体符
1.发现BUG 　　爬取 chinadrugtrials 详情页的公示的试验信息时候，发现程序在某些地方跑断 […]...
【Python3爬虫】大众点评爬虫
本次爬虫的爬取目标是大众点评上的一些店铺的店铺名称、推荐菜和评分信息。一、页面分析进入大众点评，然后选 […]...
python requests抓取NBA球员数据，pandas进行数据分析，echarts进行可视化 (前言)
python requests抓取NBA球员数据，pandas进行数据分析，echarts进行可视化 (前言) […]...
python3使用selenium + Chrome基础操作代码
selenium是Python的第三方库，使用前需要安装。但是如果你使用的是anaconda，就可以省略这个步 […]...
爬虫
爬虫 1.xpath的使用定位标签索引的定位[] tree.xpath(\'//li[index]\')定位 […]...
python爬虫(三)
Requests模块这个库的标准文档有个极其幽默的地方就是它的中文翻译，我就截取个开头部分，如下图：是不是 […]...
【爬虫】听故事的故事人
　　“ 我每天上班都会经过一个地铁出站口，这个出口平常人不多，有一台长长的扶梯，扶梯下面经常站着一个地铁站务员 […]...

随机推荐

ThinkPHP 5.x远程命令执行漏洞复现
ThinkPHP 5.x远程命令执行漏洞复现一、漏洞描述 2018年12月10日,ThinkPHP官方发布了 […]...
Spring Boot 自动装配原理
Spring Boot 自动装配原理 Spring Boot 在启动之前还有一系列的准备工作，比如：推断 we […]...
MTK山寨手机攻略
一，如何判断自己的手机是山寨机？如何判断山寨机的芯片型号和平台？如何进行系统后台调试？　　　　这个问题似乎 […]...
二层交换机当三层交换机，使用单臂路由实现二层交换机上的VLAN互通
众多中小企业内部网络结构都很简单，仅仅是用一台交换机将所有员工机以及服务器连接到一起，然后通过光纤访问inte […]...
谈谈对架构的看法
一、什么是架构？生活中总是时不时听到一些高大上的词，例如：微服务架构、系统架构、应用架构、部署架构、组织架构 […]...
Tomcat 服务器介绍和使用
服务器的概念和作用：问题：学习了 java 编程之后，java 代码的一个很重要的作用就是进行数据的处 […]...
制作左侧的广告栏
.leftloginbox{ height: 320px; width: 127px; position: f […]...
springboot实现mybaitis逆向工程
springboot实现mybaitis逆向工程首先引入依赖,一共需要两个依赖(一个是mybaits依赖,一 […]...

展开目录

目录导航