Scrapy爬虫框架补充内容一(Linux环境)

518894-lu 2018-05-13 原文

Scrapy爬虫框架结构及工作原理详解

scrapy框架的框架结构如下：

组件分析：

ENGINE:(核心)：处理整个框架的数据流，各个组件在其控制下协同工作

SCHEDULER（调度器）：负责接收引擎发送来的请求，并压入队列，在引擎再次请求时返回

SPIDER（蜘蛛）：负责从网页中提取指定的信息，即item并产生对新页面的下载请求

DOWNLOADER(下载器):用于下载网页内容(即发送HTTP请求/接受HTTP请求)并将内容返回给ENGINE

ITEM PIPELINES(项目管道)：主要对爬取到的数据进行处理（去重、过滤、清洗），最终保存数据

DOWNLOADER MIDDLEWARES(下载中间件)：位于ENGINE和DOWNLOADER中间，处理请求和响应（该组件是反反爬虫的重点）

SPIDER MIDDLEWARES(爬虫中间件)：位于SPIDER和ENGINE中间，处理蜘蛛的请求和响应

数据流对象分析：（主要有三）

（1）REQUEST:scrapy中的hettp请求对象

（2）RESPONSE:scrapy中的http响应对象

（3）ITEM：页面爬取到的数据

工作原理：

（1）、Spiders发送第一个URL给引擎

（2）、引擎从Spider中获取到第一个要爬取的URL后，在调度器(Scheduler)以Request调度

（3）、调度器把需要爬取的request返回给引擎

（4）、引擎将request通过下载中间件发给下载器(Downloader)去互联网下载数据

（5）、一旦数据下载完毕，下载器获取由互联网服务器发回来的Response，并将其通过下载中间件发送给引擎

（6）、引擎从下载器中接收到Response并通过Spider中间件发送给Spider处理

（7）、Spider处理Response并从中返回匹配到的Item及(跟进的)新的Request给引擎

（8）、引擎将(Spider返回的)爬取到的Item给Item Pipeline做数据处理或者入库保存，将(Spider返回的)Request给调度器入队列

（9）、重复第（3）步循环运行直至SCHCULAR中没有REQUEST为止

总结：这章我们学习了整个scrapy框架的结构及工作原理，小伙伴们清楚了吗？（刚全宿舍去看了复联3，突然发现灭霸并没有那么坏！雷神真tm叼！）

本文链接：https://www.cnblogs.com/518894-lu/p/9033924.html

Scrapy爬虫框架补充内容一(Linux环境)的更多相关文章

requests库详解

1、requests库简介:http://docs.python-requests.org/zh_CN/lat […]...

Scrapy爬虫框架补充内容三(代理及其基本原理介绍)

前言：（本文参考维基百科及百度百科所写）当我们使用爬虫抓取数据时，有时会产生错误比如：突然跳出来了403 F […]...

Scrapy爬虫框架第五讲（linux环境)【download middleware用法】

DOWNLOAD MIDDLEWRE用法详解通过 […]...

Scrapy爬虫框架第八讲【项目实战篇：知乎用户信息抓取】–本文参考静觅博主所写

思路分析：（1）选定起始人（即选择关注数和粉丝数较多的人–大V）（2）获取该大V的个人信息（ […]...

Scrapy爬虫框架第四讲(Linux环境）

下面我们来学习Selector的具体使用：（参考文档：http://scrapy-chs.readthedoc […]...

Scrapy爬虫框架第三讲（linux环境）

下面我们来学习下Spider的具体使用：我们已上节的百度阅读爬虫为例来进行分析： 1 # -*- codin […]...

Scrapy爬虫框架第一讲(Linux环境)

1、What is Scrapy? 答：Scrapy是一个使用python语言（基于Twistec框架）编写的 […]...

PyQuery详解

1、What is Pyquery? 答：灵活强大的网页解析库 2、安装： pip3 install pyqu […]...

随机推荐

使用栈结构计算中缀表达式

栈中元素的顺序是先进后出，添加的元素总在栈顶，出栈也是先出栈顶，就像弹夹一样。中缀表达式是我们人计算表达式的方 […]...

基于C#的机器学习–微基准测试和激活功能

本章我们将学习以下内容: l 什么是微基准测试 l 如何将它应用到代码中 l 什么是激活函数 l 如何 […]...

网页色彩搭配的几种常用颜色

一般来说，网页的背景色应该柔和一些、素一些、淡一些，再配上深色的文字，使人看起来自然、舒畅。而为了追求醒目的视 […]...

数据挖掘人员工作领域大致可分为三类

一、目前国内的数据挖掘人员工作领域大致可分为三类。 · 1）数据分析师：在拥有行业数据的电商、金 […]...

oracle数据库数据导入导出步骤（入门）

oracle数据库数据导入导出步骤（入门）说明： 1.数据库数据导入导出方法有多种，可以通过exp/imp命 […]...

国内开源缺陷管理系统PPM Bug v1.5 发布

PPM Bug v1.5 第六个版本发布啦，欢迎大家到PPM项目主页免费下载使用~ 这个版本解决并修复了很多用 […]...

关于keil警告/错误问题的解释和修正

【小o地图Excel插件版】不止能做图表，还能抓58、大众点评网页数据…

制作地图图表、EChart图表、抓取58房产网页、大众点评页面数据小o地图Excel插件版：一款基于Exce […]...

Scrapy爬虫框架补充内容一(Linux环境)

Scrapy爬虫框架补充内容一(Linux环境)的更多相关文章

随机推荐

热门专题

目录导航