scrapy爬虫框架

LBDJSBP 2020-06-30 原文

　　scrapy是一个使用Python编程语言编写的爬虫框架，任何人都可以根据自己的需求进行修改，并且使用起来非常方便。他可以应用在数据采集，数据挖掘，网络异常用户检测，存储数据等方面。

　　scrapy使用了Twisted异步网络库来处理网络通讯。

框架的组成：　

　　1. scrapy engine:引擎
　　　　　　整个框架的核心，负责框架中的数据的流动
　　2.scheduler：调度器
　　　　　　从引擎接受requestsu,并且让其进入队列，按照调度的规则吧requests发送给Downloader
　　3.Downloader：下载器
　　　　　　发送请求并接受响应，把响应交给spiders
　　4.spiders：爬虫（解析器）
　　　　　　解析url和data
　　　　　　url：通过引擎交给调度器
　　　　　　data：通过引擎交给item pipeline
　　5.item pipeline：数据管道
　　　　　　接受items，并保存

流程：

　　1.引擎从spider处获得爬取请求（request）

　　2.Eengine(引擎)将爬取请求转发给Scheduler(调度器),用于调度

　　3.Engine(引擎)从Scheduler（调度器）处获得下一个要爬取的请求

　　4.Engine(引擎)将爬取请求通过中间件发送给Downlooader(下载器)

　　5.爬取网页后，Downloader(下载器)形成响应（Response）通过中间件发送给Engine(引擎)

　　6.Engine(引擎)将收到的响应通过中间件发送给Spider处理

　　7.spider处理响应后产生爬取项（scraped Item）和新的爬取请求（Requests）发送给Engine(引擎)

　　8.Engine(引擎)将爬取项发送给Item Pipeline(项目管道)

　　9.Engine(引擎)将爬取请求发送给Scheduler(调度器)

总结：

　　引擎控制个模块数据流，不间断从调度器处获得爬取请求，直到请求为空。整个框架从spider的初始爬取请求开始——直到item结束。

版权声明：本文为LBDJSBP原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://www.cnblogs.com/LBDJSBP/p/13215904.html

scrapy爬虫框架的更多相关文章

Python 爬虫从入门到进阶之路（二）
上一篇文章我们对爬虫有了一个初步认识，本篇文章我们开始学习 Python 爬虫实例。在 Python 中有很 […]...
爬虫入门到放弃系列02：html网页如何解析
抬头仰望明暗的恒星哪一颗属于我们的梦而你的世界对我开始言不由衷前言上一篇文章讲了爬虫的概念，本篇文章 […]...
【新手向】使用nodejs抓取百度贴吧内容
参考教程：https://github.com/alsotang/node-lessons 1~5节 1. […]...
python爬虫（7）——BeautifulSoup
　　　　今天介绍一个非常好用的python爬虫库——beautifulsoup4。beautifulsoup4 […]...
Python 爬虫从入门到进阶之路（四）
之前的文章我们做了一个简单的例子爬取了百度首页的 html，我们用到的是 urlopen 来打开请求，它是一个 […]...
推荐一款小众且好用的 Python 爬虫库 – RoboBrowser
1. 前言大家好，我是安果！今天推荐一款小众轻量级的爬虫库：RoboBrowser RoboBrowser […]...
爬虫——scrapy入门
scrapy 安装scrapy pip install scrapy windows可能安装失败，需要先安装c […]...
Python 爬虫从入门到进阶之路（十六）
之前的文章我们介绍了几种可以爬取网站信息的模块，并根据这些模块爬取了《糗事百科》的糗百内容，本章我们来看一下用 […]...

随机推荐

Java 安装后的检测是否安装成功
下载安装JDK（Java SE development Kit） Java是有sun公司发行的编程语言，JDK […]...
3D设计软件中如何快速建模？浩辰3D快速建模教程
在使用传统软件进行产品设计过程中，工程师经常会遇到这些问题：更改某一尺寸可能会引起其他尺寸的失效，或者是后续特 […]...
给学习数据结构学生的一封信
关于思考《数据结构》是一门需要思考的课程。思考的具体表现形式：碰到问题后为解决问题所进行的思考（比如做作业、 […]...
linux RPM包安装、更新、删除等操作命令简明总结，如何查看yum安装的软件路径？ – wajika
linux RPM包安装、更新、删除等操作命令简明总结，如何查看yum安装的软件路径？ rpm -ivh […]...
ubuntu 安装mplayer问题
想在ubuntu下看视频。不过在安装mplayer时出现了问题，说依赖的一些包不存在。然后去安装那些依赖的包 […]...
Bootstrap——优秀的开源前端框架
Bootstrap是著名的社交网站、微博的先驱Twitter在2011年8月推出的开源WEB前端框架，集合CS […]...
C# 插入文本框到PPT幻灯片
概述在文本框中我们可以实现的操作有很多，如插入文字、图片、设置字体大小、颜色、文本框背景填充、边框设置等。下 […]...
time模块、装饰器、类的装饰器
python time模块　　导入模块：　import time　　　　#time模块是python中最基 […]...

展开目录

目录导航