如何使用Scrapy 搭建一个爬虫项目
一、什么是Scrapy
Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。 [1]
二、为什么要使用Scrapy
和requests库对比
Requests | Scrapy |
---|---|
功能库 | 框架 |
并发性能不足,性能较差 | 并发性好,性能较高 |
页面级别爬虫 | 网站级别爬虫 |
重点在于页面下载 | 重点在于爬虫结构 |
三、为什么Scrapy要使用命令行模式
- 命令行更容易实现自动化,适合脚本控制
- 实际上,Scrapy是给程序员用的,功能比界面更重要
四、Scrapy常用命令
命令 | 说明 | 命令行 |
---|---|---|
startproject | 创建一个新工程 | scrapy startproject 工程名 |
genspider | 创建一个爬虫 | scrapy genspider 爬虫名 目标网站 |
crawl | 运行一个爬虫 | scrapy crawl 爬虫名 |
注意:目标网站为去掉“http://www.”之后的内容。
五、使用Scrapy步骤
-
安装scrapy ,进入cmd
pip install Scrapy
-
创建一个scrapy项目
scrapy startproject study_scrapy
-
首先进入这个目录,再创建一个爬虫(如:我爬取51job网站)
scrapy genspider Job51 51job.com
-
运行
scrapy crawl 爬虫名
至此如何使用Scrapy框架搭建一个爬虫就结束了。
版权声明:本文为lixuelin原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。