如何使用Scrapy 搭建一个爬虫项目

lixuelin 2020-04-14 原文

一、什么是Scrapy

Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。 [1]

二、为什么要使用Scrapy

和requests库对比

Requests	Scrapy
功能库	框架
并发性能不足，性能较差	并发性好，性能较高
页面级别爬虫	网站级别爬虫
重点在于页面下载	重点在于爬虫结构

三、为什么Scrapy要使用命令行模式

命令行更容易实现自动化，适合脚本控制
实际上，Scrapy是给程序员用的，功能比界面更重要

四、Scrapy常用命令

命令	说明	命令行
startproject	创建一个新工程	scrapy startproject 工程名
genspider	创建一个爬虫	scrapy genspider 爬虫名目标网站
crawl	运行一个爬虫	scrapy crawl 爬虫名

注意：目标网站为去掉“http://www.”之后的内容。

五、使用Scrapy步骤

安装scrapy ,进入cmd
```
pip install Scrapy
```
创建一个scrapy项目
```
scrapy startproject study_scrapy
```
首先进入这个目录，再创建一个爬虫（如：我爬取51job网站）
```
scrapy genspider Job51 51job.com
```
运行
```
scrapy crawl 爬虫名
```

至此如何使用Scrapy框架搭建一个爬虫就结束了。

版权声明：本文为lixuelin原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://www.cnblogs.com/lixuelin/p/12697400.html

如何使用Scrapy 搭建一个爬虫项目的更多相关文章

随机推荐

[JIT_APP]Java基础知识总结
一、Java语言的基础知识 1. 开发Java语言的公司美国Sun(Sum Microsystems)公司开 […]...
spring(一)：IDEA创建一个springboot项目
一、环境准备 JDK1.8 Maven3.6.1 IDEA 2018.1 springboot 最新版 […]...
Eclipse中如何创建一个完整的Maven-Web项目 – 小小阳阳1994
Eclipse中如何创建一个完整的Maven-Web项目 Maven Web项目搭建　　1.首先确保本地开发 […]...
vb是如何连接数据库的
vb是如何连接数据库的刚开始学习数据库时，对数据库很不了解，尤其是模块中的代码。照着抄都有 […]...
YesFInder – Web File Manager 网页文件管理系统 – STEVEN-YE
YesFInder – Web File Manager 网页文件管理系统开发原由：原来想找一 […]...
《HelloGitHub》第 40 期
《HelloGitHub》第 40 期兴趣是最好的老师，HelloGitHub 就是帮你找到兴趣！简介分 […]...
一篇很全面的freemarker教程
转载 https://www.cnblogs.com/yijiayuyan12/p/8277664.html […]...
原子性操作
1. 概念原子操作是指不被打断的操作，即它的最小的执行单位。最简单的原子操作就是一条条的汇编指令(不包括一些 […]...

展开目录

目录导航