Scrapy-简单介绍

SpiderElliot 2018-02-25 原文

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。

其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。

编写一个Scrapy项目需要以下几个简单的流程：

　　创建一个Scrapy项目

scrapy startproject projectName
cd projectName
scrapy genspider baidu baidu.com

　　然后就会在你的集成化工具上出现创建的项目：

　　定义提取的Item（你需要爬取的数据的容器）

1 import scrapy
2 class DmozItem(scrapy.Item):
3     title = scrapy.Field()
4     link = scrapy.Field()
5     desc = scrapy.Field()

View Code

　　编写爬取网站的 spider 并提取 Item

1 import scrapy
2 class BaiduSpider(scrapy.Spider):
3     name = 'baidu'
4     allowed_domains = ['baidu.com']
5     start_urls = ['http://baidu.com/']
6 
7     def parse(self, response):
8         #主要爬取代码编写区
9          pass

View Code

　　编写 Item Pipeline 来存储提取到的Item(即数据)

1 class ProjectnamePipeline(object):
2     def process_item(self, item, spider):
3         #对爬取到的数据进行处理
4         return item

View Code

　　运行项目

　　　　方法一：cmd命令行输入运行 Scrapy 项目

scrapy crawl baidu #这里的baidu是spider的名字不是项目名，是唯一的

　　　　方法二：.py文件运行 Scrapy 项目

　　　　创建 runBaidu.py 文件

1 from scrapy import cmdline
2 cmdline.execute("scrapy crawl baidu".split())

View Code

posted on 2018-02-25 09:23 Spider_Maker 阅读(…) 评论(…) 编辑收藏

本文链接：https://www.cnblogs.com/SpiderElliot/p/8468604.html

随机推荐

nginx系列 3 nginx.conf介绍(1)

nginx系列 3 nginx.conf介绍(1) 一. nginx.conf 文件结构概述　　在第一篇中讲 […]...

APN接入点服务商名称

APN接入点服务商名称 APN（Access Point Name 接入点服务商名称）是中国移动GPRS针对数 […]...

LCD段码驱动 – 樊四郎

LCD段码驱动假如要第3个数码关显示“8.”，则3A-3D均得为1，即Seg3和Seg4均得为1。假设模具S […]...

MAC地址修改方式汇总

1. MAC地址修改规则 MAC地址一共6个字节（48位），前3个字节由IEEE Registeration […]...

排序：使数组唯一的最小增量（3.22 leetcode每日打卡）

给定整数数组 A，每次 move 操作将会选择任意 A[i]，并将其递增 1。返回使 A 中的每个值都是唯一 […]...

中南大学图书馆自动登录油猴脚本

图书馆的油猴脚本来了 // ==UserScript== // @name CSULibrary_Login […]...

MS CRM 2011 SDK更新——5.05版本

MS CRM 2011 SDK 5.05已经发布，下载地址以及其中新增工具的介绍 MS CRM 201 […]...

智能产品方案开发要注意的三个地方

从是技术研发领域也有5年多了，经历过很多开发不成功或者开发不完善的例子，就拿出来分享一下，开发容易踩坑的地方 […]...

Scrapy-简单介绍

Scrapy-简单介绍的更多相关文章

随机推荐

热门专题

目录导航