Python 之scrapy框架58同城招聘爬取案例

yang-2018 2021-09-02 原文

一、项目目录结构：

代码如下：

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class Job58CityItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    job_name = scrapy.Field()
    money = scrapy.Field()
    job_wel = scrapy.Field()
    company = scrapy.Field()
    position_type = scrapy.Field()
    xueli = scrapy.Field()
    jingyan = scrapy.Field()
    address = scrapy.Field()

# -*- coding: utf-8 -*-
import scrapy
from ..items import Job58CityItem


class JobsSpider(scrapy.Spider):
    name = \'jobs\'
    allowed_domains = [\'58.com\']
    # 配置起始页url
    offset = 1
    url = "https://cd.58.com/job/pn{0}/"
    start_urls = [url.format(str(offset))]

    #解析html内容
    def parse(self, response):
        for each in response.xpath("//ul[@id=\'list_con\']/li"):
            item = Job58CityItem()
            item[\'job_name\'] = each.xpath(".//span[@class=\'name\']/text()").extract()[0]
            money_list = each.xpath(".//p[@class=\'job_salary\']/text()").extract()
            money = "未知"
            if len(money_list) > 0:
                money = money_list[0]
            item[\'money\'] = money
            span = each.xpath(".//div[@class=\'job_wel clearfix\']/span")
            item[\'job_wel\'] = []
            for i in span:
                item[\'job_wel\'].append(i.xpath("./text()").extract()[0])
            item[\'company\'] = each.xpath(".//div[@class=\'comp_name\']/a/text()").extract()[0]
            item[\'position_type\'] = each.xpath(".//span[@class=\'cate\']/text()").extract()[0]
            item[\'xueli\'] = each.xpath(".//span[@class=\'xueli\']/text()").extract()[0]
            item[\'jingyan\'] = each.xpath(".//span[@class=\'jingyan\']/text()").extract()[0]
            item[\'address\'] = each.xpath("//span[@class=\'address\']/text()").extract()[0]
            yield item
        if self.offset < 100:
            self.offset += 1
        yield scrapy.Request("https://cd.58.com/job/pn{0}/".format(str(self.offset)), callback=self.parse)

from scrapy import cmdline

if __name__ == \'__main__\':
    cmdline.execute("scrapy crawl jobs".split())

数据：

源码链接：https://github.com/yangsphp/Scrapy-master

本文链接：https://www.cnblogs.com/yang-2018/p/10966941.html

Python 之scrapy框架58同城招聘爬取案例的更多相关文章

C#、C++、Java、Python 选择哪个好？

C#、C++、Java、Python 选择哪个好？ 2019年03月06日 16:54:34 编程小火车阅读 […]...

解决xlsxwriter的format覆盖问题

　最近在用Python写一个生成Excel日历的脚本, 功能上实现没多大问题, 倒是在xlsxwriter的格 […]...

Python列表生成器

本篇将介绍python生成器，更多内容请参考：python学习指南前言通过列表生成式，我们可以直接创建一个 […]...

（数据科学学习手札126）Python中JSON结构数据的高效增删改操作

本文示例代码及文件已上传至我的Github仓库https://github.com/CNFeffery/Dat […]...

Flask 上下文机制和线程隔离

1. 计算机科学领域的任何问题都可以通过增加一个间接的中间层来解决，上下文机制就是这句话的体现。 2. 如果 […]...

编程第一步，Linux作起步。

LInux系统，是广大程序员编程使用的系统， 1.忘记密码：先重启Linux系统；在出现“命令行”（启动目录 […]...

python 计算日期间隔

from datetime import date a = date(2011,11,24) b = date […]...

02.Scrapy-Demo

Scrapy入门实战采集目标：采集西祠网的IP代理包括 IP PORT 1. 新建项目 scrapy st […]...

随机推荐

[1024]记录我在南宁实习的点点滴滴

天上的星星不说话，地上的码儿在奔跑不知不觉来南宁实习也快有三个多月了。这三月里的点点滴滴，又要自己的水平不够 […]...

Ajax_使用 Ajax 的五种方式和五件需要注意的事

原文地址：http://www.devx.com/webdev/Article/45533 Ajax已经改变了 […]...

动态规划状态压缩-小乐乐堆积木

题目链接：https://ac.nowcoder.com/acm/contest/301/B 题目描述： […]...

数学基础系列(五)—-矩阵、矩阵的秩、向量、特征值与特征向量

一、矩阵 1、系数矩阵前面学习了矩阵很多基础知识，那么遇到具体的线性方程组该怎么办呢？该怎么转换为矩阵来求解 […]...

如何正确的提问题

单身时我把气球装上水模拟成D cup的样子，有了女朋友后她脸红红的问我是否对此熟练，我说“精通”。捷径我们 […]...

ThreadPoolExecutor 源码分析

ThreadPoolExecutor 源码分析 ThreadPoolExecutor 线程池核心实现类线程池 […]...

linux进程管理和系统状态查看命令简介

1 进程管理简介进程（Process）是计算机中的程序关于某数据集合上的一次运行活动，是系统进行资源分配和调 […]...

Python 的整数与 Numpy 的数据溢出

某位 A 同学发了我一张截图，问为何结果中出现了负数？看了图，我第一感觉就是数据溢出了。数据超出能表示的最大 […]...

Python 之scrapy框架58同城招聘爬取案例

Python 之scrapy框架58同城招聘爬取案例的更多相关文章

随机推荐

热门专题

目录导航