重来

ppansj 2017-12-02 原文

import scrapy

from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider

import re

class
QicheSpider(CrawlSpider):

name =
‘qiche’

allowed_domains = [‘autohome.com.cn’]

# 123

start_urls = [‘https://www.autohome.com.cn/grade/carhtml/’+ i.upper() +‘_photo.html’
for i in
map(chr,range(97,99))]

# rules = (

# Rule(LinkExtractor(allow=()), callback=’parse_item’),

# )

def
parse_start_url(self, response):

brand_node_list = response.xpath(“//dl”)

for brand_node in brand_node_list:

# 商标名

brand_name = brand_node.xpath(“./dt/div/a/text()”).extract_first()

producer_list = brand_node.xpath(“./dd/div[@class=’h3-tit’]/text()”).extract()

producer_ul_node_list = brand_node.xpath(“./dd/ul”)

for producer_name, producer_ul_list in
zip(producer_list, producer_ul_node_list):

随机推荐

书中提到有关调试的问题：读书的时候学习编程，觉得和其他人最不一样的地方在于两点，一是自己思考程序的流 […]...

MySQL 启动服务报错解决方案 2015-11-08 14:26 pursuer.chen 阅读(398 […]...

Android 文件数据存储

404...

从JavaWeb的角度认识Nginx

　　作为一名JavaWeb方向程序员，更多的是写服务器后台代码，但是俗话说，不想当架构师的程序员不是好程序员， […]...

算法时间复杂度的计算算法时间复杂度的计算基本的计算步骤时间复杂度的定义一般情况下，算法中基本 […]...

支持向量机(SVM)的推导(线性SVM、软间隔SVM、Kernel Trick) 线性可分支持向量机给定线性 […]...

后缀自动机详解

目录后缀自动机后缀自动机的定义子串的性质构造后缀自动机的实例在线性时间内构造后缀自动机结束位置 \ […]...

前阵子，在组内给大家做了一次关于“浏览器加载和渲染HTML的顺序”的分享，这里再总结一下吧。 AD：干货来了, […]...

重来的更多相关文章