爬虫--scrapy+redis分布式爬取58同城北京全站租房数据

foremostxl 2021-12-20 原文

作业需求:

1.基于Spider或者CrawlSpider进行租房信息的爬取
2.本机搭建分布式环境对租房信息进行爬取
3.搭建多台机器的分布式环境，多台机器同时进行租房数据爬取

建议：用Pycharm开发

爬取北京全站租房信息

爬取全站用基于crawlspider建立爬虫文件

对北京出租下的70页信息进行爬取：

https://bj.58.com/chuzu/

——————————————-

分析页码网页

https://bj.58.com/chuzu/pn2 bj代表北京

包括四种类型的房源：个人房源；经纪人；安选房源；品牌公寓

个人房源：

经纪人：

安选房源：

品牌公寓：不同

详情页面

class ZufangSpider(CrawlSpider):
    name = \'zufang\'
    #allowed_domains = [\'https://www.bj.58.com\']
    start_urls = [\'https://bj.58.com/chuzu/pn1\']
    #(\'https://bj.58.com/chuzu/pn2/\')
    rules = (
        Rule(LinkExtractor(allow=r\'https://bj.58.com/chuzu/pn\d+\'), callback=\'parse_item\', follow=True),
    )


    def parse_item(self, response):
        print(response)

版权声明：本文为foremostxl原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://www.cnblogs.com/foremostxl/p/10103233.html

爬虫--scrapy+redis分布式爬取58同城北京全站租房数据的更多相关文章

随机推荐

ASP.NET批量下载文件的方法
这篇文章主要介绍了ASP.NET批量下载文件的方法,实例汇总了常见的asp.net实现批量下载的方法,具有一定 […]...
基于vue2+vuex+vue-router+sass+webpack的网易云音乐
　　【本博客为原创：http://www.cnblogs.com/HeavenBin/】　　前言：　　这 […]...
谈谈C#多线程开发：并行、并发与异步编程
现代程序开发过程中不可避免会使用到多线程相关的技术，本文讨论多线程编程相关的同步、数据安全及异常处理。阅读导 […]...
ZooKeeper(6)：ZooKeeper的伸缩性和Observer角色
1.ZooKeeper中的角色在比较老的ZooKeeper版本中，只有两种角色：leader和followe […]...
Gradle更小、更快构建APP的奇淫技巧
Gradle更小、更快构建APP的奇淫技巧本文已获得原作者授权同意，翻译以及转载原文链接：Build you […]...
HBase篇(3)-架构详解
【每日五分钟搞定大数据】系列，HBase第三篇聊完场景和数据模型我们来说下HBase的架构，在网上找了张比较 […]...
Office 2019 for Mac 破解补丁
先安装 Office 2019 for mac Microsoft_Offic […]...
IOS+Appium+Python自动化全实战教程
背景由于公司的产品坐落于不同的平台，如ios、mac、Android、windows、web。因此每次有新需求的时候，开发结束后，留给测试的时间也不多。此外，一些新的功能实现，偶尔会影响其他的模块功能正常的使用。网上的ios自动化方面...

展开目录

目录导航