scrapy利用set()对数据进行去重

yao950814 2018-11-06 原文

scrapy利用set()对数据进行去重

from scrapy.exceptions import DropItem  #导入异常处理模块


class Baidu03Pipeline(object):
    def __init__(self):          　　#建立构造方法
        self.title = set()       　　#定义集合
    def process_item(self, item, spider):
        title = item['title']    　　#取出要进行判断数据是否重复的字段
        if title in self.title:  　　#如果存在集合中则直接删除该项，
            raise DropItem('{}已存在'.format(title))  
        self.title.add(title)       #如果数据不重复，则加入集合
        ......                      #插库数据 写在这里即可。。。
        return item

posted on 2018-11-06 14:22 泡8喝9耍10髦阅读(…) 评论(…) 编辑收藏

版权声明：本文为yao950814原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://www.cnblogs.com/yao950814/p/9915045.html

scrapy利用set()对数据进行去重的更多相关文章

随机推荐

免费公共DNS服务器全球DNS服务器国内DNS服务器
DNS(Domain Name System，域名系统)，万维网上作为域名和IP地址相互映射的一个分布式数据库 […]...
Eclipse上安装websphere
Eclipse上安装websphere 参考：https://blog.csdn.net/qq_2626423 […]...
SocketIo+SpringMvc实现文件的上传下载
SocketIo+SpringMvc实现文件的上传下载 socketIo不仅可以用来做聊天工具,也可以实现局域 […]...
Java生成验证码并进行验证(转)
本文转自http://blog.csdn.net/worm0527/article/details/51030 […]...
2 基于梯度的攻击——PGD
PGD攻击原论文地址——https://arxiv.org/pdf/1706.06083.pdf 1.PGD攻 […]...
用户故事为什么要关联开发数据？
最近我和徐大神（Shaun Xu）在分享Scrum实践经验时，经常有听众问：“用户故事为什么要关联开发数据呢？ […]...
【原】docker部署单节点consul
docker下部署单节点的consul，最重要的是在run consul时，配置-bootstrap-expe […]...
Mac 快捷键大全-倾城孤月
一、Command是Mac里最重要的修饰键，在大多数情况下相当于Windows下的Ctrl。所以以下最基本操作 […]...