1. from scrapy.exceptions import DropItem #导入异常处理模块

  1. class Baidu03Pipeline(object):
  2. def __init__(self):   #建立构造方法
  3. self.title = set()   #定义集合
  4. def process_item(self, item, spider):
  5. title = item['title']   #取出要进行判断数据是否重复的字段
  6. if title in self.title:   #如果存在集合中则直接删除该项,
  7. raise DropItem('{}已存在'.format(title))
  8. self.title.add(title) #如果数据不重复,则加入集合
  9. ...... #插库数据 写在这里即可。。。
  10. return item

posted on 2018-11-06 14:22 泡8喝9耍10髦 阅读() 评论() 编辑 收藏

版权声明:本文为yao950814原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://www.cnblogs.com/yao950814/p/9915045.html