手把手教你进行Scrapy中item类的实例化操作

dcpeng 2020-05-09 原文

接下来我们将在爬虫主体文件中对Item的值进行填充。

1、首先在爬虫主体文件中将Item模块导入进来，如下图所示。

2、第一步的意思是说将items.py中的ArticleItem类导入到爬虫主体文件中去，将两个文件串联起来，其中items.py的部分内容如下图所示。

3、将这个ArticleItem类导入之后，接下来我们就可以对这个类进行初始化，并对其进行相应值的填充。首先去parse_detail函数下对其进行实例化，实例化的方法也十分简单，如下图所示。

4、接下来，我们将填充对应的值。实际上我们在之前通过Xpath或者CSS选择器已经获取到了目标数据，如下图所示，现在要做的就是依次填充目标字段的值。

5、我们可以像字典一样来给目标字段传值，例如item[“title”]= title，其他的目标字段的填充也是形如该格式，填充完成之后如下图所示。

其中，目标字段可以参考items.py中定义的item，这样可以加快填充的速度。

6、到这里，我们已经将需要填充的字段全部填充完成了，之后我们需要调用yield，这点十分重要。再调用yield之后，实例化后的item就会自动传递到pipeline当中去。可以看到下图中的pipelines.py中默认给出的代码，说明pipeline其实是可以接收item的。

7、到这里，关于实例化item的步骤就已经完成了，是不是比较简单呢？我们后面把pipeline配置起来，一步一步的将Scrapy串起来。

看完本文有收获？请转发分享给更多的人

IT共享之家

入群请在微信后台回复【入群】

想学习更多Python网络爬虫与数据挖掘知识，可前往专业网站：http://pdcfighting.com/

随机推荐

在装系统的时候我们都会在安装的时候进行创建用户这一操作，安装软件的时候总会出现权限不足的情况，个人建议：如果 […]...

面向对象众所周知，Java是一门面向对象的高级编程语言，那么现在问题来了，对象从哪来呢？有些人会说通过new […]...

LAMP环境下，通过网页url获取gb2312编码中文命名的下载资源方法最近有个功能，要求获取中文命名的. […]...

style=”cursor: hand” crosshair：精确定位“十”字形； t […]...

Git起步

1.Git基础　　版本控制系统是一种用于记录一个或多个文件内容变化，以便将来查阅恢复特定版本修订情况的系统。 […]...

JVM解剖乐园

JVM解剖乐园 1、JVM锁粗化和循环原文标题：JVM Anatomy Quark #1: Lock Coar […]...

今日机器人

今日机器人其实这个比赛纯粹是为了提招考试资格，没有兴趣可言，本来学的时候以为要带电脑，自己编程序，没想到 […]...

什么是微服务？微服务的优缺点是什么？ [学习笔记] 2）什么是微服务？马克-to-win@马克java社区： […]...

手把手教你进行Scrapy中item类的实例化操作的更多相关文章