[Python爬虫与数据挖掘]一篇文章教会你理解和定义Scrapy爬虫框架中items.py文件在前面几篇文章中我们已经学会了如何了

在前面几篇文章中我们已经学会了如何了编写Spider去获取网页上所有的文章链接及其对应的网页目标信息。在这一篇文章中，我们将主要介绍Scrapy中的Item 。
在介绍Item之前，我们需要知道明确一点，网络爬虫的主要目标就是需要从非结构化的数据源中提取出结构化的数据，在提取出结构化的数据之后，怎么将这些数据进行返回呢？最简单的一种方式就是将这些字段放到一个字典当中来，然后通过字典返回给Scrapy 。虽然字典很好用，但是字典缺少一些结构性的东西，比方说我们容易敲错字段的名字，容易导致出错，比方说我们定义一个字段comment_nums ，但是在另外一个爬虫中我们将传递过来的该字段写成comment_num ，少了个s ，那么届时到pipeline中统一处理字典的时候就会发生错误。

文章图片
为了将字段进行完整的格式化， Scrapy为我们提供了Item类，这些Item类可以让我们自己来指定字段。比方说在我们这个Scrapy爬虫项目中，我们定义了一个Item类，这个Item里边包含了title、release_date、url等，这样的话通过各种爬取方法爬取过来的字段，再通过Item类进行实例化，这样的话就不容易出错了，因为我们在一个地方统一定义过了字段，而且这个字段具有唯一性。
这个Item有些类似我们常说的字典，但是它的功能要比字典更加齐全一些。同时当我们对Item进行实例化之后，在Spider爬虫主体文件里边，我们通过parse()函数获取到目标字段的Item类，我们直接将这个类进行yield即可，然后Scrapy在发现这是Item类的一个实例之后，它就会直接将这个Item载入pipeline中去。这样的话，我们就可以直接在pipeline中进行数据的保存、去重等操作。以上就是Item带给我们的好处。
接下来我们一起来到items.py文件，去定义item ，如下图所示。

文章图片
【[Python爬虫与数据挖掘]一篇文章教会你理解和定义Scrapy爬虫框架中items.py文件】在这个文件中默认已经给出了示例代码，我们可以直接在这个示例代码中写入代码，当然也可以自定义的重新写一个类，形如示例代码这种模式即可。这个类需要继承scrapy中的Item ，默认是已经给出来的，即scrapy.Item 。下面我们根据自己待获取的目标信息的字段，在这个Item中去定义具体的字段。关于具体目标信息的字段提取，在之前的文章也有提及，主要有title、release_date、url、front_img_url、tag、voteup_num、collection_num、comment_num、content等，如下图所示。

文章图片
在Item当中，它只有Field这一种类型，这个Field表示任何传递进来的数据类型都可以接收的，从这个角度来看，确实和字典有些相似。在这个文件中主要是更改字段， Item的右边统一为scrapy.Field() 。由于需要不断的进行复制，这里介绍一个在Pycharm中的快捷键Ctrl+d ，这个快捷键可以自动的复制鼠标光标所在的某一行的代码，可以很快的帮助我们复制代码，相当于Windows下的Ctrl+c和Ctrl+v 。

文章图片
至此，关于Scrapy爬虫框架中的items.py文件的介绍至此先告一段落，目前我们已经完成了所有item的定义，定义完成之后，接下来我们便可以去爬虫主体文件中对具体的item值分别进行填充了。
看完本文有收获？请转发分享给更多的人，想学习更多，请关注“IT共享之家”！

[Python爬虫与数据挖掘]一篇文章教会你理解和定义Scrapy爬虫框架中items.py文件

推荐阅读

夏某|远近闻名的“狮子型”女干部，放任配偶宠溺儿子终获刑5年

向逆行者致敬作文向逆行者致敬作文800字

经济日报新闻客户端|瑞信报告：疫情对全球家庭财富影响有限

「阿亮说菜谱」美食食谱：蘑菇炒秋葵、花椒鸡丁、胡萝卜炒莴苣、花椒鱼片

女性|女生穿细跟凉鞋，款式别有新意，展现女性的高贵气质

红薯紫薯和白薯有什么区别白薯是什么薯

穿搭|你的卫衣该换了！这4款真的太太太显土了

快讯神记|鹤山市文化中心这场演出太赞了…，昨晚

|旧藏，和田玉飞天仕女把件

引入网红带货，梧州打造永不落幕的云上宝石节

客运专线■亚洲最大的火车站

育儿一再说|这只二柴怎么会比他还傻呢，搞笑GIF段子：二哈表示他有点傻

部分股份|太极集团：控股股东太极有限解除质押3210万股，再质押2850万股

所有关系的铁律，请学会克制你的“好意”

底线|《底线》唐薇简佳：离开孩子的女人，都要这么苦情吗？

幽默桥|临散场了……，幽默笑话：与小哥们一块喝了顿酒

央视新闻微博|全国大中小学今日陆续开学,爸妈搞错时间提前一天把孩子送到学校

上海体育|你运动、我补贴！上海体育消费券全攻略来啦！

牛油果怎么种植方法视频牛油果怎么种植

深圳市|只认衣冠不认人？北京SKP不让外卖员，回应来了