Python解决滑块验证，Scarpy框架采集数据到redis数据库！( 二 ) _Python

数据持久化# 方式一（不推荐）-1 parser解析函数，return 列表，列表套字典# 命令(支持：('json', 'jsonlines', 'jl', 'csv', 'xml', 'marshal', 'pickle')# 数据到aa.json文件中-2 scrapy crawl chouti -o aa.json# 代码：lis = []for div in div_list:content = div.select('.link-title')[0].textlis.append({'title':content})return lis# 方式二 pipline的方式（管道）-1 在items.py中创建模型类-2 在爬虫中chouti.py，引入，把解析的数据放到item对象中（要用中括号）-3 yield item对象-4 配置文件配置管道ITEM_PIPELINES = {# 数字表示优先级（数字越小，优先级越大）'crawl_chouti.pipelines.CrawlChoutiPipeline': 300,'crawl_chouti.pipelines.CrawlChoutiRedisPipeline': 301，}-5 pipline.py中写持久化的类spider_open# 方法，一开始就打开文件process_item # 方法，写入文件spider_close # 方法，关闭文件保存到文件# choutiaa.py 爬虫文件import scrapyfrom chouti.items import ChoutiItem# 导入模型类class ChoutiaaSpider(scrapy.Spider):name = 'choutiaa'# allowed_domains = ['https://dig.chouti.com/']# 允许爬取的域start_urls = ['https://dig.chouti.com//']# 起始爬取位置# 解析，请求回来，自动执行parse，在这个方法中解析def parse(self, response):print('----------------',response)from bs4 import BeautifulSoupsoup = BeautifulSoup(response.text,'lxml')div_list = soup.select('.link-con .link-item')for div in div_list:content = div.select('.link-title')[0].texthref = https://www.isolves.com/it/cxkf/yy/Python/2020-06-02/div.select('.link-title')[0].attrs['href']item = ChoutiItem()# 生成模型对象item['content'] = content# 添加值item['href'] = hrefyield item# 必须用yield# items.py 模型类文件import scrapyclass ChoutiItem(scrapy.Item):content = scrapy.Field()href = scrapy.Field()# pipelines.py 数据持久化文件class ChoutiPipeline(object):def open_spider(self, spider):# 一开始就打开文件self.f = open('a.txt', 'w', encoding='utf-8')def process_item(self, item, spider):# print(item)# 写入文件的操作
【Python解决滑块验证，Scarpy框架采集数据到redis数据库！】

Python解决滑块验证，Scarpy框架采集数据到redis数据库！( 二 )

推荐阅读

宝宝脸色发黄是怎么回事专家帮你分析

#历史亦江湖#朱闪闪恋爱无感提分手，“闪亮组合”破产了，安家：季明亮太做作

长安街知事|欧盟解除中国等15国旅行禁令，美国延长

Windows11|无了！正式钓鱼！湖人失败在哪？明年怎么办？

为啥有的男人很想结婚?

戴维斯|看NBA球星合成脸，猜出6个是资深球迷！甜瓜+浓眉哥面容奇特

娱乐青丝|白线帽+西装《街舞3》林梦一出场就赢了节目里说的舞佳舞五虎上将其余四个都

小贤|你配不上自己的野心，也辜负了曾经历的苦难，你唯一需要担心的是

微软|21H2正式版更新即将推送：或成为Windows 10最后一次功能性更新

如何搜索 WhatsApp 聊天消息

封面新闻|30秒｜美国家安全顾问感染新冠特朗普称最近没见过他

风水师打死都不愿说的口诀，准！

于冬：电影创作要抒写国家历史

特朗普|特朗普又有吹的了：以阿巴美四国在白宫签署“亚伯拉罕和平协定”

[南方人物周刊]仝小林：中医的疗效必须用数据说话

唐嫣|39岁唐嫣扮嫩美成少女！穿百褶裙扎高马尾跳女团舞，颜值能当门面

为啥我对食物有放不下的执念

什么叫有魅力的女人,一个有魅力的女人是什么样的-

“黑科技”赋能

每日经济新闻|成都金牛区举行厦门企业对接会