Python的scrapy爬虫,在获取初始网页的links后,怎样进一步爬取
谢邀!使用scrapy实现递归爬取,只需要yield Request给调度器,将你在初始网页获得的url加入通过调度器加入到带爬队列中,基本格式则是yield Request(url,meta,callback),这里的url自然是你准备递归爬取的link链接,meta则是使用dict的数据格式,将你需要使用的参数数据传入到处理url的分析函数中,callback称为回调函数,在这里就是疾病症状信息网页的信息提取函数以你爬取的网页作为例子,在你的循环体中,加入:url = itemyield Request (url,callback = self.parse_sickinfo)# 这里的parse_sickinfo便是你对url网页中信息的提取函数,需要在parse后面跟写上该函数
这里有个链接,Requests and Responses,是官方文档中对Request的详细说明,里面有各个参数用途,希望回答对你有用处,望采纳
■网友
谢邀, 第二回, 流汗。在你return item之后, 你可以yield Request给调度器, 传入相应的url,以及回调callback, 比如yield Request(url, meta = {"url": url}, callback = self.parse, errback = self.err_handle)。或则设置链接抽取规则, 用法参考Link Extractors。
■网友
我的方法比较笨。。。我的思路是递归 首先从初始url进去,根据xpath获取列表页的连接 是用Request跟进去,在列表页面获取1,下一页对应的链接 2 商品的链接 分别在用Request跟进去。。。。当然你要判断一下进入parse的链接是列表还是商品,是商品就爬取信息,是连接就继续上面进入列表页的操作
推荐阅读
- 怎样成为一名合格的Python程序员?
- python 爬虫,咋获得输入验证码之后的搜索结果
- python的html5lib这个库咋使用啊我在网上也没有找到相关文档
- 零基础入门学习啥语言好
- Python3.4和3.5区别大么
- python 中 def_():...... return _有啥作用
- 新互联网网站用Java还靠谱么对比Php,Python,Ruby的话
- 30岁男,创业失败转行学python,是否很晚?也不好找工作?
- Python 的开发速度比 C#.net 或 Vb.net 更快吗?
- 1、相同的网址,为啥浏览器http和https都能登录,而爬虫不行\n2、网页下载内容不全