Python的scrapy爬虫,在获取初始网页的links后,怎样进一步爬取

谢邀!使用scrapy实现递归爬取,只需要yield Request给调度器,将你在初始网页获得的url加入通过调度器加入到带爬队列中,基本格式则是yield Request(url,meta,callback),这里的url自然是你准备递归爬取的link链接,meta则是使用dict的数据格式,将你需要使用的参数数据传入到处理url的分析函数中,callback称为回调函数,在这里就是疾病症状信息网页的信息提取函数以你爬取的网页作为例子,在你的循环体中,加入:url = itemyield Request (url,callback = self.parse_sickinfo)# 这里的parse_sickinfo便是你对url网页中信息的提取函数,需要在parse后面跟写上该函数这里有个链接,Requests and Responses,是官方文档中对Request的详细说明,里面有各个参数用途,希望回答对你有用处,望采纳
■网友
谢邀, 第二回, 流汗。在你return item之后, 你可以yield Request给调度器, 传入相应的url,以及回调callback, 比如yield Request(url, meta = {"url": url}, callback = self.parse, errback = self.err_handle)。或则设置链接抽取规则, 用法参考Link Extractors。
■网友
我的方法比较笨。。。我的思路是递归 首先从初始url进去,根据xpath获取列表页的连接 是用Request跟进去,在列表页面获取1,下一页对应的链接 2 商品的链接 分别在用Request跟进去。。。。当然你要判断一下进入parse的链接是列表还是商品,是商品就爬取信息,是连接就继续上面进入列表页的操作


    推荐阅读