今天我们仍旧利用scrapy框架实现自动翻页爬取数据,爬取诗词胖排行榜(
https://www.shicimingju.com/paiming)中的标题 。
1.新建文件夹scrapy starproject 文件名(wallpaper)
文章插图
2.新建爬虫文件
scrapy genspider 文件名(landscape)www.xxx.com
文章插图
3.发送请求并解析数据
上两节课有详细的讲解,所以这部分不再赘述 。
文章插图
4.建立翻页链接
上面我们放的链接为第一页的地址,根据翻页网页的地址我们可以发现,“p”对应的值为变量,因此我们拼接网址:
文章插图
文章插图
5.对翻页链接发送请求
基本格式为:yield scrapy.Request(url地址,callback=self.parse),当遇到第二页的时候,会根据上面的拼接地址填入,并解析数据
文章插图
6.总结
要实现翻页自动发送请求,需要先建立好第一页的请求并解析,然后写入翻页的网址之后,通过调用yield关键字实现翻页自动发送请求
【scrapy翻页爬取--scrapy爬虫案例】
推荐阅读
- 百度搜索信风算法,终结了使用翻页键诱导用户行为的做法
- Python构建代理池,突破IP的封锁爬取海量数据
- 终于有人把Scrapy爬虫框架讲明白了
- Scrapy 爬虫完整案例-基础篇
- Python爬虫练习:爬取800多所大学学校排名、星级等
- Python爬取下载m3u8加密视频,原来这么简单
- 使用python爬取抖音app视频
- Python爬虫案例:爬取微信公众号文章
- 保姆式教程带大家爬取高清图片
- python爬取自如网房源信息