Python进阶者|一篇文章教会你利用Python网络爬虫抓取王者荣耀图片2、对网站发生请求。3、对请求到的数据进行处理

_本文原题：一篇文章教会你利用Python网络爬虫抓取王者荣耀图片
【一、项目背景】
王者荣耀作为当下最火的游戏之一，里面的人物信息更是惟妙惟肖，但受到官网的限制，想下载一张高清的图片很难。（图片有版权）。
以彼岸桌面这个网站为例，爬取王者荣耀图片的信息。

本文插图
【二、项目目标】
实现将获取到的图片批量下载。
【三、涉及的库和网站】
1、网址如下：
http://www.netbian.com/s/wangzherongyao/index.htm/
2、涉及的库：requests、lxml
【四、项目分析】
首先需要解决如何对下一页的网址进行请求的问题。可以点击下一页的按钮，观察到网站的变化分别如下所示：
http://www.netbian.com/s/wangzherongyao/index_2.htm
http://www.netbian.com/s/wangzherongyao/index_3.htm
http://www.netbian.com/s/wangzherongyao/index_4.htm
观察到只有index_()变化，变化的部分用{}代替，再用for循环遍历这网址，实现多个网址请求。
http://www.netbian.com/s/wangzherongyao/index_{}.htm
【五、项目实施】
1、我们定义一个class类继承object ，然后定义init方法继承self ，再定义一个主函数main继承self 。准备url地址和请求头headers 。
import requests
from lxml import etree
import time
class ImageSpider(object):
def __init__(self):
self.firsr_url = "http://www.netbian.com/s/wangzherongyao/index.htm"
self.url = "http://www.netbian.com/s/wangzherongyao/index_{}.htm"
self.headers = {
"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36"
}
def main(self):
pass
if __name__ == '__main__':
spider= ImageSpider()
spider.main()
2、对网站发生请求。'''发送请求获取响应'''
def get_page(self, url):
res = requests.get(url=url, headers=self.headers)
html = res.content.decode("gbk") #网络编码
return html #返回值
3、对请求到的数据进行处理 '''解析数据'''
def parse_page(self, html):
parse_html = etree.HTML(html)
image_src_list = parse_html.xpath('//div[@class="list"]/ul/li/a//@href')
for image_src in image_src_list:
fa = "http://www.netbian.com" + image_src
# print(fa)
4、在谷歌浏览器上，右键选择开发者工具或者按F12 。
5、右键检查，找到图片二级的页面的链接，如下图所示。

本文插图
6、对二级页面发生请求， for遍历得到的网址。
bimg_url = parse_html1.xpath('//div[@class="pic-down"]/a/@href')
for i in bimg_url:
diet = "http://www.netbian.com" + i
# print(diet)
html2 = self.get_page(diet)
parse_html2 = etree.HTML(html2)
# print(parse_html2)
url2 = parse_html2.xpath('//table[@id="endimg"]//tr//td//a/img/@src')

本文插图
7、将获取的图片写入文档，获取图片的title值作为图片的命名。

Python进阶者|一篇文章教会你利用Python网络爬虫抓取王者荣耀图片2、对网站发生请求。3、对请求到的数据进行处理

推荐阅读

大同新闻网各种业务知识培训整起来，中国（大同）跨境电子商务综合试验区挂牌

条裙子|飘逸的长款连衣裙穿上很优雅，尤其是简约设计的裙子

篮郭先生|退役后林丹首现身，与妻子一前一后现身机场，无亲密动作引热议

你们啥时候意识到自己有故事

环球车讯网|GT3 RS谍照首曝，或2021年发布，“自吸蛙王”即将回归！新911

穿搭|早秋的时髦，用“外套+裙子”来成全，这样穿显瘦又好看

如何使用微信支付成为优酷会员

夏日里的迷人风景，李沁镂空上衣+性感短裤，美艳不可方物

不是说基因是一半一半的遗传的吗那为啥驴骡像驴，马骡像马

冰岛普洱茶产区

【寻盘热点】下补缺口后震荡！，中国股市：下周展望

500ETF融券卖出首次被深交所暂停但推手未必是空头！

跳槽|林心如怎么也发腮了！生图曝光双层下巴太厚实，鞋子搭错太减分

故事|庄子两条鱼的故事，道尽生命真谛，告诉你什么是“真人”！

Intel|单核秒天秒地！Intel 12代酷睿i9/i7/i5性能、价格全曝光

元朗区|涉去年元朗721暴动案，香港警方再拘一男子指控两罪

戴上牙齿的矫正器之前一定要拔几颗牙吗?

『违法』张志南被免去福建副省长职务：涉嫌严重违纪违法

蔡英文批台大“跟企业关系太紧密” 校方霸气回怼

冬季早餐，我常做它，比面包简单，比花卷好吃，蒸一锅解馋又管饱