简单入门爬取妹子照片 _爬取

简单爬虫

安装第三方库
请求页面
解析网页
保存图片

今天深圳的晚上很冷，半夜就睡醒了，出去买点吃的难受的一批

说好的24小时呢？
开搞开搞安装第三方库安装第三方请求库(requests)
pip install requests请求页面

文章插图
请求成功了
【简单入门爬取妹子照片】存在特殊情况：请求失败
原因八成是网页知道我们是Python过来的不给我们请求。

文章插图
这里教各路神仙去解决这个User-Agent的尴尬问题：

文章插图
嗯…怎么看网页的啊？
啊Sir 。来了不要催
（只好打马赛克了）

文章插图

## 请求网页
import requests
headers={'User-Agent':'only老K'# 这里可以随意输入,也可以输入网页上面的User-Agent
}
response = requests.get('https://www.vmgirls.com/12945.html')
print(response.request.headers)
print(response.text)

解析网页需要使用 re库来进行正则匹配
找到我们的图片的位置

文章插图
上面注意看匹配内容
然后进行解析（我们不是什么都需要匹配的，只是需要匹配href里面的内容）

文章插图

## 请求网页
import requests
import re
headers = {'User-Agent':'only老K'# 这里可以随意输入,也可以输入网页上面的User-Agent
}
response = requests.get('https://www.vmgirls.com/12945.html')#然后这里就吧上面的headers放进去
#response = requests.get('https://www.vmgirls.com/12945.html',headers=headers)
# print(response.request.headers)
# print(response.text)
html = response.text
#解析网页
urls = re.findall('<a href=https://www.isolves.com/it/cxkf/bk/2020-08-05/"(.*?)" alt=".*?" title=".*?">',html) # (.*?) 意思就是匹配这个数据
print(urls)

保存图片第一版本：（文件存在在当前的文件夹，没有创建出来分类）
User-Agent：请求对象 AppleWebKit：请求内核 Chrome浏览器

## 请求网页
import requests
import re
import time
headers = {
'User-Agent':'only老K'# 这里可以随意输入,也可以输入网页上面的User-Agent
}
response = requests.get('https://www.vmgirls.com/12945.html')
# print(response.request.headers)
# print(response.text)
html = response.text
#解析网页
urls = re.findall('<a href=https://www.isolves.com/it/cxkf/bk/2020-08-05/"(.*?)" alt=".*?" title=".*?">',html)
print(urls)
# 保存图片
for url in urls:
time.sleep(1) #睡眠一秒，别把别人网站查崩了
file_name = url.split('/')[-1]
response = requests.get(url) # 重新请求网站图片地址就可以直接看了
with open(file_name,'wb') as f: #'wb':二进制 file_name：图片名称
f.write(response.content)

图片就有了…

文章插图
有问题?有点…不可能数据啥子的都放这里吧…

文章插图
现在处理## 请求网页

import requests
import re
import time
import os
headers = {
'User-Agent':'only老K'# 这里可以随意输入,也可以输入网页上面的User-Agent
}
response = requests.get('https://www.vmgirls.com/12945.html')
# print(response.request.headers)
# print(response.text)
html = response.text
#解析网页
dir_name = re.findall('<h1 class="post-title h3">(.*?)</h1>',html)[-1] #根据网页标题去做我们的文件夹名字
if not os.path.exists(dir_name):
os.mkdir(dir_name)
urls = re.findall('<a href=https://www.isolves.com/it/cxkf/bk/2020-08-05/"(.*?)" alt=".*?" title=".*?">',html) # (.*?) 意思就是匹配这个数据
# print(urls)
# 保存图片
for url in urls:
time.sleep(1)
file_name = url.split('/')[-1]
response = requests.get(url)
with open(dir_name +'/' + file_name,'wb') as f: #'wb':二进制 file_name：图片名称

上一页
1
2
下一页

推荐阅读

决战！平安京|决战平安京，返校季大揭秘，新手最全攻略！！！

十大蓝牙小音箱排行榜，酷狗蘑蘑小音节奏闪灯一键DJ“城会玩”

风筝|《追风筝的人》：每个人终其一生，都在追逐属于自己的命运

电视剧|同样是扮演“乞丐”，孙俪流鼻涕，周星驰抢狗盆，而他本色出演！

赵露思|《骄阳似我》又传出新阵容，李现将搭档赵露思，你认为符合吗？

顶级奢侈品集团Kering的代表品牌及产地和代表作品或风格有哪些

易简财经|27万股民今夜无眠，黄了！两家券商千亿级合并告吹

华为|华为迎来大消息！俄外长刚刚表态，俄罗斯准备与中国以及华为开展5G技术合作

『包不同』疫情之下，京东有惊喜！

#泌尿外科李成方#长期疲劳会影响身体的哪些部分？

亚美尼亚人|二十世纪初，亚美尼亚人遭到了大屠杀，100万人死于土耳其人之手

『雷帝网』CFO称汽车业回报周期长亏损是阶段性的，恒大健康亏近50亿

拜登|美国下任总统已定？拜登犯下“致命”错误，这次奥巴马也“保不住”他！

精子能有杀菌消炎作用吗

怎么样让别人愿意了解自己

时尚旅游守在富豪门前32年，谁能让他动就奖励一万，印度最“尽职”保安

口腔科张兴医生：种植牙要如何护理？牙科医生教你4招，轻松延长使用寿命！很实用

权志龙否认吸毒传闻，曾被指在机场行为异常，疑似毒瘾发作，12年前曾承认吸毒

李云迪和朗朗谁厉害？

高三最后一个学期是啥心态、

茶籽油蛋糕的做法,抹茶红豆蛋糕的简单做法

简单DIY美甲步骤教程

淘宝店铺被释放怎么激活最简单的方法

太极拳不仅仅是健身那么简单

如何跑步锻炼呢

淘宝店招尺寸大小淘宝店招尺寸要求

使用电脑小技巧|电脑实用小技巧?电脑上的一些简单技巧?

5 个简单步骤使你的 Ubuntu 看起来像 macOS

python之父：堪称python入门教科书，解决实践和实战经验的难点

将32位Windows10升级到64位版本的方法，就是这么简单

简单入门 爬取妹子照片

推荐阅读

简单入门爬取妹子照片