王优秀手把手教你使用Python网络爬虫获取菜谱信息在放假时

在放假时，经常想尝试一下自己做饭，下厨房这个网址是个不错的选择。
【王优秀手把手教你使用Python网络爬虫获取菜谱信息】下厨房是必选的网址之一，主要提供各种美食做法以及烹饪技巧。包含种类很多。
今天教大家去爬取下厨房的菜谱，保存在world文档，方便日后制作自己的小菜谱。

文章图片
/2项目目标/
获取菜谱，并批量把菜名、原料、下载链接、下载保存在world文档。
/3项目准备/
软件：PyCharm
需要的库：requests、lxml、fake_useragent、time
网站如下：
https://www.xiachufang.com/explore/?page={}
点击下一页时，每增加一页page自增加1 ，用{}代替变换的变量，再用for循环遍历这网址，实现多个网址请求。
/4反爬措施的处理/
主要有两个点需要注意：
1、直接使用requests库，在不设置任何header的情况下，网站直接不返回数据
2、同一个ip连续访问多次，直接封掉ip ，起初我的ip就是这样被封掉的。
为了解决这两个问题，最后经过研究，使用以下方法，可以有效解决。
1）获取正常的http请求头，并在requests请求时设置这些常规的http请求头。
2）使用fake_useragent ，产生随机的UserAgent进行访问。
/5项目实现/
1、定义一个class类继承object ，定义init方法继承self ，主函数main继承self 。导入需要的库和网址，代码如下所示。
importrequestsfromlxmlimportetreefromfake_useragentimportUserAgentimporttimeclasskitchen(object):def__init__(self):self.url=''https://www.xiachufang.com/explore/?page={}''defmain(self):passif__name__=='__main__':imageSpider=kitchen()imageSpider.main()
2、随机产生UserAgent 。
foriinrange(1,50):self.headers={'User-Agent':ua.random,}
3、发送请求获取响应,页面回调，方便下次请求。
defget_page(self,url):res=requests.get(url=url,headers=self.headers)html=res.content.decode(''utf-8'')returnhtml
4、xpath解析一级页面数据,获取二级页面网址。
defparse_page(self,html):parse_html=etree.HTML(html)image_ src_list=parse_html.xpath('//li/div/a/@href')
5、for遍历，定义一个变量food_info保存，获取到二级页面对应的菜名、原料、下载链接。
foriinimage_ src_list:url=''https://www.xiachufang.com/''+i#print(url)html1=self.get_page(url)#第二个发生请求parse_html1=etree.HTML(html1)#print(parse_html1)num=parse_html1.xpath('.//h2[@id=''steps'']/text()')[0].strip()name=parse_html1.xpath('.//li[@class=''container'']/p/text()')ingredients=parse_html1.xpath('.//td//a/text()')food_info='''第%s种菜名:%s原料:%s下载链接:%s,================================================================='''%(str(self.u),num,ingredients,url)
6、保存在world文档。
f=open('下厨房/菜谱.doc','a',encoding='utf-8')#以'w'方式打开文件f.write(str(food_info))f.close()
7、调用方法，实现功能。
html=self.get_page(url)self.parse_page(html)
8、项目优化
1）方法一：设置时间延时。
time.sleep(1.4)
2）方法二：定义一个变量u,for遍历，表示爬取的是第几种食物。（更清晰可观）。
u=0self.u+=1;
/6效果展示/
1、点击绿色小三角运行输入起始页，终止页。

文章图片
2、运行程序后，结果显示在控制台，如下图所示。

王优秀手把手教你使用Python网络爬虫获取菜谱信息

推荐阅读

育儿秘籍官方宝妈展示月账单，丈夫沉默了，宝爸吐槽“家里开销大头都是我出”

中国代表在安理会中导问题公开会上全面阐述中方立场

拼多多中如何对没有发货的订单退款

每经23点丨华盛昌董秘回应市场传言：子虚乌有

“你弟正为彩礼发愁，你还好意思买新车？”女孩回复后，母亲慌了

北青网综合|黄河壶口瀑布景区临时关闭数千游客撤离

最从化|今天让她火一把！，谁认识这个车主！人神共愤

中国新闻网|特朗普到访加州称山火是“森林管理”问题

公厕■黑龙江省加强农村生活污水治理引导村庄建配套公厕

特朗普|“赶走特朗普”冲上美国热搜

中国的四大名著有没有阅读的必要

54岁蔡国庆现身农村酒席|【围观】54岁蔡国庆现身农村酒席胸肌若隐若现很壮实！

直播吧|里斯-詹姆斯第25次英超登场打入处子球，19次尝试后终于破门

去日本有哪些是必须要体验一次的

高圆圆赵又廷结婚10年感情依旧，带女儿回台探亲，街头忍不住接吻

『囧王者』热度会急速降低，向正式服看齐吗，魔兽世界：怀旧服环境再坏下去

当前很多城市都在建设大数据和云计算中心，具体有哪些目的

「民警」男子一天之内连偷8家，民警怒了：不抓到你就不休假！

消费者怎样对付见人下菜碟，态度恶劣的服务员

滇红工夫茶等级特征介绍

王优秀 手把手教你使用Python网络爬虫获取菜谱信息

推荐阅读

王优秀手把手教你使用Python网络爬虫获取菜谱信息