python网络爬虫基于selenium爬取斗鱼直播信息 _网络爬虫

前言
目前是直播行业的一个爆发期，由于国家对直播行业进行整顿和规范，现在整个直播行业也在稳固发展。随着互联网和网络直播市场的快速发展，相信未来还有广阔的发展前景。今天用selenium爬取一下斗鱼直播信息将代码分享给大家
一、本文使用的第三方包和工具Python 3.8
谷歌浏览器
selenium（3.141.0）（pip install selenium == 3.141.0）注意4.0系列和3.0系列方法不同
浏览器驱动（和你的浏览器版本对应）
二、selenium的介绍和浏览器驱动的安装1.selenium的介绍selenium是一款web自动化测试工具，可以很方便地模拟真实用户对浏览器进行操作，它支持各种主流浏览器：IE、Chrome、Firefox、Safari、Opera等。你可以使用selenium做web测试或者爬虫，自动抢票、自动下单也可以用selenium来做。
2.浏览器驱动的安装网上方法很多，友友们自行搜索，在这里提一点注意事项：本文用的是谷歌浏览器，浏览器驱动要对应谷歌的哦，注意浏览器驱动与你的浏览器版本相对应，这里给出谷歌浏览器驱动的下载地址，友友们按照自己浏览器的版本对应现在即可
http://chromedriver.storage.googleapis.com/index.html
下载完成后注意配置环境变量哦，不配置也行，不配置就要在代码中写上你的Chromedriver.exe文件的路径或者不写路径将你的Chromedriver.exe和py文件放到同一目录下也可以哦
三、代码思路分析【python网络爬虫基于selenium爬取斗鱼直播信息】进入斗鱼官网，点到直播，下面的在线直播信息就是我们需要爬取的
可以看到有标题，类型，姓名，以及热度，我们爬取这四个字段就行
然后滑到底部，这里的下一页是我们控制爬取页数的?
注意：当我们进入页面时，虽然有滚动条，但所有直播信息已经加载好，并不是通过滑动然后Ajax加载的，所以在代码中并不需要写滑动，直接提取就可以拿到整个页面的数据。
1.解析数据的函数 #解析数据的函数def parse(self):#强制等待两秒，等待页面数据加载完毕sleep(2)li_list = self.bro.find_elements_by_xpath('//*[@id="listAll"]/section[2]/div[2]/ul/li')#print(len(li_list))data_list = []for li in li_list:dic_data = https://www.isolves.com/it/cxkf/yy/Python/2022-03-15/{}dic_data['title'] = li.find_element_by_xpath('./div/a/div[2]/div[1]/h3').textdic_data['name'] = li.find_element_by_xpath('./div/a/div[2]/div[2]/h2/div').textdic_data['art_type'] = li.find_element_by_xpath('./div/a/div[2]/div[1]/span').textdic_data['hot'] = li.find_element_by_xpath('./div/a/div[2]/div[2]/span').textdata_list.Append(dic_data)return data_list2.保存数据的函数 #解析数据的函数def parse(self):#强制等待两秒，等待页面数据加载完毕sleep(2)li_list = self.bro.find_elements_by_xpath('//*[@id="listAll"]/section[2]/div[2]/ul/li')#print(len(li_list))data_list = []for li in li_list:dic_data = https://www.isolves.com/it/cxkf/yy/Python/2022-03-15/{}dic_data['title'] = li.find_element_by_xpath('./div/a/div[2]/div[1]/h3').textdic_data['name'] = li.find_element_by_xpath('./div/a/div[2]/div[2]/h2/div').textdic_data['art_type'] = li.find_element_by_xpath('./div/a/div[2]/div[1]/span').textdic_data['hot'] = li.find_element_by_xpath('./div/a/div[2]/div[2]/span').textdata_list.append(dic_data)return data_list（1）保存为txt文本
#保存数据的函数def save_data(self,data_list,i):#在当前目录下将数据存为txt文件with open('./douyu.txt','w',encoding='utf-8') as fp:for data in data_list:data = https://www.isolves.com/it/cxkf/yy/Python/2022-03-15/str(data)fp.write(data+'n')print("第%d页保存完成！" % i)（2）保存为json文件
#保存数据的函数def save_data(self,data_list,i):with open('./douyu.json','w',encoding='utf-8') as fp:#里面有中文，所以注意ensure_ascii=Falsedata = https://www.isolves.com/it/cxkf/yy/Python/2022-03-15/json.dumps(data_list,ensure_ascii=False)fp.write(data)print("第%d页保存完成！" % i)3.主函数设计#主函数def run(self):#输入要爬取的页数,如果输入负整数，转化成她的绝对值page_num = abs(int(input("请输入你要爬取的页数：")))#初始化页数为1i = 1#判断输入的数是否为整数if isinstance(page_num,int):#实例化浏览器对象self.bro = webdriver.Chrome(executable_path='../../可执行文件/chromedriver.exe')# chromedriver.exe如果已添加到环境变量，可省略executable_path='../../可执行文件/chromedriver.exe'self.bro.get(self.url)while i <= page_num:#调用解析函数data_list = self.parse()#调用保存函数self.save_data(data_list,i)try:#定位包含“下一页”字段的按钮并点击button = self.bro.find_element_by_xpath('//span[contains(text(),"下一页")]')button.click()i += 1except:breakself.bro.quit()else:print("输入格式错误！")


上一页
1
2
下一页
		  	





























推荐阅读

           
                  
              
                  观众|回应观众质疑，杨采钰：我经验不足，还在摸索 
                
                   
                
              
            

                  
              
                  蠢哥哥|后却成了龙套，有三人甚至从未登场，金庸笔下此6人像是核心人物 
                
                   
                
              
            

                  
              
                  快手|全国首档电视大屏和手机小屏联动直播节目《看见快生活》开播 
                
                   
                
              
            

                  
              
                  中国首列卧铺的火车，727公里一站直达，有着“流动宾馆”的称号 
                
                   
                
              
            

                  
              
                  暗黑达人|暗黑破坏神2法师专属套装——塔拉夏套装 
                
                   
                
              
            

                  
              
                  #浩轩潮shoes#air force 1 low 黑色，Nike 
                
                   
                
              
            

                  
              
                  阿尔法gamer@steam单机游戏大赏：写作合作读作撕逼的游戏你了解多少？ 
                
                   
                
              
            

                  
              
                  你再也不想去第二次的旅游目的地是哪个 
                
                   
                
              
            

                  
              
                  【荣耀V30】不到3000元，5G性能旗舰选谁？又降百元的荣耀V30成首选 
                
                   
                
              
            

                  
              
                  有机牛奶和无机牛奶的区别 有机牛奶和普通牛奶的区别 
                
                   
                
              
            

                  
              
                  封面新闻|“国庆档”能否迎电影业完全复苏？听听北师大教授周星怎么说 
                
                   
                
              
            

                  
              
                  青训|有种“历劫”叫当班主任，昔日女神变师太，男教师也难以逃脱 
                
                   
                
              
            

                  
              
                  央视新闻客户端|美国洛杉矶南加州大学加入诉讼行列&#xA0;保护国际留学生权利 
                
                   
                
              
            

                  
              
                   「公交车」阿衰漫画阿衰“保卫”公交车要求“上车换鞋”呕吐袋 
                
                   
                
              
            

                  
              
                  男人的身高、身材、相貌，哪个对女人更具有吸引力 
                
                   
                
              
            

                  
              
                  春天喝铁观音好吗,铁观音的泡法 
                
                   
                
              
            

                  
              
                  45万人次入园打卡，12万人次线上参观，静安国际雕塑展今天闭幕 
                
                   
                
              
            

                  
              
                  裤子 橡皮泥 橡皮泥粘裤子如何洗 
                
                   
                
              
            

                  
              
                  小芬育儿日记|孩子越长大越聪明，父母别瞎勤快，哈佛大学：家里这3个地方越乱 
                
                   
                
              
            

                  
              
                  全网都在找这双筷子，他们却决定放弃！网友留言超暖... 
                
                   
                
              
            

          

httpx：一个 Python Web 客户端 

网络电缆插座连接详情 

用 Python 实现十大经典排序算法 

Wi-Fi体系知识 

电脑上网正常，网络图标却显示异常？ 

Linux中如何使用Htop监控工具？「网络安全」 

一文带你读懂Python计算机视觉中的OpenCV手势识别方法 

Python解析库lxml与xpath用法总结 

lte网络是什么意思？ 

网络语言456是什么意思？

python网络爬虫基于selenium爬取斗鱼直播信息

推荐阅读

观众|回应观众质疑，杨采钰：我经验不足，还在摸索

蠢哥哥|后却成了龙套，有三人甚至从未登场，金庸笔下此6人像是核心人物

快手|全国首档电视大屏和手机小屏联动直播节目《看见快生活》开播

中国首列卧铺的火车，727公里一站直达，有着“流动宾馆”的称号

暗黑达人|暗黑破坏神2法师专属套装——塔拉夏套装

#浩轩潮shoes#air force 1 low 黑色，Nike

阿尔法gamer@steam单机游戏大赏：写作合作读作撕逼的游戏你了解多少？

你再也不想去第二次的旅游目的地是哪个

【荣耀V30】不到3000元，5G性能旗舰选谁？又降百元的荣耀V30成首选

有机牛奶和无机牛奶的区别有机牛奶和普通牛奶的区别

封面新闻|“国庆档”能否迎电影业完全复苏？听听北师大教授周星怎么说

青训|有种“历劫”叫当班主任，昔日女神变师太，男教师也难以逃脱

央视新闻客户端|美国洛杉矶南加州大学加入诉讼行列 保护国际留学生权利

「公交车」阿衰漫画阿衰“保卫”公交车要求“上车换鞋”呕吐袋

男人的身高、身材、相貌，哪个对女人更具有吸引力

春天喝铁观音好吗,铁观音的泡法

45万人次入园打卡，12万人次线上参观，静安国际雕塑展今天闭幕

裤子橡皮泥橡皮泥粘裤子如何洗

小芬育儿日记|孩子越长大越聪明，父母别瞎勤快，哈佛大学：家里这3个地方越乱

全网都在找这双筷子，他们却决定放弃！网友留言超暖...