超越selenium的爬虫神器Pyppeteer _Pyppeteer

在写爬虫的时候，为了效率我们通常会选择解析网页api来获取数据，但是有时候解析方式比较困难，或者我们纯粹是为了快速实现爬虫，会使用浏览器自动化操作，说起这一点，肯定第一个想到的就是selenium ，但很多时候其实selenium使用起来是不太方便的，例如环境配置，要安装浏览器、下载对应的驱动、安装对应的Python selenium库，而且各个工具的版本还要匹配，大规模部署时就比较麻烦。
下面我们介绍另一个工具-pyppeteer
Pyppeteer简介pyppeteer是puppeteer的Python版本，而puppeteer是什么呢？puppeteer是google基于Node.js开发的一个工具，它可以使我们通过JAVAScript来控制Chrome浏览器执行一些操作，拥有丰富的API ，功能非常强大，因此也可以用于网络爬虫。pyppeteer是一位日本的程序员根据Puppeteer开发的非官方Python版本。
在Pyppeteer中，它操作的是一个类似Chrome的Chromium浏览器， Chromium是相当于Chrome的开发版，是完全开源的， Chrome的所有新功能都会先在Chromium上实现，稳定后才会移植到Chrome上，因此Chromium会包含很多新功能。Pyppeteer就是依赖于Chromium来运行的，当我们第一次运行Pyppeteer的时候，如果Chromium没有安装，那么程序会自动帮我们安装和配置，省去了环境配置这一步。
下面我们详细了解一下Pyppeteer的用法。
安装因为Pyppeteer采用了async机制，所以必须使用Python 3.5及以上版本。
使用pip安装非常简单：
pip install pyppeteer使用时直接导入：
import pyppeteer使用接下来我们使用豆瓣电影排行榜https://movie.douban.com/chart来作为测试

文章插图

下面我们用Pyppeteer来试一下，代码如下：

import asynciofrom pyppeteer import launchfrom lxml import etreeasync def main():browser = await launch()page = await browser.newPage()await page.goto('https://movie.douban.com/chart')await page.waitForXPath('//table//a[@title]')doc = etree.html(await page.content())names = [element.attrib['title'] for element in doc.xpath('//table//a[@title]')]print('Names: ', names)await browser.close()asyncio.get_event_loop().run_until_complete(main())

运行结果：

Names:['誓血五人组', '给我翅膀', '黑帮大佬和我的365日', '爱情人偶', '忠贞', '鲁邦三世 The First', '大饿', '火口的两人', '知晓天空之蓝的人啊', '野性的呼唤']

代码的大体意思是访问网站，然后等待//table//a[@title]的节点加载出来，再通过xpath从网页源码中解析出电影名并输出，最后关闭Pyppeteer 。具体过程如下：

launch 方法新建一个Browser对象，赋值给browser变量，这一步就相当于启动了浏览器
然后browser调用newPage方法相当于新建一个选项卡，并且返回一个Page对象，这一步还是一个空白的页面，并未访问任何页面
然后Page调用goto方法，就相当于访问此页面
Page对象调用waitForXpath方法，那么页面就会等待选择器所对应的节点信息加载出来，如果加载出来就立即返回，否则就会持续等待直到超时。这里就比selenium的等待元素加载完毕要清晰的多了。
页面加载完成后再调用content方法，获取渲染出来的页面源代码
最后从页面源码中提取出电影名称

另外当中还用到了asyncio的相关知识，因为Pyppeteer是基于asyncio实现的异步，所以这块知识需要先了解一下。
通过上面这个示例，我们看到Pyppeteer比Selenium要简洁的多，而且环境配置也方便，直接自动帮我们实现了环境配置。接下来我们再尝试设定浏览器窗口大小，并进行网页截图，然后执行一段自定义的JavaScript脚本，代码如下：

import asynciofrom pyppeteer import launchasync def main():width, height = 1366, 768browser = await launch()page = await browser.newPage()await page.setViewport({'width': width, 'height': height})await page.goto('https://movie.douban.com/chart')await page.waitForXPath('//table//a[@title]')await asyncio.sleep(2)await page.screenshot(path='example.png')dimensions = await page.evaluate('''() => {return {width: document.documentElement.clientWidth,height: document.documentElement.clientHeight,deviceScaleFactor: window.devicePixelRatio,}}''')print(dimensions)await browser.close()asyncio.get_event_loop().run_until_complete(main())
上一页
1
2
下一页
		  	





























推荐阅读

           
                  
              
                  吴京|他是吴京力挺的演员，至今只拍过五部戏，每一部都成永恒的经典 
                
                   
                
              
            

                  
              
                  男性健康|肾不好的人，睡觉时有什么表现？ 
                
                   
                
              
            

                  
              
                  股东|先进数通：股东银汉创投拟减持不超过4.19%公司股份 
                
                   
                
              
            

                  
              
                  理想|台湾车评人花式夸赞大陆“新势力”：你想不到自主品牌强到什么地步 
                
                   
                
              
            

                  
              
                  这才是眼霜的正确涂法！ 怎样正确使用眼霜 
                
                   
                
              
            

                  
              
                  |“补觉”的真正含义：早睡而非晚起 
                
                   
                
              
            

                  
              
                  上海嘉定|@嘉定人 燃气即日起调价 
                
                   
                
              
            

                  
              
                  「武汉」山东货车司机在武汉卸完菜露天吃盒饭 
                
                   
                
              
            

                  
              
                  什么笔记本玩游戏好(适合玩大型游戏的笔记本电脑) 
                
                   
                
              
            

                  
              
                  「王者天黑君」QG很难受，alan可能重回赛场，Gemini谈新版本影响：AG受益最大 
                
                   
                
              
            

                  
              
                  魔方怎样拼好六个面最简单的方法 魔方怎样拼好六个面 
                
                   
                
              
            

                  
              
                  美国：中国试剂盒被美国“嫌弃”！美媒：马云捐的试剂盒美国坚持不用！ 
                
                   
                
              
            

                  
              
                  『皮肤科』脖子皮肤长出小肉疙瘩，医生提醒，不能任其发展 
                
                   
                
              
            

                  
              
                  新华国际|让古巴观众热泪盈眶又赞不绝口……，是什么 
                
                   
                
              
            

                  
              
                  怎样让自己生活中坚持聆听内心的声音不受其他人干扰 
                
                   
                
              
            

                  
              
                  『大众网』助力开学！泰山检察信息技术研究所向学校提供双目动态人脸识别一体机 
                
                   
                
              
            

                  
              
                  【中新网】普京解除俄内务部及紧急情况部四名将军的职务 
                
                   
                
              
            

                  
              
                  嘻哈段子忽然一条特别凶的狗向我追来，十条笑话：早晨起来去晨跑 
                
                   
                
              
            

                  
              
                  搞笑奇葩菌 丈夫忍不住抱怨妻子：明天别来蹭饭了，笑话：丈母娘正忙着炖鱼 
                
                   
                
              
            

                  
              
                  七宝传奇之氽来神钟 七宝奇迹 
                
                   
                
              
            

          

白茶散发出新的香味,白茶的制作工艺 

百香果芒果汁的做法,百香果蜂蜜绿茶的做法 

百香果蜂蜜茶的做法,百香果绿茶的做法 

北芪的功效和作用,参芪大枣茶有什么功效 

岭头单丛的功效与作用,凤凰单枞茶叶作用及功效介绍 

绿茶粥的功效,菊花茶种类产地及功效先容 

白茶陈皮的功效与作用,荷叶陈皮菊花茶的功效与作用 

莲心绿茶具有清心,绿茶养生的秘密 

安溪铁观音是什么茶,安溪铁观音的三大类型 

绿茶布丁的做法,奶茶布丁的做法