Python网络爬虫快速上手环境准备：事先安装好

环境准备：事先安装好， pycharm打开File——>Settings——>Projext——>Project Interpriter
文章插图
点击加号（图中红圈的地方）
文章插图
【Python网络爬虫快速上手】点击红圈中的按钮
文章插图
选中第一条，点击铅笔，将原来的链接替换为（这里已经替换过了）：点击OK后，输入requests-html然后回车选中requests-html后点击Install Package
文章插图
等待安装成功，关闭
通过解析网页源代码实例内容：从某博主的所有文章爬取想要的内容。实例背景：从（）博主的所有文章获取各文章的标题，时间，阅读量。

导入requests_html中HTMLSession方法，并创建其对象

from requests_html import HTMLSessionsession = HTMLSession()123

使用get请求获取要爬的网站,得到该网页的源代码。

html = session.get("").html12

找到所有文章

allBlog=html.xpath("//dl[@class='tab_page_list']") 1

进入网站主页（本例：）
文章空白处右键检查可以定位到这文章的标签

文章插图

其他文章一样操作，然后找到所有文章共同的标记（这里所有文章的class都是‘my_tab_page_con’）
xpath 可以遍历html的各个标签和属性，来定位到我们需要的信息的位置，并提取。
网页分析获取标题，阅读量，日期。

for i in allBlog:title = i.xpath("dl/dt/h3/a")[0].textviews = i.xpath("//div[@class='tab_page_b_l fl']")[0].textdate = i.xpath("//div[@class='tab_page_b_r fr']")[0].textprint(title +' ' +views +' ' + date )12345

网页分析：

因为有多篇文章，分别获取使用for循环，上述代码已得到所有文章所以i表示一篇文章
第二行代码获取文章标题，于获取文章类似，鼠标放到标题上右键检查，因为文章只有一个标题所以用绝对路径也可以按标签一层层进到标题位置。

文章插图

xpath返回的是列表，我们要第一个所以要加下标（列表里也只有一个元素），要输出的是文本，所以,text获取文本。
阅读量和时间也是重复的操作

文章插图

可以用相对路径也可以用绝对路径，一般都是用相对路径，格式仿照代码。
第五行代码，每得到一篇文章的信息就输出，遍历完就可以获得全部的信息。

完整代码：

from requests_html import HTMLSessionsession = HTMLSession()html = session.get("").htmlallBlog=html.xpath("//dl[@class='tab_page_list']")for i in allBlog:title = i.xpath("dl/dt/h3/a")[0].textviews = i.xpath("//div[@class='tab_page_b_l fl']")[0].textdate = i.xpath("//div[@class='tab_page_b_r fr']")[0].textprint(title +' ' +views +' ' + date )1234567891011121314
上一页
1
2
下一页
		  	





























推荐阅读

           
                  
              
                  DoNews|App Annie：《原神》占据国内 App Store 下载榜第一、收入榜第三 
                
                   
                
              
            

                  
              
                   大师|继于丹之后，又一位国学大师被学子赶下讲台，网友：她不配叫大师 
                
                   
                
              
            

                  
              
                  ?灵芝乌鸡汤的做法是怎样的？ 
                
                   
                
              
            

                  
              
                  穿衣搭配|减肥成功必知的八个误区，掌握了轻松瘦下来，还没瘦赶紧收藏起来 
                
                   
                
              
            

                  
              
                  吕雉为什么杀刘邦多个儿子?吕雉为什么杀了刘邦的三个儿子_3 
                
                   
                
              
            

                  
              
                  星巴克红茶拿铁怎么做？[红茶] 
                
                   
                
              
            

                  
              
                  天龙八部|天龙八部全服现在到底有多少七重楼号？网友：个个是超神 
                
                   
                
              
            

                  
              
                  【企业】BOSS直聘启动“桃花行动”，免费为企业搭建互助通道 
                
                   
                
              
            

                  
              
                  维修网曝17400元“天价”警摩维修单，深圳交警回应 
                
                   
                
              
            

                  
              
                  华南虎照片案 华南虎造假案 
                
                   
                
              
            

                  
              
                  央视|美国佛吉尼亚州州长及其妻子确诊新冠肺炎 
                
                   
                
              
            

                  
              
                  高铁|地级城市G字头高铁停靠情况一览 
                
                   
                
              
            

                  
              
                  花间雨屋星座|这几大星座将在2020年尾牙爆发好运 
                
                   
                
              
            

                  
              
                  「澳门特区」贺一诚谈澳门新一届政府官员特点：爱国爱澳是基础 
                
                   
                
              
            

                  
              
                  为何遇“珠峰大堵车”人们仍不撤离？专家：都在一根绳子上，中途 
                
                   
                
              
            

                  
              
                  『斗牛APP』| YEEZY 350 新鞋型登场！真是一代不如一代…，球鞋 
                
                   
                
              
            

                  
              
                  贵州至广西正开建一条350时速高铁，连接两大中心城市 
                
                   
                
              
            

                  
              
                  钱江晚报|男子改造面包车倒卖便宜汽油，这样的油你敢加吗？ 
                
                   
                
              
            

                  
              
                  右手网 Galaxy Watch 3 首张实拍图证实旋转表圈设计回归，三星 
                
                   
                
              
            

                  
              
                  【】得许昕者得双打！国乒奥运模拟赛决出首冠 
                
                   
                
              
            

          

改变网络化办公 揭秘夏普新复合机系列 

网络双面提速办公 夏普发布全新复印机系列 

计算机专业大一下学期，该选择学习Java还是Python 

美媒：美国拉小弟搞开放网络规范摆脱华为 但更多中国公司加入竞争搅黄美方计划 

华为为河北“火眼”实验室（气膜版）提供网络技术保障 

想自学Python来开发爬虫，需要按照哪几个阶段制定学习计划 

未来想进入AI领域，该学习Python还是Java大数据开发 

无线网络联盟：Wi-Fi 6E是二十年来最重大的一次升级 

手机网络突然变成2G，建议马上关掉手机，小心你的钱被对方转走 

中消协点名大数据网络杀熟 反对利用消费者个人数据画像