四种Python爬虫常用的定位元素方法对比，你偏爱哪一款？ _Python爬虫

来源：早起Python
作者：陈熹
在使用Python本爬虫采集数据时，一个很重要的操作就是如何从请求到的网页中提取数据，而正确定位想要的数据又是第一步操作。
本文将对比几种 Python 爬虫中比较常用的定位网页元素的方式供大家学习

“传统 BeautifulSoup 操作基于 BeautifulSoup 的 css 选择器（与 PyQuery 类似）XPath正则表达式”

http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-1

文章插图

我们以获取第一页 20 本书的书名为例。先确定网站没有设置反爬措施，是否能直接返回待解析的内容：

import requestsurl = 'http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-1'response = requests.get(url).textprint(response)

文章插图

仔细检查后发现需要的数据都在返回内容中，说明不需要特别考虑反爬举措
审查网页元素后可以发现，书目信息都包含在 li 中，从属于 class 为 bang_list clearfix bang_list_mode 的 ul 中

文章插图

进一步审查也可以发现书名在的相应位置，这是多种解析方法的重要基础

文章插图

1. 传统 BeautifulSoup 操作经典的 BeautifulSoup 方法借助 from bs4 import BeautifulSoup，然后通过 soup = BeautifulSoup(html, "lxml") 将文本转换为特定规范的结构，利用 find 系列方法进行解析，代码如下：

import requestsfrom bs4 import BeautifulSoupurl = 'http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-1'response = requests.get(url).textdef bs_for_parse(response):    soup = BeautifulSoup(response, "lxml")    li_list = soup.find('ul', class_='bang_list clearfix bang_list_mode').find_all('li') # 锁定ul后获取20个li    for li in li_list:        title = li.find('div', class_='name').find('a')['title'] # 逐个解析获取书名        print(title)if __name__ == '__main__':    bs_for_parse(response)

文章插图

成功获取了 20 个书名，有些书面显得冗长可以通过正则或者其他字符串方法处理，本文不作详细介绍
2. 基于 BeautifulSoup 的 CSS 选择器这种方法实际上就是 PyQuery 中 CSS 选择器在其他模块的迁移使用，用法是类似的。关于 CSS 选择器详细语法可以参考：http://www.w3school.com.cn/cssref/css_selectors.asp由于是基于 BeautifulSoup 所以导入的模块以及文本结构转换都是一致的：

import requestsfrom bs4 import BeautifulSoupurl = 'http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-1'response = requests.get(url).text        def css_for_parse(response):    soup = BeautifulSoup(response, "lxml")     print(soup)if __name__ == '__main__':    css_for_parse(response)

然后就是通过 soup.select 辅以特定的 CSS 语法获取特定内容，基础依旧是对元素的认真审查分析：

import requestsfrom bs4 import BeautifulSoupfrom lxml import htmlurl = 'http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-24hours-0-0-1-1'response = requests.get(url).text        def css_for_parse(response):    soup = BeautifulSoup(response, "lxml")    li_list = soup.select('ul.bang_list.clearfix.bang_list_mode > li')    for li in li_list:        title = li.select('div.name > a')[0]['title']        print(title)if __name__ == '__main__':    css_for_parse(response)
上一页
1
2
3
下一页
		  	





























推荐阅读

           
                  
              
                  1522年是哪个朝代 1522年是什么朝代 
                
                   
                
              
            

                  
              
                  风雪中站岗军人 站岗的战士手里紧握着 
                
                   
                
              
            

                  
              
                  微信公众号“健康广东”|广东新增境外输入确诊5例、无症状感染者8例，均为广州报告 
                
                   
                
              
            

                  
              
                  古今医案研读|古今医案研读：广中医教授周福生治萎缩性胃炎伴肠化三 
                
                   
                
              
            

                  
              
                  家常老干妈豆腐，不一样的麻婆豆腐，做法超简单的下饭菜，特美味 
                
                   
                
              
            

                  
              
                  『中金网』布局非接触经济，佳都科技发布商用智能人脸测温新品 
                
                   
                
              
            

                  
              
                  盛夏书香|我们不能只有省省省的态度，孩子看见玩具就想买？对待金钱 
                
                   
                
              
            

                  
              
                   花香|在家里养盆“醉酒杨妃”花姿琼花玉叶，花香醉人，比菊花还美 
                
                   
                
              
            

                  
              
                  歌声|周深首登《流淌的歌声》，直呼被“榨干” 
                
                   
                
              
            

                  
              
                  本田urv|8月销量最惨的十大轿车榜单，这个品牌占5款，或将退出中国市场 
                
                   
                
              
            

                  
              
                  萌主妈咪育儿经|妈妈记得要读懂，男孩为何爱“粘”妈妈？背后的心理暗示 
                
                   
                
              
            

                  
              
                  你可能不了解这3件事，早认识早受益 乙肝知识 
                
                   
                
              
            

                  
              
                  亲人被同事无故背地里骂咋办 
                
                   
                
              
            

                  
              
                  高超音速|全球最快导弹亮相，15分钟直达美本土，宙斯盾都来不及反应 
                
                   
                
              
            

                  
              
                  怎样看待教师在上课中夹带私货（泛指人生道理）的行为 
                
                   
                
              
            

                  
              
                  真想买套小户型照着它装，既可住家又可当工作室，一人独享太爽了 
                
                   
                
              
            

                  
              
                  北京将新增三条铛铛车夜景游线路 
                
                   
                
              
            

                  
              
                  羽毛球从零基础到入门 羽毛球训练 
                
                   
                
              
            

                  
              
                  『搞笑大喇叭』一天在路口起步熄火了，她打开双闪下了车，笑话：表姐刚拿驾照 
                
                   
                
              
            

                  
              
                  开一家儿童益智玩具店怎么样 杭州巧天才玩具总部地址 
                
                   
                
              
            

          

Pyppeteer爬虫神器详解 

破了这几种爬虫加密算法后，我的路更近了「JS逆向3」 

python的5种数据结构，方法很多记不住吗？全在这里了. 

500行代码，教你用python写个微信飞机大战 

六堡茶制造方法,六堡茶的四种实用冲泡方法 

初窥 Python 的 import 机制 

Python网络编程实现自动化，简化Telnet网络配置工作 

2分钟将Python转换为exe 

5分钟看懂Python之Excel文件操作 

白发尖的油炸方法,通天岩茶泡茶的四种工艺