python除了用requests库,还能用啥编写爬虫
selenium
其实requests就基本足够了, 配合ExecJS基本能解决大部分问题.
少数问题可以通过selenium解决.
爬虫关键的是数据整合与抽象, 用什么Web库是底层的工具选择.
我本人就写了一个IWebAT接口, 用selenium和requests分别实现, 用起来很爽.
■网友
requests库是一个http客户端,连接服务器请求数据,一般会与beatifulsoup,xpath,正则等解析工具配合使用,可以应付一般小的爬虫项目。
除了requests,其他可以用的还有一些别人写好的框架,如scrapy,pyspider等。框架不仅仅是请求,还包括调度,负责数据的从爬取到储存的所有任务工作。开发人员一般只要写解析部分和自定义的中间件和配置就差不多了,可以应付一些重大型的爬虫项目。
还有selenium,它使用webdriver驱动浏览器进行自动化的操作,效率很低,一般能不用尽量不用。但是如果网页异步js很难模拟,使用selenium也一个回去数据的方法。
学习爬虫可以关注我的专栏Python数据分析师
或者公众号:Python数据科学
■网友
aiohttp,基于asyncio的异步HTTP框架,并发效率不错,我在这之上封装了一个请求池
https://github.com/DKChain/aiorequestpool
■网友
selenium,scrapy框架都可以的,而且爬取动态网页的话,selenium非常好用
■网友
反正大多数都能用这个解决
■网友
scrapy牛逼
■网友
urllib
■网友
requests http库 官网: Requests: HTTP for Humans
scrapy 框架 官网:A Fast and Powerful Scraping and Web Crawling Framework
pyspider 框架 官网:pyspider
通常写爬虫 requests + Beautiful Soup 就能满足大多数场景了
【python除了用requests库,还能用啥编写爬虫】 必要的时候可能会上 phantomJS
推荐阅读
- 怎样成为一名合格的Python程序员?
- python 爬虫,咋获得输入验证码之后的搜索结果
- python的html5lib这个库咋使用啊我在网上也没有找到相关文档
- 人类能证明除了自己,其他人也有意识吗(我有意识,其他人也一定有这种方式不算)
- 零基础入门学习啥语言好
- 鬼斗车|最有背景却仍籍籍无名 这款车除了高颜值 还有些什么?
- 资本|仅剩沉默的大多数在线教育融资2020:除了资本青睐的独角兽
- Python3.4和3.5区别大么
- python 中 def_():...... return _有啥作用
- 新互联网网站用Java还靠谱么对比Php,Python,Ruby的话