GitHub 上有哪些优秀的 Python 爬虫项目( 四 )
■网友
大型爬虫项目:Photon
一个高速的爬虫程序。最大的特点是它不是像普通爬虫那样只爬取结构和静态资源,Photon被偏向设计为信息收集爬虫,它有非常灵活的规则设置和利于阅读的导出结果。
Photon提供的各种选项可以让用户按照自己的方式抓取网页。
它最厉害的地方在于数据提取
默认情况下,Photon在抓取时会提取以下数据:
网址(范围内和范围外的)
带参数的网址(http://example.com/gallery.php?id=2)
情报(电子邮件,社交媒体帐户,亚马逊水桶等)
文件(pdf,png,xml等)
JavaScript等文件
基于自定义正则表达式模式的字符串
提取的信息按下图方式保存。
PySpider
一个国人编写的强大的网络爬虫系统并带有强大的WebUI。采用Python语言编写,分布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑器,任务监视器,项目管理器以及结果查看器。
它可以实现:
python 脚本控制,可以用任何你喜欢的html解析包(内置 pyquery)WEB 界面编写调试脚本,起停脚本,监控执行状态,查看活动历史,获取结果产出数据存储支持MySQL, MongoDB, Redis, SQLite, Elasticsearch; PostgreSQL 及 SQLAlchemy队列服务支持RabbitMQ, Beanstalk, Redis 和 Kombu支持抓取 JavaScript 的页面组件可替换,支持单机/分布式部署,支持 Docker 部署强大的调度控制,支持超时重爬及优先级设置支持python2\u0026amp;3实用型爬虫项目:financical.py
财务报表下载小助手。
动态示意图:
video_downloader
爱奇艺等主流视频网站的VIP视频破解助手(暂只支持PC和手机在线观看VIP视频!)
感谢Python3二维码生成器作者:https://github.com/sylnsfar/qrcode
编译好的软件下载连接:https://pan.baidu.com/s/1bqSTNJL 密码:p8bs
解压密码:http://cuijiahua.com
无需Python3环境,在Windows下,解压即用!
BSGS_Rent
爬取并分析北上广深链家网租房房源全部数据,得出租金分布,租房考虑因素等建议(北上广深租房图鉴)
主要的文件有:
house_data_crawler.py:爬取北上广深租房房源数据的代码(带说明和注释,需要安装mongodb)info.py:租房类型和各城市各区域的信息,供house_data_crawler.py调用北上广深租房图鉴.ipynb:Jupyter notebook代码,对北上广深租房数据进行分析data_sample.csv:租房数据,这里只随机选择了12000条,每城市3000条12306
用Python抢火车票简单代码,有爬虫基础就很好操作。
webspider
本系统是一个主要使用python3, celery和requests来爬取职位数据的爬虫,实现了定时任务,出错重试,日志记录,自动更改Cookies等的功能,并使用ECharts + Bootstrap 来构建前端页面,来展示爬取到的数据。
downloader.py
一个可以用于下载图片、视频、文件的小工具,有下载进度显示功能。稍加修改即可添加到自己的爬虫中。
推荐阅读
- 医院|感染艾滋病毒初期有哪些征兆?可以自行检查吗?共用马桶会传染吗
- 玩游戏花钱最多的有哪些游戏,哪些人
- 旅行|需要准备哪些物品?全面冬季出游清单,建议收藏带宝宝出门旅行
- 红米手机通过QQ空间的成功营销,给涉足社会化营销的企业有哪些启示
- 互联网在线音乐行业有哪些可能的盈利模式
- 直播会成为品牌传播的另一个途径么有哪些可行的方法感觉有戏又没头绪好捉急。
- 侧重业务逻辑的产品需求规格说明书,需要有哪些要点
- 大学|上海大学第8,前10名有哪些高校?上海市30所大学排名
- 小米手机的指纹信息保管安全吗
- 学图像处理有哪些不错的书推荐