GitHub 上有哪些优秀的 Python 爬虫项目( 五 )



biqukan.py
《笔趣看》盗版小说网站,爬取小说工具
webspider
本系统是一个主要使用python3, celery和requests来爬取职位数据的爬虫,实现了定时任务,出错重试,日志记录,自动更改Cookies等的功能,并使用ECharts + Bootstrap 来构建前端页面,来展示爬取到的数据。
geetest
爬虫最大的敌人之一是什么?没错,验证码!Geetest作为提供验证码服务的行家,市场占有率还是蛮高的。
动态示意图:
GitHub 上有哪些优秀的 Python 爬虫项目

Nyspider
各种爬虫---大众点评,安居客,58,人人贷,拍拍贷, IT桔子,拉勾网,豆瓣,搜房网,ASO100,气象数据,猫眼电影,链家,PM25.in...
spider
以hao123为入口页面,滚动爬取外链,收集网址,并记录网址上的内链和外链数目,记录title等信息。windows7 32位上测试,目前每24个小时,可收集数据为10万左右
CVPR2019
2019计算机视觉顶会CVPR全部论文PDF论文爬虫
bdwenku-spider
百度文库word文章爬取,学生党超实用!支持txt,word,pdf,ppt类型资源的下载
其它有趣的Python爬虫小项目:LiveStream
爬取了西瓜直播(今日头条旗下APP)各类型游戏的主播直播数据107.5万条,并分析直播平台和游戏主播行业是否真如我们想象般的暴利。适合Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者
Zhihu -Spider
关系网爬虫
LaborDay
按全国各个城市抓取飞猪“景点门票”栏的景点门票销售数据,并且分析五一哪些景点会人挤人,哪些景点值得一去。同样适合Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者学习。
KrisWu
随机抓取吴亦凡发表《大碗宽面》微博的微博转发数据10万条,并分析该条微博的真假转发比例,以及大家对于这首歌的情感倾向如何
ESL
爬取了外籍人员招聘网站JobLEADChina上的外籍英语老师招聘数据945条,万行教师人才网上的英语老师招聘数据5780条,以及微信群成员信息498条,分析外教教师的招聘状况。洋外教的工资学历情况一目了然。
Wechat_article_collector
一个微信公众号文章采集器,用于采集微信公众号文章并保存至word文档。
项目很简单,主要包括以下文件:
article_collector.py:主文件,用于爬取公众号文章以及把文章储存为word文档;add_hyperlinks.py:用于在word文档中添加超链接gzh.txt:待爬取的公众号列表比心.JPG:用来撒狗粮的,不用管one_hour_spider
一小时入门Python3网络爬虫。
内容有包括:
网络小说下载(静态网站)-biqukan
优美壁纸下载(动态网站)-unsplash
爱奇艺VIP视频下载
PUBG-juediqiusheng-data_analysis
项目主要分析绝地求生72万场比赛的数据,并结合数据给出吃鸡攻略,用数据吃鸡!
主要的文件为:
20G 绝地求生比赛数据集分析.ipynb:Jupyter Notebook格式,代码和说明都在这里erangel.jpg:绝地海岛艾伦格地图miramar.jpg:热情沙漠米拉玛地图Weibo_Comment_Pics
这个项目主要是模拟登录微博手机网页端,爬取指定微博下面的评论数据,并且下载评论中的表情包图片
主要的文件为:
photo_crawler.py:代码(带说明和注释)
cookie.txt:爬取电脑端网页时的cookie,具有时效性,需要自行更新
XSStrike
XSStrike是一个Cross Site Scripting检测套件,配备四个手写解析器,一个智能有效载荷生成器,是一个强大的模糊引擎和一个非常快速的爬虫。
九章算法,硅谷一线工程师在线直播授课,已经帮助30000+人成功拿到心仪offer。


推荐阅读