GitHub 上有哪些优秀的 Python 爬虫项目(11)


GitHub 上有哪些优秀的 Python 爬虫项目



■网友
爬虫入门简单快速,非常适合新入门的小伙伴培养信心
wesome-spider
这一项目收集了100多个爬虫,默认使用了Python作为爬虫语言。你既可以在这个项目中,找到爬取Bilibili视频的爬虫,也可以使用爬虫,通过豆瓣评分和评价人数等各项数据,来挖掘那些隐藏的好书,甚至还可以用来爬取京东、链家、网盘等生活所需的数据。此外,这个项目还提供了一些很有意思的爬虫,比如爬取神评论、妹子图片、心灵毒鸡汤等等,既有实用爬虫,也有恶搞自嗨,满足了大部分人实用爬虫的需求。
GitHub 上有哪些优秀的 Python 爬虫项目

https://github.com/facert/awesome-spider

Nyspider
Nyspider也非常厉害,如果你想获得“信息”,它是一个不错的选择。在这个项目里,你既能获取链家的房产信息,也可以批量爬取A股的股东信息,猫眼电影的票房数据、还可以爬取猎聘网的招聘信息、获取融资数据等等,可谓是爬取数据,获取信息的好手。
GitHub 上有哪些优秀的 Python 爬虫项目

之所以这个项目与“信息”关系很大,可能是由于作者就职于今日头条的缘故,要想推荐算法够精准的前提,就是要获取大量的数据,再加以分析。
https://github.com/Nyloner/Nyspider

python-spider
这个项目是ID为Jack-Cherish的东北大学学生整理的python爬虫资料,涵盖了很多爬虫实战项目,如下载漫画、答题辅助系统、抢票小助手等等等等。如果你已经学会了爬虫,急切得像找一些项目练手,这里就可以满足你的这一需求。
当然,W3Cschool上也有很多爬虫实战项目,有需要的同学,也可以拿来作为练习使用。
https://github.com/Jack-Cherish/python-spider

Anti-Anti-Spider
很全面的反爬虫项目大全:
1:验证码 {亚马逊验证码破解,knn,svm,Tensorflow自动生成验证码并大量训练从而破解--98%成功率}
2:代理 {抓取西刺代理,以及一个高可用的国外代理网站,并存入数据库,从而随时调用}
3:代码模板 {多线程优化,百度地图可视化采集,聚焦爬虫,selenium模拟登陆,域名爬虫}
5:爬虫项目源码 {优酷网,腾讯视频,推特,拉钩网,百度地图,妹子图网,百家号,百度百科,csdn,新浪微博, 淘宝采集}
6:ip更换技术 {代理,tor,adsl}
7:请求伪造 {phantomjs,requests,selenium}
8:phantomjs {伪造请求头,获取页面截图,获取页面源码,设置超时}
9:selenium {伪造请求头,支付宝模拟登陆}
10:UrlSpider {项目中常用的采集代码样本,经过多线程数据库操作优化,最高速度6kw/d}
GitHub 上有哪些优秀的 Python 爬虫项目

https://github.com/luyishisi/Anti-Anti-Spider

login-model
与上面的爬虫项目相比,这个项目显得逊色了不少,但它却是整个爬虫世界的基石。如果你的爬虫程序,连目标网站都无法登录,无疑是非常失败的。
这个项目就很好的帮你解决了这些问题,它收集了很多各大网站的登录方式和爬虫程序,对于还在学习爬虫的小白非常友好最重要的是,这个项目的爬虫,基本上都不会出现无法使用的情况,如果目标网站有了一些反爬虫机制的更新,或者已经重构了,作者也会进行标记,实时更新就很厉害了。


推荐阅读