GitHub 上有哪些优秀的 Python 爬虫项目(14)


7、链家网爬虫
爬取北京地区链家历年二手房成交记录。涵盖链家爬虫一文的全部代码,包括链家模拟登录代码。
https://github.com/lanbing510/LianJiaSpider
8、京东爬虫
基于 scrapy 的京东网站爬虫,保存格式为 csv。
https://github.com/taizilongxu/scrapy_jingdong
9、群爬虫
批量抓取 QQ 群信息,包括群名称、群号、群人数、群主、群简介等内容,最终生成 XLS(X) / CSV 结果文件。
https://github.com/caspartse/QQ-Groups-Spider
10、乌云爬虫
乌云公开漏洞、知识库爬虫和搜索。全部公开漏洞的列表和每个漏洞的文本内容存在 MongoDB 中,大概约 2G 内容;如果整站爬全部文本和图片作为离线查询,大概需要 10G 空间、2小时(10M电信带宽);爬取全部知识库,总共约 500M 空间。漏洞搜索使用了 Flask 作为 web server,bootstrap 作为前端。
https://github.com/hanc00l/wooyun_public
11、hao123 网站爬虫
以 hao123 为入口页面,滚动爬取外链,收集网址,并记录网址上的内链和外链数目,记录title等信息,windows7 32 位上测试,目前每 24 个小时,可收集数据为 10 万左右
https://github.com/simapple/spider
12、机票爬虫(去哪儿和携程网)
Findtrip是一个基于Scrapy的机票爬虫,目前整合了国内两大机票网站(去哪儿 + 携程)。
https://github.com/fankcoder/findtrip
13、网易客户端内容爬虫
https://github.com/leyle/163spider
14、豆瓣电影、书籍、小组、相册、东西等爬虫集
https://github.com/fanpei91/doubanspiders
15、QQ 空间爬虫,包括日志、说说、个人信息等,一天可抓取 400 万条数据。
https://github.com/LiuXingMing/QQSpider
16、百度 mp3 全站爬虫,使用 redis 支持断点续传
https://github.com/Shu-Ji/baidu-music-spider
17、淘宝和天猫的爬虫,可以根据搜索关键词,物品id来抓去页面的信息,数据存储在 mongodb。
https://github.com/pakoo/tbcrawler
18、股票数据(沪深)爬虫和选股策略测试框架
根据选定的日期范围抓取所有沪深两市股票的行情数据。支持使用表达式定义选股策略。支持多线程处理。保存数据到 JSON 文件、CSV 文件。
https://github.com/benitoro/stockholm
19、百度云盘爬虫
https://github.com/k1995/BaiduyunSpider
20、社交数据爬虫,支持微博,,豆瓣
https://github.com/Qutan/Spider
21、爬虫代理 IP 池(proxy pool)
https://github.com/jhao104/proxy_pool
22、网易云音乐所有歌曲的评论
url=https%3A%2F%2Fgithub.com%2FRitterHou%2Fmusic-163
23、公众号文章爬虫
https://mp.weixin.qq.com/s/hbZUWjob1U06ugIKojdHqw
24、爱奇艺视频弹幕爬虫
https://mp.weixin.qq.com/s/1DDkqehBEZQdQ4JKG67GfQ
25、博客园爬虫
https://github.com/Northxw/Python3_WebSpider/tree/master/01-Cnblogs
26、王者荣耀爬虫
https://github.com/Northxw/Python3_WebSpider/tree/master/02-Golory_of_Kings
27、猫眼 TOP100 爬虫
https://github.com/Northxw/Python3_WebSpider/tree/master/03-MaoYan_Top100
28、朋友圈爬虫
https://github.com/Northxw/Python3_WebSpider/tree/master/05-Moments
29、抖音爬虫
https://github.com/Northxw/Python3_WebSpider/tree/master/10-DouYin
30、简书爬虫
https://github.com/Northxw/Python3_WebSpider/tree/master/12-Crack_Jianshu
31、Boss 直聘爬虫
https://github.com/xianyunyh/spider_job
32、抖音推荐列表爬虫


推荐阅读