GitHub 上有哪些优秀的 Python 爬虫项目(12)
https://github.com/CriseLYJ/awesome-python-login-model
大型图片爬虫
如果你经常使用百度图片,却又很难找到自己想要的图片,那么这个Github项目,就是你必须拿下的。
这个爬虫程序,可以根据自己的需求,定制爬取图片,支持百度、谷歌和必应,抓取速度很快,2000张图片,约3分钟的时间,就可以成功完成。
https://github.com/sczhengyabin/Image-Downloader
各大视频网站爬虫
地址:iawia002/annie
由ID为iawia002的用户整理,Annie是一款以go语言编码的视频下载工具,使用便捷并支持youtube,腾讯视频,抖音等多个网站视频和图像的下载,收录站点如下,可以说是该有的都有的:
虽然这个项目可以下载图片,但是我们还是来用它下载视频吧,使用方法很简单:
annie [可选参数]http://… (视频网址)
视频会下载到当前目录,至于那些可选参数,赶紧去摸索吧。
各大网站的 Python 爬虫登录汇总
作者收集了一些网站的登陆方式和爬虫程序,有的通过 selenium 登录,有的则通过抓包直接模拟登录。作者希望该项目能帮助初学者学习各大网站的模拟登陆方式,并爬取一些需要的数据。
作者表示模拟登陆基本采用直接登录或者使用 selenium+webdriver 的方式,有的网站直接登录难度很大,比如 qq 空间和 bilibili 等,采用 selenium 登录相对轻松一些。虽然在登录的时候采用的是 selenium,但为了效率,我们也可以在登录后维护得到的 cookie。登录后,我们就能调用 requests 或者 scrapy 等工具进行数据采集,这样数据采集的速度可以得到保证。
目前已经完成的网站有:
Facebook无需身份验证即可抓取 Twitter 前端 API微博网页版QQZoneCSDN淘宝Baidu果壳JingDong 模拟登录和自动申请京东试用163mail拉钩Bilibili豆瓣Baidu2猎聘网微信网页版登录并获取好友列表Github爬取图虫相应的图片如下所示,如果我们满足依赖项,那么就可以直接运行代码,它会在图虫网站中下载搜索到的图像。
如下所示为搜索「秋天」,并完成下载的图像:
每一个网站都会有对应的登录代码,有的还有数据的爬取代码。以豆瓣为例,主要的登录函数如下所示,它会获取验证码、处理验证码、返回登录数据完成登录,并最后保留 cookies。def login(): captcha, captcha_id = get_captcha() # 增加表数据 datas = captcha datas = captcha_id login_page = session.post(url, data=https://www.zhihu.com/api/v4/questions/58151047/datas, headers=headers) page = login_page.text soup = BeautifulSoup(page,"html.parser") result = soup.findAll(\u0026#39;div\u0026#39;, attrs={\u0026#39;class\u0026#39;: \u0026#39;title\u0026#39;}) #进入豆瓣登陆后页面,打印热门内容for item in result: print(item.find(\u0026#39;a\u0026#39;).get_text()) # 保存 cookies 到文件, # 下次可以使用 cookie 直接登录,不需要输入账号和密码 session.cookies.save()
推荐阅读
- 医院|感染艾滋病毒初期有哪些征兆?可以自行检查吗?共用马桶会传染吗
- 玩游戏花钱最多的有哪些游戏,哪些人
- 旅行|需要准备哪些物品?全面冬季出游清单,建议收藏带宝宝出门旅行
- 红米手机通过QQ空间的成功营销,给涉足社会化营销的企业有哪些启示
- 互联网在线音乐行业有哪些可能的盈利模式
- 直播会成为品牌传播的另一个途径么有哪些可行的方法感觉有戏又没头绪好捉急。
- 侧重业务逻辑的产品需求规格说明书,需要有哪些要点
- 大学|上海大学第8,前10名有哪些高校?上海市30所大学排名
- 小米手机的指纹信息保管安全吗
- 学图像处理有哪些不错的书推荐