python爬虫工作了一段时间后,技术栈应该咋发展
啊哈哈,趁着过年我来回答一下。也是我自己之前的迷茫一个总结。
我做爬虫有一年半,不知道题主做了多久。
期间也有觉得写爬虫没意思过,当然还是停留在脚本的状态。
现在好多了,我就说说我自己的想法,我现在觉得一个爬虫工程师的归宿应该是搜索引擎,但是比如某度的最赚钱的广告,搜索只是人家的核心,扯开了。不过要把爬虫做下去,不单纯就是写写脚本,自己可以琢磨琢磨框架,我自己就根据公司自己的业务参照scrapy开发框架,下一步需要开发一个抓取平台,在我看来就是个脚本管理系统,至少可以提升我的开发能力,然后现在大家都喜欢搞舆情分析,那就是自己写个搜索引擎玩啊,不过人家某浪的微舆情确实做得很好。同时呢现在AI这么火,咱们又擅长拿数据,我也要开始接触数据分析的一点,不过主要还是要在爬虫上,归宿毕竟是搜索引擎(我个人看法哈)
至于js对抗啊,验证码啊等等各类的anti-spider,能规避的就规避,我举个例子,验证码,不是想着如何通过神经网络去深度学习去破解(google的第三代验证码我反正是没看明白),而是我的脚本在一个什么样的rps下不会去触发验证码。
好了,中午家里待客,喝了几杯酒,胡乱了几句,要是觉得我说的不对,笑笑就行了哈。
■网友
爬虫技术栈=爬虫技术路线图
最近刚整理的,供参考:
在线查看(可缩放大图):
Spider Roadmap 20190626
相关的更完整的爬虫(系列)教程:
了解爬虫的宏观逻辑和步骤前言 · 爬取你要的数据:爬虫技术用具体的语言 Python去写爬虫前言 · 如何用Python写爬虫然后才是Python中相关的内容解析和提取内容的Python库:网页内容提取利器:BeautifulSoupHTML解析库Python版jQuery:PyQueryPython爬虫框架:前言 · Python爬虫框架:PySpider主流Python爬虫框架:Scrapy最后是其他的,如爬虫周边相关的内容前言 · Selenium知识总结
如此相关内容都掌握和精通了,再去深入研究某个细节领域,抑或转战至Python的其他领域,也是不错的选择。
■网友
相信在爬虫过程中,你可以接触到很多复杂的js等前端内容,所以如果有兴趣可以转前端,从爬虫转为反爬虫。另外一些反爬措施,比如验证码,如果你痴迷于破解他们。你可以考虑向图像处理的方向走走。做爬虫你会接触到很多数据,从数据中可以发现很有意思的东西,那么你可以做做数据分析。做爬虫有很多方向可以走,不用迷茫,人生的路有很多条,选择一条适合你的并且你喜欢的就好
■网友
【python爬虫工作了一段时间后,技术栈应该咋发展】 我大体写过一些方面:如何成为一名爬虫工程师 | 卡瓦邦噶!
推荐阅读
- 怎样成为一名合格的Python程序员?
- python 爬虫,咋获得输入验证码之后的搜索结果
- python的html5lib这个库咋使用啊我在网上也没有找到相关文档
- 零基础入门学习啥语言好
- Python3.4和3.5区别大么
- python 中 def_():...... return _有啥作用
- 新互联网网站用Java还靠谱么对比Php,Python,Ruby的话
- 30岁男,创业失败转行学python,是否很晚?也不好找工作?
- Python 的开发速度比 C#.net 或 Vb.net 更快吗?
- 1、相同的网址,为啥浏览器http和https都能登录,而爬虫不行\n2、网页下载内容不全