Python爬虫入门,你更喜欢学习全面知识还是常用的方法

个人感觉还是从项目入手去学,如果只是照本宣科,我感觉作用并不是很大,因为就跟你学数学一样,把书看一遍感觉都懂了,但是真正做题的时候就会发现,还是不会做。全面学的时候,很可能在学的过程中就把你的兴趣和积极性给磨光了,学习使用工具是枯燥的,而通过工具去做自己想要的东西是有趣的,让兴趣驱动学习,我感觉这是一个很不错的方式。谈谈我个人的看法:(首先,python基础语法你需要学一遍,要想写文章,首先得认识字)。我感觉入门学习最主要的是入门,入门之后再全面去学也不晚,别还没入门就把兴趣搞没了。不妨从网上找几个简单的爬虫教程跟着做做,然后再找一个类型差不多的网站,自己实战操作一下,就跟练字一样,刚开始描摹,然后临摹。通过自己的努力实现的功能会有小小的成就感,这种喜悦感会不断的让你走下去。我想这就是入门。等你入门之后,就可以去实现更大一点的项目,在项目的实现过程中,你会遇到各种各样的问题,而在你解决这些问题的过程中,你就是在学习,而且你更能够记住它。等你做几个项目之后,你会发现一些常用的方法,你也已经掌握了。这时候你再全面学习的话,我相信你的效率会更高,而且也会记得更牢靠,你可以通过如下方法学习,比如你在学习爬虫内容提取的时候,一般网上采取的是BeautifulSoup、Xpath……,我相信你在入门阶段也是跟着某一个方法走,这就假设bs,如果你想学习其他的使用方法,比如正则表达式,你可以把你之前的项目统统使用正则改写一遍,这样我相信你能够把正则掌握掉。通过这种方法不仅能够全面学习,而且还是兴趣驱动,效率高。你说企业级都是用框架,确实框架帮我们做了很多事,但是你基础以及原理都掌握了,我相信你学习框架会很快,而且你也知道框架为什么要这样写,甚至你可以改框架,定制你自己的框架。
■网友
推荐自己思考流程 理解了整个流程后自己写爬虫 之后不断地改进 提出新需求 重写爬虫 等到你觉得自己对于爬虫理解比较什么 随便一个场景都能自己写出来的时候 推荐再去了解Scrapy 然后去看他是怎么实现的 和你自己的有啥区别
你只有真正理解了scrapy底层的实现方式,你才可能成为【高级爬虫工程师】 否则一上来学scrapy 你只是会给框架里面填充内容而已

■网友
我一直想针对python的爬虫说一些话,不妨就在这里说说吧。
针对题主的问题,我的答案是: 不要花这么多精力在学习爬虫上,最好不要去学任何一种爬虫框架。更不要把找到一份写爬虫的工作作为你学习python的目标。如果一定要靠学习爬虫入门,不妨把重点放在数据的存取、多线程多进程上。
最直接的原因是: python很简单,爬虫也很简单。如果你只会很简单的东西,那你就没有什么竞争力。
可能有些人会反对了,我见过的人把python形容为一种易于上手难于精通的语言,把爬虫形容为一种易于上手难于精通的技术。但根据我的实际经验来看,python我不评论,爬虫实在是不太担得上“难于精通”这几个字。
为什么我觉得爬虫不难,我们可以从技术上来分析一下。我想没有人会反对,如果没有反爬虫技术,爬虫的编写难度会极大幅下降。那反爬虫技术现在是什么情况呢?不知题主有没有看过类似爬取间隔和识别爬取间隔之类的爬与反爬的斗争,然而这些斗争虽然吸引了绝大多数注意力,实际上只占全部问题的极小一部分。网站真正的反爬虫杀手锏是: 极其有限/完全不 开放非注册用户的数据浏览权限,并辅以成本极高的注册流程(比如要求需要验证码验证真实手机号),这个组合可以说是反爬虫界的核武器,而且是一道几乎无法逾越的障碍。一旦对方能通过注册账户信息认出你或程序的身份。任你再怎么换ip、headers等等都是没有用的。而相比于单纯的访问,注册的流程是一道容易的多的验证对方是人还是机器的流程。而且开发这样一套流程的技术难度并不高,你却需要用上难得多的技术才有可能能破解,还随时可能因为对方的反爬虫策略更新而失效。或许现在还有一些公司,因为业务特殊性或者对数据保护的不够重视,仍然有不需要登陆就可以获取其重要数据的机会,但相信题主你想想也能明白,随着数据在现在计算机行业重要性的继续提升,这样的机会以后只可能越来越少。


推荐阅读