「产业气象站」我到底要学多少东西呢？，就想写个爬虫当今大数据的时代

文章图片
当今大数据的时代，网络爬虫已经成为了获取数据的一个重要手段。
但要学习好爬虫并没有那么简单。首先知识点和方向实在是太多了，它关系到了计算机网络、编程基础、前端开发、后端开发、App开发与逆向、网络安全、数据库、运维、机器学习、数据分析等各个方向的内容，它像一张大网一样把现在一些主流的技术栈都连接在了一起。正因为涵盖的方向多，因此学习的东西也非常零散和杂乱，很多初学者搞不清楚究竟要学习哪些知识，学习过程中遇到反爬也不知道用什么方法来解决，本篇我们来做一些归纳和总结。
初学爬虫
一些最基本的网站，往往不带任何反爬措施。比如某个博客站点，我们要爬全站的话就顺着列表页爬到文章页，再把文章的时间、作者、正文等信息爬下来就可以了。
那代码怎么写呢？用Python的requests等库就够了，写一个基本的逻辑，顺着把一篇篇文章的源码获取下来，解析的话用XPath、BeautifulSoup、PyQuery或者正则表达式，或者粗暴的字符串匹配把想要的内容抠出来，再加个文本写入存下来就完事了。
代码很简单，就几个方法调用。逻辑很简单，几个循环加存储。最后就能看到一篇篇文章就被我们存到自己的电脑里面了。当然有的同学可能不太会写代码或者都懒得写，那么利用基本的可视化爬取工具，如某爪鱼、某裔采集器也能通过可视化点选的方式把数据爬下来。
如果存储方面稍微扩展一下的话，可以对接上MySQL、MongoDB、Elasticsearch、Kafka等等来保存数据，实现持久化存储。以后查询或者操作会更方便。
反正，不管效率如何，一个完全没有反爬的网站用最最基本的方式就搞定了。
到这里，你就说你会爬虫了吗？不，还差的远呢。
Ajax、动态渲染
随着互联网的发展，前端技术也在不断变化，数据的加载方式也不再是单纯的服务端渲染了。现在你可以看到很多网站的数据可能都是通过接口的形式传输的，或者即使不是接口那也是一些JSON的数据，然后经过JavaScript渲染得出来的。
这时候，你要再用requests来爬那就不顶用了，因为requests爬下来的源码是服务端渲染得到的，浏览器看到页面的和requests获取的结果是不一样的。真正的数据是经过JavaScript执行的出来的，数据来源可能是Ajax ，也可能是页面里的某些Data ，也可能是一些ifame页面等等，不过大多数情况下可能是Ajax接口获取的。
所以很多情况下需要分析Ajax ，知道这些接口的调用方式之后再用程序来模拟。但是有些接口带着加密参数，比如token、sign等等，又不好模拟，咋整呢？
一种方法就是去分析网站的JavaScript逻辑，死抠里面的代码，揪出来这些参数是怎么构造的，找出思路来了之后再用爬虫模拟或重写就行了。如果你解出来了，那么直接模拟的方式效率会高非常多，这里面就需要一些JavaScript基础了，当然有些网站加密逻辑做的太牛逼了，你可能花一个星期也解不出来，最后放弃了。

文章图片
那这样解不出来或者不想解，那咋办呢？这时候可以有一种简单粗暴的方法就是直接用模拟浏览器的方式来爬取，比如用Puppeteer、Pyppeteer、Selenium、Splash等，这样爬取到的源代码就是真正的网页代码，数据自然就好提取了，同时也就绕过分析Ajax和一些JavaScript逻辑的过程。这种方式就做到了可见即可爬，难度也不大，同时模拟了浏览器，也不太会有一些法律方面的问题。
但其实后面的这种方法也会遇到各种反爬的情况，现在很多网站都会去识别webdriver ，看到你是用的Selenium等工具，直接干掉或不返回数据，所以你碰到这种网站还得来专门解一下这个问题。

「产业气象站」我到底要学多少东西呢？，就想写个爬虫

推荐阅读

自由搏击以太极之名迎战自由搏击，从一开始就是闹剧

假期余额不足，这份“上班上学前的健康指南”请您收下~

肆客足球|亚特兰大阵中飞翼得到莱斯特城青睐，2200万英镑报价已经送上

海峡军武号|日本教授：中国的崛起令人忌惮

cnBeta SN5原型完成最新发射测试，向火星目标又迈进一步：SpaceX

杜月笙|周总理邀请杜月笙回上海遭拒，女儿揭秘：父亲看到了黄金荣扫大街

某年电影|创3学员未出道意难平？徐艺洋前途大好，谢安然还是顶流

新华网|外交部发言人就俄罗斯总统普京倡议召开伊核问题视频峰会答记者问

利润：利润可达40%，一斤80元，市场供不应求，了解一下

灰科技|鸿蒙OS何时能用在手机上？余承东称明年会有

教育部：教育部“重磅”通知，这一高考后路被堵死，将有无数考生无学可上

吃蛏干上火吗？蛏干的营养价值有哪些?

高温|今年的雨异常偏多？不，这些地方还在“求”下雨

如果有课表，能溜进中科学院大学听课吗

何药师健康科普|地平类药，不仅降血压，还抗心肌缺血，抗动脉粥样硬化，保护肾脏

明朝胡惟庸和刘伯温谁先死的?胡惟庸与刘伯温的关系

饮水机|饮水机里的水到底有多脏？很多人都不知道

时尚范刊达人|街拍：打扮的很少女的少妇，下地干活的时候不含糊！

家族战队|隔壁小孩问wifi密码后，他家手机电视全用上，聪明宝妈用了这妙招

龙珠|DNF：26号全新商城分析，魔盒“三次觉醒”！龙珠却埋着坑