一个爬虫的故事：这是人干的事儿？( 二 ) 爬虫原理我是一个爬虫

为了拿到数据，我只好也学着去请求这些数据接口，不过因为这些网站都有API网关，会检查请求的Token或者Authorization之类的认证字段，再加上我不知道他们的接口参数格式，导致我经常拿不到数据。
到了最近两年，我拿到的网页HTML越来越简单了，在浏览器中丰富多彩的页面，一查看源代码竟然只有简单几行，真是见了鬼了！
终于有一天，一个前辈告诉我，现在流行单页应用SPA了，页面全都是在前端动态生成的，拿到的HTML根本没有价值。
文章插图
这简直欺人太甚了！
一不做二不休，我决定弄一个真正的浏览器进来，这个内嵌的浏览器没有界面，专门为我服务，嵌入到我的程序中，让他去真正的渲染网页，渲染完成后我再去取数据！
这是真正意义上模拟人类去访问网站了，再也不用模拟繁琐的数据接口访问，也不用担心单页应用，前端渲染就前端渲染，我再也不怕了！
验证码到后来，不知道是谁发明的，网站们纷纷用上了一种叫验证码的技术，给我们出了难题。
开始的验证码还算比较简单，一般都是些简单的数字、英文字符做了些变形，就像这样：
文章插图
圈子里很快有大佬教我们用文字识别技术OCR来自动识别这种验证码，我也折腾了一下，费了老大劲终于可以识别出来，准确率不敢说100% ， 99%还是有的。
不过没多久，这验证码就变得越来越复杂，什么汉字识别，物体识别，滑动解锁，一个比一个难，根本超出了我的理解范围，你瞧瞧下面这些验证码，这是人干的事儿吗？
文章插图
哎，这还真是人才能干的事，不是我们爬虫能干的~
如今，这些网站的反爬虫技术越来越先进，我们能发挥的空间被一步步挤压。
前段时间，有个愣头青爬虫把一家公司的服务器给爬崩溃了，把人家正常业务都弄停掉了，他还被抓了起来，现在监管越来越严，搞得大家人心惶惶。
内忧外患不断，不少爬虫兄弟失业的失业，转行的转行，爬虫这碗饭，真是越来越不好吃了。。。
作者：轩辕之风
来源：编程技术宇宙（ID：xuanyuancoding）

一个爬虫的故事：这是人干的事儿？( 二 )

推荐阅读

蒸鸡蛋冷水蒸还是开水

北方国际观察|俄军将赴当地军演，东地中海局势波澜再起：美取消对塞武器禁运后

祈门红茶种类,祈门红茶红盒装

大众日报|“绝不放过你”！张店公安第二部微电影“开机”

巴菲特@巴菲特的指标表明：美股还有一次深跌

舒淇|舒淇出道24年，体重不超100斤，坦言：想要减肥，4吃4不吃

星座小桔子|幸福爱情来临，7月姻缘美满，生活事业双丰收，此四大生肖

老民警带病坚持执勤16小时，输完液又上岗

少年一梦|摩托罗拉对讲机电池—安全、牢固、经久耐用

暖暖妈妈|网友酸了：吃防腐剂了吗？，“冻龄老爸”和女儿5到11岁合影走红

汉堡|汉堡王遭央视曝光后道歉：是我们管理的失误，将配合调查

【奇瑞】2020年6月汽车投诉排行榜，第一名是自主热门SUV！

庐山云雾茶的产地环境,喝庐山云雾茶的好处

四川一民警营救落水女孩时失联|四川一民警营救落水女孩时失联！期盼战友平安归来！

科技部通报九起论文造假案相关责任人已严肃处理

第一财经|正式就位！特朗普提名的第三位大法官最快今天投入工作

新氧美容微整形APP|想和刘敏涛一样50岁还能做摇滚女孩应该怎么做？

7款睡眠调理养生汤

莴笋炒辣椒的做法是什么？

搞笑奇葩菌▲伴娘付出了沉痛的代价，搞笑GIF：为了抢到捧花