JS逆向方法论-反爬虫的四种常见方式( 二 ) _爬虫

文章插图

认真观察后发现，每点击页面的的链接，它都会做一个“cl.gif”的请求，它看上去是下载一个gif图片，然而并不是。它请求时发送的参数非常多，而且这些参数都是当前页面的信息。比如包含了被点击的链接等等。
我们先来梳理一下它的逻辑。JS会响应链接被点击的事件，在打开链接前，先访问cl.gif，把当前的信息发送给服务器，然后再打开被点击的链接。服务器收到被点击链接的请求，会看看之前是不是已经通过cl.gif把对应信息发过来，如果发过来了就认为是合法的浏览器访问，给出正常的网页内容。
因为requests没有鼠标事件响应就没有访问cl.gif的过程就直接访问链接，服务器就拒绝服务。
明白了这个过程，我们不难拿出对策，几乎不需要研究JS内容（JS也有可能对被点击链接进行修改哦）就可以绕过这个反爬策略，无非是在访问链接前先访问一下cl.gif即可。关键是要研究cl.gif后的参数，把这些参数都带上就万事大吉啦。

结尾
爬虫和网站是一对冤家，相克相生。爬虫知道了反爬策略就可以做成响应的反-反爬策略；网站知道了爬虫的反-反爬策略就可以做一个“反-反-反爬”策略……道高一尺魔高一丈，两者的斗争也不会结束。

【JS逆向方法论-反爬虫的四种常见方式】

JS逆向方法论-反爬虫的四种常见方式( 二 )

推荐阅读

配置一台4500元左右的玩主流网友的台式机（最好能列出材料清单，以及建议从哪里买）谢了

中新经纬|百度涨5.14%，市值480.93亿美元

娱乐大家说说▲这几款合资SUV性价比不错，大空间高颜值还配四驱

财经作者陈琦与英特尔、英伟达云端必有一战，“千年老二”AMD的再度逆袭

该怎样告诉自己的父母他们的教育方式很糟糕

时尚萌主|再配上墨镜，简直帅呆了，唐嫣这件毛衣和短裙实在是太般配了

「美股研究社」星巴克股价高空坠落，投资者该买这张“特价入场券”么？

王杰|盘点港台华语流行乐坛消失的十大唱片公司上篇

美好历史|刘家天下还可以持续多少年？，如果没有三国最后由蜀国完成一统

格格巫育儿|坐月子30天的说法呢？两者区别在哪？，为什么有产褥期42天

|《信条》首批短评出炉，“特工出击”版预告曝光 9月4日内地上映

半月谈|一个村有101个扶贫公益岗？好举措不能变为昏招

国庆贺卡制作方法贺卡制作方法

TVB女星被62岁绯闻对象当众揽入怀，身家丰厚住半山豪宅养10万爱宠

【离婚】两个人在一起久了，没了新鲜感你会怎么做

江苏省最有可能撤县设区的三座城，有一座百强县最受欢迎

打扮|冬季也要好好打扮自己，毛衣+阔腿裤，只加温度不减风度

爸妈盒子|担心打扰邻居，在群里做预告，业主：开个直播？，宝爸准备打孩子

明星照片|章子怡黑白武术大片曝光光影叠加动作翩然刚劲

日本|菅义伟绝对优势当选日本新首相！民众哀叹：导弹马上要来了