为何大量网站不能抓取？爬虫突破封禁的6种常见方法( 六 ) _网站不能抓取

设置好计算实例之后，你就有了新 IP 地址、用户名，以及可以通过 SSH 进行实例连接的公私密钥了。后面要做的每件事情，都应该和你在实体服务器上干的事情一样了——当然，你不需要再担心硬件维护，也不用运行复杂多余的监控工具了。
总结
爬虫被封禁常见原因列表
如果你一直被网站封杀却找不到原因，那么这里有个检查列表，可以帮你诊断一下问题出在哪里。
首先，检查 JavaScript。如果你从网络服务器收到的页面是空白的，缺少信息，或其遇到他不符合你预期的情况（或者不是你在浏览器上看到的内容），有可能是因为网站创建页面的 JavaScript 执行有问题。
检查正常浏览器提交的参数。如果你准备向网站提交表单或发出 POST 请求，记得检查一下页面的内容，看看你想提交的每个字段是不是都已经填好，而且格式也正确。用 Chrome 浏览器的网络面板（快捷键 F12 打开开发者控制台，然后点击“Network”即可看到）查看发送到网站的 POST 命令，确认你的每个参数都是正确的。
是否有合法的 Cookie？如果你已经登录网站却不能保持登录状态，或者网站上出现了其他的“登录状态”异常，请检查你的 cookie 。确认在加载每个页面时 cookie 都被正确调用，而且你的 cookie 在每次发起请求时都发送到了网站上。
IP 被封禁？如果你在客户端遇到了 HTTP 错误，尤其是 403 禁止访问错误，这可能说明网站已经把你的 IP 当作机器人了，不再接受你的任何请求。你要么等待你的 IP 地址从网站黑名单里移除，要么就换个 IP 地址（可以去星巴克上网）。如果你确定自己并没有被封杀，那么再检查下面的内容。
确认你的爬虫在网站上的速度不是特别快。快速采集是一种恶习，会对网管的服务器造成沉重的负担，还会让你陷入违法境地，也是 IP 被网站列入黑名单的首要原因。给你的爬虫增加延迟，让它们在夜深人静的时候运行。切记：匆匆忙忙写程序或收集数据都是拙劣项目管理的表现；应该提前做好计划，避免临阵慌乱。
还有一件必须做的事情：修改你的请求头！有些网站会封杀任何声称自己是爬虫的访问者。如果你不确定请求头的值怎样才算合适，就用你自己浏览器的请求头吧。
确认你没有点击或访问任何人类用户通常不能点击或接入的信息。
如果你用了一大堆复杂的手段才接入网站，考虑联系一下网管吧，告诉他们你的目的。试试发邮件到 webmaster@< 域名 > 或 admin@< 域名 >，请求网管允许你使用爬虫采集数据。管理员也是人嘛！

为何大量网站不能抓取？爬虫突破封禁的6种常见方法( 六 )

推荐阅读

TVB女星被62岁绯闻对象当众揽入怀，身家丰厚住半山豪宅养10万爱宠

打扮|冬季也要好好打扮自己，毛衣+阔腿裤，只加温度不减风度

中新经纬|百度涨5.14%，市值480.93亿美元

娱乐大家说说▲这几款合资SUV性价比不错，大空间高颜值还配四驱

国庆贺卡制作方法贺卡制作方法

|《信条》首批短评出炉，“特工出击”版预告曝光 9月4日内地上映

半月谈|一个村有101个扶贫公益岗？好举措不能变为昏招

【离婚】两个人在一起久了，没了新鲜感你会怎么做

日本|菅义伟绝对优势当选日本新首相！民众哀叹：导弹马上要来了

王杰|盘点港台华语流行乐坛消失的十大唱片公司上篇

格格巫育儿|坐月子30天的说法呢？两者区别在哪？，为什么有产褥期42天

财经作者陈琦与英特尔、英伟达云端必有一战，“千年老二”AMD的再度逆袭

美好历史|刘家天下还可以持续多少年？，如果没有三国最后由蜀国完成一统

配置一台4500元左右的玩主流网友的台式机（最好能列出材料清单，以及建议从哪里买）谢了

「美股研究社」星巴克股价高空坠落，投资者该买这张“特价入场券”么？

明星照片|章子怡黑白武术大片曝光光影叠加动作翩然刚劲

时尚萌主|再配上墨镜，简直帅呆了，唐嫣这件毛衣和短裙实在是太般配了

江苏省最有可能撤县设区的三座城，有一座百强县最受欢迎

该怎样告诉自己的父母他们的教育方式很糟糕

爸妈盒子|担心打扰邻居，在群里做预告，业主：开个直播？，宝爸准备打孩子