揭秘百度是如何抓取你网站的 百度蜘蛛抓取规律和原理

经常听到站长问,百度蜘蛛
是什么?最近百度(全球最大的中文搜索引擎)
蜘蛛来的太频繁服务器抓爆了,最近百度蜘蛛都不来了怎么办,还有很多站点想得到百度蜘蛛的IP段,想把IP加入白名单,但IP不固定,我们无法对外公布 。
怎样才能识别出正确的百度蜘蛛?来,来,就两步教你如何正确识别百度蜘蛛 。
1.检查UA 。如果UA都不正确,可以直接判断不是百度搜索到的蜘蛛 。目前已经向公众公布的UA是:
移动UA:Mozilla/5.0(Linux;u;安卓4 . 2 . 2;zh-cn;)AppleWebKit/534.46 (KHTML,likeGecko)版本/5.1手机Safari/10600.6.3(兼容;baiduspider/2.0;+http://www . Baidu . com/search/spider . html)
【揭秘百度是如何抓取你网站的 百度蜘蛛抓取规律和原理】PC UA:Mozilla/5.0(兼容;baiduspider/2.0;+http://www . Baidu . com/search/spider . html)
添加渲染UA:
手机UA:UA:Mozilla/5.0(iPhone;CPU iPhone OS 9 _ 1 like MAC OS X)apple WebKit/601 . 1 . 46(KHTML,like Gecko)版本/9.0 Mobile/13B143Safari/601.1(兼容;baiduspider-render/2.0;+http://www . Baidu . com/search/spider . html)
PC UA:Mozilla/5.0(兼容;baiduspider-render/2.0;+http://www . Baidu . com/search/spider . html)
2.反向IP检查
站长可以通过DNS查IP来判断一个蜘蛛是否来自百度搜索引擎 。根据linux/windows/os等不同平台上验证方法的不同,验证方法如下:
1)、在linux平台下,可以使用主机ip命令对ip进行解码,判断是否来自Baiduspider的抓取 。Baiduspider的主机名以*.baidu.com或*.baidu.jp的格式命名,如果不是*.baidu.com或* .baidu.jp,就是冒名顶替 。
2)在windows平台或IBM OS/2平台下,可以使用nslookup ip命令解析ip来确定是否来自Baiduspider 。打开命令处理器,输入nslookupxxx.xxx.xxx (ip地址)解析ip,从而确定是否被Baiduspider抓取 。Baiduspider的主机名以*.baidu.com或者*.baidu.jp的格式命名,如果不是*.baidu.com或者* .baidu.jp就是冒名顶替 。
3)在mac os平台下,可以使用dig命令解析ip来判断是否来自Baiduspider 。打开命令处理器,输入dig xxx.xxx.xxx.xxx(ip地址)解析ip,确定是否被Baiduspider抓取 。Baiduspider的主机名以*.baidu.com或者*.baidu.jp的格式命名,如果不是*.baidu.com或者* .baidu.jp就是冒名顶替 。


    推荐阅读