微信|就因为微信误删了几行字公众号文章能被别家搜到了？公众号|搜索|就因为微信误删了

前天世超看到一个帖子说，在 Google 和 Bing 能搜到微信公众号的文章了。
呸，怎么可能。
世超一边不信，一边赶紧拿 Google 测试了一下，发现差评的文章确实有被收录进去。

文章图片
嚯，要这样下去，在百度里搜微信文章是不是也快了？
想必除了世超，很多网友应该都挺期待这件事的。毕竟有时候搜资料，在百度和微信之间切来切去还挺麻烦的。
谁想到世超还没乐呵够，腾讯马上就辟谣了：
是公众号的 robots 协议出现漏洞，让搜索平台的爬虫爬到了，现在已经修复了。
嗐，搞半天白高兴一场。
不过，今天世超还是想就这个 robots 协议和大家探讨一下。
因为说起来你可能不信，我们在百度里前搜不到公众号文章，后搜不到淘宝商品，都是因为 robots 协议。
robots 协议其实很简单，就是一个放在网站根目录的文本，它写明了搜索引擎可以/不可以收录哪些信息。
微信公众号的 robots 协议 ▼

文章图片
有人可能会说，原来就是这几行字害得互联网不能互联了？不不，这锅 robots 协议可不背。
robots 协议原本只是帮助搜索引擎更高效地收录信息，只不过现在人们用着用着逐渐变了味。
这事还得从上世纪 90 年代初期说起。
在搜索引擎诞生之前，人们要查资料，只能一个个进入相关网页，效率非常低下。
后来有了搜索引擎，搜索引擎通过释放网络爬虫（也可以叫蜘蛛），抓取各个网页里的信息，并把这些信息收录起来供大家查询，这才极大提高了人们的效率。
但是，那会爬虫就跟小黑胖一样，抓取信息来完全不挑食。
不管是没用的垃圾信息，还是网站重要的内部数据，不分青红皂白地一顿乱抓，全都要。

文章图片
这种粗暴的抓法不仅降低了用户搜到有用信息的效率，还会让网页的重要数据泄露，服务器过载无法运行。
所以在 1994 年初，荷兰有位网络工程师提出了 robots 协议。
就好比宾馆房间门上挂着的“ 请勿打扰 ”，“ 欢迎打扫 ”牌子，告诉阿姨哪些房间是可以打扫的。
每个网站的根目录下也摆着一份 robots 协议，协议里告诉爬虫：哪些东西你可以抓，哪些东西你不能抓。
虽说这个 robots 协议目前还没被任何国际组织采纳，没有制约性，只能算个君子协议：你不听，就不是个正人君子。
但它毕竟为了帮助搜索爬虫更有效地抓取对用户有用的信息，更好促进信息共享。所以在国外不管是早期的 altavista 还是后来的 Google 、必应，大家也都遵守着这一套协议。同样 2012 年 11 月中国互联网协会发布了《互联网搜索引擎服务自律公约》，也规定了：搜索引擎要遵守网站的 robots 协议，但前提是这个 robots 协议是合理的。

文章图片
这个公约对 12 家发起单位生效，成员包括百度、腾讯、奇虎 360、搜狗、网易、新浪等。图源百度百科 ▼

文章图片
如今绝大多数搜索引擎的爬虫在访问网站时，第一件事就先读下网站的 robots 协议。在了解哪些信息是可以抓取之后，才会行动。比如淘宝的 robots 协议，虽然只有简单的 4 行字，但写明了：百度爬虫（ Baiduspider ）不允许（ Disallow ）抓取任何内容（ / ）。百度爬虫过来看到协议后，就算心里难受，也只能啥也不碰马上离开。

文章图片
那可能有人说，这既然是君子协议，会不会有人不当“ 君子 ”呢？当然有，robots 协议只相当于一个告知书，爬虫（背后的人）可以不听你的。和大家说两个违背 robots 协议的例子。第一个例子是 BE 和 eBay 的纠纷。
BE 是一个提供拍卖信息的聚合网站。它利用爬虫抓取 eBay 等拍卖网站的商品信息，然后放在自己网站上赚取流量。尽管 eBay 早已写好了 robots 协议，告诉 BE 爬虫不准抓取任何内容。但 BE 认为这类拍卖信息都是大众上传的，eBay 设置 robots 协议不让自己抓取，不合理啊。

微信|就因为微信误删了几行字公众号文章能被别家搜到了？

推荐阅读

【杜润旺】宏远新招数！杜润旺沦为“备胎”？其实他已经是人生赢家

北京寄东西回重庆，快递哪家划算

|英囤积者家中堆满6万件物品，大部分为未拆快递，自己被迫住旅馆

#综合#法国教育部长：我们流失了5%至8%的学生

王者荣耀|王者荣耀：已经出了5款周年限定，原始高清海报一览，这个共同点最良心

柠檬蜂蜜茶|夏天首饰别乱戴！建议这3种款式，洋气有面子，?女人过了40岁

立春节气推荐三款养生汤

脱口秀演员卡姆容留他人吸毒被判有期徒刑8个月

鲤鱼|弄明白这几句话，野钓找鱼窝，简直易如反掌

穿搭|清新可人的比基尼泳衣美女，轻松拥有优美曲线，尽显甜美洋气感！

井柏然|井柏然宋威龙露营：看成了官宣恋情

中国首枚芯片邮票面世

【钱甜圈】可以影响世界的美联储为什么那么牛

该怎样来修剪才比较好？枣树修剪

八年级数学一次函数的应用一次函数的应用

骁龙898|安卓阵营跑分王预定！骁龙8 Gen1跑分破百万稳了

几许狼烟|留下巨大弹坑，亚美尼亚动用最强导弹袭击阿塞拜疆第二大城市：民居楼被摧毁

国民乐见晚上俺翻来覆去睡不着，开心笑话：昨天男友突然被公司派去出差

华纳|华纳发布《信条》港台版海报

人社部|人社部：行业协会商会证书不能使用“中国”、“中华”等字样

微信|就因为微信误删了几行字 公众号文章能被别家搜到了？

推荐阅读

微信|就因为微信误删了几行字公众号文章能被别家搜到了？