SE在建立索引之前会对抓取回来的数据消噪,去重。去重过程会否会将一些网站的正面因素考虑进去呢(比如PR,页面更新频率等正面因素)

【SE在建立索引之前会对抓取回来的数据消噪,去重。去重过程会否会将一些网站的正面因素考虑进去呢(比如PR,页面更新频率等正面因素)】 无数案例证明,在搜索引擎收录和预处理的过程中,是肯定存在类似“去重”这一步的,而且,去谁留谁,主要看网站的信任度及历史表现,也可以理解为权重,例如,一条同样的娱乐新闻,大家都是转载的,内容基本一样,最后一些大的新闻门户会留下,小网站的会被清除,或者可以理解为大网站的都被收录,而小网站的就没有收录,再或者,小网站的虽然被收录了,但是搜标题根本搜不到,排前面的都是些大网站,这就充分说明了收录、预处理、还有排名过程中,处处都存在着“重重过滤”,你说是去重也可以,而所谓“去重”的标准,也正是你所说的那些,这些标准是很有道理的,但对于新站来说,也难免有些“莫须有”。

■网友
你可以看看这篇文章 浅谈互联网页面价值 http://www.chinaz.com/web/2011/0608/186736.shtml (百度搜索研发部官方博客以前的一片文章)
■网友
我想你说的正面因素我理解为信任指数,google会将trustrank融入进去
■网友
除非你说的是URL去重,其他根据内容判断重复的工作貌似不重要,去不去的对最终结果影响不大所以我觉得SE不会去重,除非有特殊原因另外我不知道你们总说的"指纹"是什么,哈希值?谁的哈希值?
■网友
考虑页面质量、站点权威度。
■网友
PR只是影响的因素之一吧,毕竟PR高不代表该网站权重好,大网站网页转载普遍收录会比小网站会好有绝大部分是因为其权重太高,SE很重视该网站造成的。


    推荐阅读