能详细的描述一下,百度赖以识别伪原创的信息指纹技术吗

网络上的所有文档都有一个所谓的数字指纹,它的原理,即是通过剔除本文档和文档集(网站)出现频率最高的词,以及通用的词(如"的","那"),而后比对文档和百度自身索引的类似文档的相似度,这种算法叫作I-Match算法。另外还有一种算法叫作Shingle,太复杂,不在这里解释。
■网友
不存在的东西,没法详细描述。伪原创本来就是个假概念,指纹就是一个更假的概念。
■网友
百度原创、伪原创和google相比差的太远了,好的排名都是大战权重高的站点转载


    推荐阅读