能详细的描述一下,百度赖以识别伪原创的信息指纹技术吗
网络上的所有文档都有一个所谓的数字指纹,它的原理,即是通过剔除本文档和文档集(网站)出现频率最高的词,以及通用的词(如"的","那"),而后比对文档和百度自身索引的类似文档的相似度,这种算法叫作I-Match算法。另外还有一种算法叫作Shingle,太复杂,不在这里解释。
■网友
不存在的东西,没法详细描述。伪原创本来就是个假概念,指纹就是一个更假的概念。
■网友
百度原创、伪原创和google相比差的太远了,好的排名都是大战权重高的站点转载
推荐阅读
- 端口到底是啥概念和ip之间有啥关系能形象+抽象的从技术角度描述一下吗
- 新车评网|刷脸开锁还能唱K?欧尚X5车载系统功能详解
- 怎样向不懂编程的人描述某一段代码的“优美”?
- 王者荣耀选人阶段退出会是啥后果
- USB声卡为何死机,怎样解决?
- 如果价值不菲的网络游戏装备被盗,可以通过啥详细的法律手段来维护自己的权益
- 求尽量详细的主流云服务器体验或者评测
- 怎样优化至百毫秒级别或更快
- 上帝为啥要创造这个世界
- 能否用程序代码描述数学概念