通用搜索引擎背后的技术点( 四 )


另外网页B越重要,它所引用的页面能分配到的PageRank值就越多,网页A的PageRank值也就越高越重要 。
其实这个算法说起来非常简单:比如写公众号,有大V转载就相当于引用了,越多其他公众号转载,说明你的公众号内容质量越高 。

通用搜索引擎背后的技术点

文章插图
PageRank算法也存在一定的问题,比如对新页面不友好,新页面暂时没有被大量引用,因此PageRank值很低,并且PageRank算法强调网页之间的引用关系,对网页本身的主题内容可能重视程度不够,也就是所谓的主题漂流问题 。
与PageRank算法类似于的还有一些其他算法来弥补主题关联问题,包括:HillTop算法、Topic-Sensitive PageRank算法、HITS算法等,本文就不再展开了 。
 
6.3 网页反作弊和seo搜索引擎也存在二八原则,头部的网页占据了大量的点击流量,也意味着巨大的商业价值 。
这里就要提到SEO,先看下百度百科对SEO的定义:
搜索引擎优化又称为SEO,即Search Engine Optimization,它是一种通过分析搜索引擎的排名规律,了解各种搜索引擎怎样进行搜索、怎样抓取互联网页面、怎样确定特定关键词的搜索结果排名的技术 。
搜索引擎采用易于被搜索引用的手段,对网站进行有针对性的优化,提高网站在搜索引擎中的自然排名,吸引更多的用户访问网站,提高网站的访问量,提高网站的销售能力和宣传能力,从而提升网站的品牌效应 。
道高一尺魔高一丈,只有魔法可以打败魔法 。
通用搜索引擎背后的技术点

文章插图
网页反作弊是搜索引擎需要解决的重要问题,常见的有内容反作弊、链接分析反作弊等 。
通用搜索引擎背后的技术点

文章插图
  • 网页内容作弊
    比如在网页内容中增加大量重复热词、在标题/摘要等重要位置增加热度词、html标签作弊等等,比如在一篇主题无联系的网页中增加大量"隐秘的角落"热度词、增加<strong> 等强调性html标签 。
  • 链接分析作弊
    构建大量相互引用的页面集合、购买高排名友链等等,就是搞很多可以指向自己网页的其他网页,从而构成一个作弊引用链条 。
 
6.4 用户搜索意图理解用户模块直接和用户交互,接收用户的搜索词,准确理解用户的搜索意图非常重要 。
实际上用户的输入是五花八门的,偏口语化,甚至有拼写错误、并且不同背景的用户对同一个检索词的需求不一样、无争议检索词的使用目的也不一样 。
通用搜索引擎背后的技术点

文章插图
  • 检索词为:美食宫保鸡丁
    这个检索词算是比较优质了,但是仍然不明确是想找饭店去吃宫保鸡丁?还是想找宫保鸡丁的菜谱?还是想查宫保鸡丁的历史起源?还是宫保鸡丁的相关评价?所以会出现很多情况 。
  • 检索词为:你说我中午迟点啥呢?
    口语化检索词并且存在错别字,其中可能涉及词语纠错、同义词转换等等,才能找到准确的检索词,进而明确检索意图,召回网页 。

通用搜索引擎背后的技术点

文章插图
 
全文总结搜索引擎是个非常复杂的系统工程,涉及非常多的算法和工程实现,本文旨在和大家一起简单梳理搜索引擎的基本组成和运行原理,算是科普文章了 。
搜索引擎中每一个模块做好都不容易,也是互联网产品中技术含金量的典型代表,深挖一个模块都受益匪浅 。




推荐阅读