光一样的少年|| 通用搜索引擎背后的技术点,图解( 五 )


与PageRank算法类似于的还有一些其他算法来弥补主题关联问题 , 包括:HillTop算法、Topic-SensitivePageRank算法、HITS算法等 , 本文就不再展开了 。
6.3网页反作弊和SEO搜索引擎也存在二八原则 , 头部的网页占据了大量的点击流量 , 也意味着巨大的商业价值 。
这里就要提到SEO , 先看下百度百科对SEO的定义:
搜索引擎优化又称为SEO , 即SearchEngineOptimization , 它是一种通过分析搜索引擎的排名规律 , 了解各种搜索引擎怎样进行搜索、怎样抓取互联网页面、怎样确定特定关键词的搜索结果排名的技术 。
搜索引擎采用易于被搜索引用的手段 , 对网站进行有针对性的优化 , 提高网站在搜索引擎中的自然排名 , 吸引更多的用户访问网站 , 提高网站的访问量 , 提高网站的销售能力和宣传能力 , 从而提升网站的品牌效应 。
道高一尺魔高一丈 , 只有魔法可以打败魔法 。
比如在网页内容中增加大量重复热词、在标题/摘要等重要位置增加热度词、html标签作弊等等 , 比如在一篇主题无联系的网页中增加大量"隐秘的角落"热度词、增加等强调性html标签 。
链接分析作弊
构建大量相互引用的页面集合、购买高排名友链等等 , 就是搞很多可以指向自己网页的其他网页 , 从而构成一个作弊引用链条 。
6.4用户搜索意图理解用户模块直接和用户交互 , 接收用户的搜索词 , 准确理解用户的搜索意图非常重要 。
实际上用户的输入是五花八门的 , 偏口语化 , 甚至有拼写错误、并且不同背景的用户对同一个检索词的需求不一样、无争议检索词的使用目的也不一样 。
这个检索词算是比较优质了 , 但是仍然不明确是想找饭店去吃宫保鸡丁?还是想找宫保鸡丁的菜谱?还是想查宫保鸡丁的历史起源?还是宫保鸡丁的相关评价?所以会出现很多情况 。
检索词为:你说我中午迟点啥呢?
口语化检索词并且存在错别字 , 其中可能涉及词语纠错、同义词转换等等 , 才能找到准确的检索词 , 进而明确检索意图 , 召回网页 。
搜索引擎中每一个模块做好都不容易 , 也是互联网产品中技术含金量的典型代表 , 深挖一个模块都受益匪浅 。


推荐阅读