通用搜索引擎背后的技术点


通用搜索引擎背后的技术点

文章插图
来源 | 后端技术指南针
头图 | 图虫
通用搜索引擎背后的技术点

文章插图
 
写在前面今天准备和盆友们一起学习下关于通用搜索引擎的一些技术点 。
鉴于搜索引擎内容非常多,每一部分都够写好几篇文章的所以本文只是抛砖引玉,深入挖掘还得老铁们亲力亲为 。
通过本文你将对通用搜索引擎的基本原理和组成有一个较为清晰的认识,用心读完,肯定有所收获!
废话不说,各位抓紧上车,冲鸭!
通用搜索引擎背后的技术点

文章插图
 
初识搜索引擎 
2.1 搜索引擎分类搜索引擎根据其使用场景和规模,可以简单分为两大类:
  • 通用搜索引擎
通用搜索又称为大搜,诸如谷歌、百度、搜狗、神马等等都属于这一类 。
通用搜索引擎背后的技术点

文章插图
  • 垂直搜索引擎
垂直搜索又称为垂搜,是特定领域的搜索,比如用QQ音乐搜周杰伦的歌等 。
通用搜索引擎背后的技术点

文章插图
两类搜索引擎虽然数据规模和数据特征不一样,但都是为了填平用户和海量信息之间的鸿沟 。
通用搜索引擎背后的技术点

文章插图
 
2.2 搜索和推荐搜索和推荐经常被相提并论,但是二者存在一些区别和联系 。
  • 共同点
    宏观上来说,搜索和推荐都是为了解决用户和信息之间的隔离问题,给用户有用的/需要的/喜欢的信息 。
  • 区别点
    搜索一般是用户主动触发,按照自己的意图进行检索,推荐一般是系统主动推送,让用户看到可能感兴趣的信息 。

通用搜索引擎背后的技术点

文章插图
 
2.3 搜索引擎评价标准我们每天都和搜索引擎打交道,评价一个搜索引擎的好坏可简单概括为:精准性、时效性、响应速度、权威性等 。
换句话说,搜索引擎懂得用户真正想要找什么,可以快速准确地展示出来,对于一些热点突发信息也可以及时收录展示,就能很好地博得用户 。
这个目标需要搜索引擎多个模块协作处理,是个复杂的系统工程,并非易事 。
通用搜索引擎背后的技术点

文章插图
 
通用搜索引擎的整体概览 
3.1 搜索引擎的基本流程大白尝试用朴实的语言来整体表达下,通用搜索引擎大致是怎么工作的:
1. 网络蜘蛛爬虫每天不辞辛苦地收录网页,然后存储起来,这样各个站点的页面就有了一份份镜像,这个规模是百亿/千亿级的 。
通用搜索引擎背后的技术点

文章插图
2. 单纯地镜像也不能直接用,需要加工处理,把一个个网页进行分词,建立搜索词和网页的对应关系,这样用户搜索某个东西时,才会拿到很多相关的网页 。
通用搜索引擎背后的技术点

文章插图
3. 比如"搜索隐秘的角落"可能会有100个相关网页被找到,但是网页和检索词的关联性肯定有强有弱,因此还需要进行网页的排序,排序策略有很多,最终把优质的网页排在前面展示给用户 。
通用搜索引擎背后的技术点

文章插图
用户看到相关结果之后,进行点击或者跳过,搜索引擎根据用户的相关动作进行调整,实现整个闭环过程 。
4. 为了能更好地理解用户的真实用途,需要进行检索词的意图理解、词条切分、同义词替换、语法纠错等处理,再根据这些检索词去获取数据,为用户找到心中所想的网页 。
比如检索词为"老鹰",可能是自然界的老鹰,也可能是NBA的一只球队:
通用搜索引擎背后的技术点

文章插图
 
3.2 搜索引擎的基本组成我们从整体简单看下基本组成以及各个模块的主要功能:
通用搜索引擎背后的技术点

文章插图