光一样的少年|| 通用搜索引擎背后的技术点,图解( 二 )
比如检索词为"老鹰" , 可能是自然界的老鹰 , 也可能是NBA的一只球队:
内容处理模块
负责将网络爬虫下载的页面进行内容解析、内容清洗、主体抽取、建立索引、链接分析、反作弊等环节 。
内容存储模块
存储模块是搜索引擎的坚强后盾 , 将抓取的原始网页、处理后的中间结果等等进行存储 , 这个存储规模也是非常大的 , 可能需要几万台机器 。
用户解析模块
用户模块负责接收用户的查询词、分词、同义词转换、语义理解等等 , 去揣摩用户的真实意图、查询重点才能返回正确的结果 。
内容排序模块
结合用户模块解析的查询词和内容索引生成用户查询结果 , 并对页面进行排序 , 是搜索引擎比较核心的部分 。
接下来 , 我们将粗浅地介绍几个模块的基本内容和技术点 。
读取待抓取URL获取地址进行下载
将下载的网页内容进行解析 , 将网页存储到hbase/hdfs等 , 并提取网页中存在的其他URL
发掘到新的URL进行去重 , 如果是未抓取的则放到抓取队列中
直到待抓取URL队列为空 , 完成本轮抓取
在抓取过程中会有多种遍历策略:深度优先遍历DFS、广度优先遍历BFS、部分PageRank策略、OPIC在线页面重要性计算策略、大站优先策略等 。
推荐阅读
- 科技日日说|realme真我X7全方位评测:不一样的颜值,不一样的体验!,原创
- 少年帮|纯国产“龙芯”即将来临,正式确认?中科院宣布决定
- 功夫财经|猪肉也被人卡脖子了,种猪大危机:和芯片一样
- 就是爱搞机|嫌你家音箱外观太单调?哈曼卡顿给你不一样的视觉冲击感
- 韭菜花音乐|PC一样强大,数字化验孕仪性能几乎和最初的IBM
- 理想生活实验室资讯号|S7 开箱体验:机身轻便,设计和拍摄表现一样干净友好,vivo
- 柠檬少年|一加8pro的使用开箱及初体验
- 光一样的少年|必须试试,受够了电脑弹窗广告的你
- 基因|美国发现一只基因变异的猩猩,手指已和人类一样,还能够持续进化
- 老虎|谁说只有老虎的头上才有王字,这种动物也有,而且和老虎一样凶猛