网络爬虫同时需要考虑抓取频率 , 防止给站点造成过重负担 , 总之 , 搜索引擎的网络爬虫需要是个谦谦君子 。
5.2中文分词将清洗完成的内容进行分词提取关键词 , 比如一个网页内容有1000字 , 分词之后大约有50个词 , 相当于提取了网页的主干 , 并且会对标题、摘要、正文等不同部分的内容做不同权重处理 。
分词过程中会剔除停用词、虚词等 , 比如"的、得、地"等 , 从而极力还原网页的主干内容 。
我们用在线网页分词工具和真实网页来模拟下这个过程:
网页分词在线工具:
抓取网页:
基于字符串匹配的分词算法
基于概率统计的分词算法
基于语义规则的分词算法
其他算法
所谓正排就是根据docid可以拿到属于该网页的所有内容 , 是一个符合我们思维的正向过程 , 相对而言会有倒排索引 。
我们以一篇《隐秘的角落》剧情简介的页面为例 , 模拟分词情况 , 大致如下(本分词结果纯属脑补 , 以实际为准):
推荐阅读
-
ROG|80多万人预约!ROG游戏手机3即将发售:3999元起
-
【新型冠状病毒肺炎】面对求助,她陪同就医还送上500元钱——不
-
-
-
-
父母(主要是老妈)把我的房间搞得很丑 搞得我现在住得很难受,求问怎样改造
-
3DMGAME|未来游戏展:实时战术潜行游戏《疯狂之石》预告发布
-
美军■美军双航母来我家门口秀肌肉!美媒:美国需要承认中国的影响力!
-
韩红迎战!被实名举报吞善款、贪污上亿?首次回应网友炸锅了
-
-
「日本」全球变暖有多严重?我国这2处地方不断下沉,可能比日本还要危险
-
天玑9000|ROG全球首发联发科天玑9000+满血灰烬版:CPU高达3.35GHz
-
「驱动之家」14s/15s新品命名:尺寸与系列更好分辨,联想详解Yoga
-
梦幻西游手游|真的值千万金币吗?,梦幻西游手游:玩家打出70级极品简易衣服
-
-
中国经济网-《经济日报》|重庆:“半份菜”让顾客吃好不浪费
-
孩子喜欢扔东西,如何引导?孩子不肯收拾玩具-其实你只需要做好这几件事
-
城市汽车|宋MAX升级版呵护冬季出行健康安全,硬核操作不得不服
-
潮流新风|40岁+女人别乱扮嫩,学宁静的减龄穿搭法,48岁也能美成28
-
皇家马德里■2004年,奥尼尔被湖人拿出来交易,当时联盟各队报价如何?