搜索引擎优化的原理是什么,简述搜索引擎工作流程

搜索引擎
抓取内容之后会收录至数据库中,当用户进行检索搜索引擎会将收录的内容呈现给用户,为了快速的将内容呈现给用户,搜索引擎需要对已经抓取到的内容进行处理,只留下重点信息,这样能够在用户发起检索的时候快速的将所需内容呈现出来 。
那么搜索引擎处理蜘蛛抓取的页面主要有四个步骤 。
首先,判断页面的页面类型 。
判断页面是正常的普通网页还是PDF等特殊文档 。普通网页可以区分是论坛、普通文章还是视频,以便后期更快速的呈现给用户 。
第二,提取网页的文本信息 。
站长们都知道搜索引擎无法识别JavaScript、Flash、图片、视频等内容 。尽管他们一直在试图识别这些信息,但他们仍然更多地依赖于从网页中提取TDK来进行识别 。虽然关键词标签已经被主流搜索引擎抛弃,但还是会有一定的借鉴意义 。
第三,去除页面噪音 。
之前有两三篇文章提到了页面信噪比(SNR)的问题,SNR是页面的主题内容与干扰信息的比值 。搜索引擎会去除各种与页面无关的信息,如广告、导航、链接等,提取页面的主要内容 。相关搜索在一定程度上也会被算作这个页面的内容,所以更好的利用思想搜索不仅可以提高页面的质量,还可以增加与用户搜索的匹配度 。
第四,删除页面内容停用词 。
【搜索引擎优化的原理是什么,简述搜索引擎工作流程】去除页面停用词实际上是搜索引擎的分词处理 。今天主要讲的是停用词,即页面中的“的”、“啊”等词,以减少搜索引擎的计算量 。


    推荐阅读