为什么搜索引擎可以搜索到那么多东西?

01搜索引擎的使用被称为& ldquo网络爬虫& rdquo抓取网页上的所有链接 。由于互联网的特点,大多数网页都可以通过其他页面的链接访问 。从有限的网页开始,网络爬虫可以访问大多数网页 。这样,搜索引擎可以收集大量的网页内容 。
如今,人们把越来越多的内容放在互联网上 。据估计,互联网上有数万亿个独立网页 。那么,如何从这些海量的内容中获取所需的信息呢?人们发明了互联网搜索引擎来解决这个问题 。我们知道,当用户在百度、谷歌或必应等搜索引擎中输入关键词时,会找到包含关键词的网页的链接,并按照一定的顺序呈现给用户 。那么,搜索引擎如何帮助我们在互联网上搜索信息呢?
一般来说,搜索引擎的工作大致分为三个部分 。第一部分叫做信息捕获 。搜索引擎的使用被称为& ldquo网络爬虫& rdquo抓取网页上的所有链接 。由于互联网的特点,大多数网页都可以通过其他页面的链接访问 。从理论上讲,从有限的网页中,网络爬虫可以访问大多数网页 。想象一下,我们可以把互联网想象成一个巨大的蜘蛛网,交叉点就是一个网页,交叉点之间的蜘蛛丝就是一个链接,爬虫可以从一个交叉点开始,跟随蜘蛛丝到达任何一个交叉点 。
找到网页后,搜索引擎将开始其工作的第二部分:建立索引 。简单来说,就是搜索引擎从Web页面中提取关键词,按照一定的规则将页面信息甚至整个页面内容保存在自己的数据库中 。这样做的目的是为了尽快找到信息 。如果搜索引擎只是不规则地存储页面,那么每次都会遍历所有存储的信息,这样就会失去搜索引擎的意义 。例如,如果搜索引擎想要索引介绍漫画《西游记》的页面,那么& ldquo孙武空& rdquo;& ldquo《西游记》;& ldquo唐僧& rdquo& ldquo吴承恩;像这样的单词通常会成为页面索引的一部分 。值得一提的是,由于中文的特殊性(英文以单词为单位,单词之间用空分隔,而中文以单词为单位,单词之间没有明显的分隔),在提取关键词之前,通常会对页面进行分段 。
【为什么搜索引擎可以搜索到那么多东西?】完成前两部分后,搜索引擎可以为用户提供搜索服务 。搜索引擎获取用户输入的关键词,搜索自己的数据库,并将显示的搜索结果页面显示给用户 。例如,我们搜索& ldquo孙武空& rdquo;索引建立后,漫画《西游记》的页面特征已经存储在数据库中,可以通过& ldquo孙武空& rdquo;索引,并将此页面的链接返回给用户 。此外,返回的结果还包括其他结果,例如漫画《西游记》的页面、《西游记》一书的页面等等 。


    推荐阅读