Google 搜索引擎的工作原理,秘密原来都在这里

2020 年 9 月的某个清晨,美国北加州地区的民众一觉醒来,发现野火浓烟后的西海岸上空一片橙红 。这种像是从《银翼杀手》电影中走出来的景象,很多人在现实生活中可能从未见过 。

Google 搜索引擎的工作原理,秘密原来都在这里

文章插图
图:LA Times
到底发生了什么?
自然而然地,就像国内大多数网民会打开百度甚至知乎搜索答案一样,一时间加州人民也纷纷潮涌至 google,键入了类似「为什么天空是橙色的」这样的搜索关键字 —— 这些在搜索引擎眼里或许有点无厘头的问题,依然通过信息卡片、精选新闻资讯的方式得到了精准而及时的解答 。
Google 搜索引擎的工作原理,秘密原来都在这里

文章插图
当时的 Google 搜索页面
以上是 Google 不久前 分享的一个案例 。当我们将 Google 搜索引擎从上面这个事件中剥离出来仔细审视时,不少人应该都会心生疑窦:Google 是如何知道用户要搜什么的,为什么针对加州地区的当地资讯会排在页面顶部,其它地区的人搜索同样的问题会得到类似的答案吗,结果页面左侧的知识面板在这样的搜索中发挥了怎样的作用……
为了让你多了解一点这个世界上最受欢迎的搜索引擎,Google自 2018 年以来就开始陆续在 The Keyword 博客中分享关于 Google 搜索引擎的各种细节与原理 。如果你也有上面这些疑问,不妨跟随本文一起探究 Google 搜索引擎背后的秘密 。
搜索建议是怎么「蹦」出来的?每天我们都要和搜索引擎打交道,而每次使用 Google 搜索信息时,键入搜索关键字的同时搜索框下方都会不断「蹦」出各种各样根据已输入词汇扩展而来的搜索建议 。是此时的 Google「能掐会算」,早就知道了你心里的那点小心思吗?
这种「能掐会算」的背后是 Google 的一项名为自动填充(auto complete)的技术 。从我们录入开始,Google 就开始在搜索框的下方显示它所猜测的搜索关键字结果 。只要有任意一条「猜测」命中,我们就能快速完成输入 。
这种「猜测」(官方称为「预测」)其实是系统在不断使用我们键入的词汇进行联想查询,我们不断输入的同时,搜索框下方提示的文字内容也会根据「猜测」结果不断调整 。这其实也是为什么网络环境不太好的时候搜索建议可能会表现得反应迟滞甚至完全不会「蹦」出搜索建议的原因 。
为了提高这些搜索建议的命中率,Google 还会进一步引入相关因素来进行预测校准,进行搜索的用户所处的地理位置、当下的热门甚至用户所使用的设备……这些都会对自动填充生成的搜索建议产生影响 —— 当然了,很多人应该也知道,我们在 Google 上保存的搜索历史和各种搜索设置同样也会影响到具体的预测结果 。
Google 搜索引擎的工作原理,秘密原来都在这里

文章插图
搜索设置会影响搜索结果,但只是众多影响因素的一部分
举个例子,在 Google 搜索引擎使用率更高的欧美地区,Google 往往会根据搜索用户所处的地理位置预判他们使用的是英式英语还是美式英语,进而提供差异化的内容显示 —— 在英式英语的语境下「football」通常会是足球,而在美式英语下往往是橄榄球,Google 也会这么做;与之对应的,Google 还会在单词拼写上进行建议,比如根据搜索者的所在地区对「center」和「centre」的写法进行区分 。
Google 搜索引擎的工作原理,秘密原来都在这里

文章插图
注意观察图中位置与单词的拼写
由此其实也可以得出一个事实:每个人在 Google 中进行的每一次搜索都是高度个性化的,即便我们使用浏览器的隐私浏览模式排除个人搜索和浏览记录的干扰,实际搜索结果还是会根据其它因素进行调整 。
精选摘要:不用翻查、即问即答
我只是要找个答案而已,并不想点开网页 。
经常使用搜索引擎获取信息的人一定会有类似的想法,让他们养成这个习惯的原因之一,很有可能就是 Google 经常会在搜索结果页面上方直接生成的那个信息卡片 —— 直接、干脆,你问、它答 。
Google 搜索引擎的工作原理,秘密原来都在这里

文章插图
 
这个答案是怎么来的?
首先,这个卡片也有一个特定的名字:精选摘要(featured snippets),套用一句俗话,「生活就像水中的鸭子,表面上从容淡定,其实水底下在拼命划水」 。精选摘要的来源也是这样 —— 在我们键入、搜索的过程中,Google 表面上只是从容淡定地搜索、跳转,背后的零点几秒时间里,幕后其实也在「拼命划水」 。搜索系统算法会根据我们所搜索的问题检索一些相对具备权威性的高质量网站页面,然后从这些网站中提取关键内容来生成摘要,最后把这份摘要呈送到我们眼前,即上面所说的「精选摘要」 。


推荐阅读