Google 搜索引擎的工作原理,秘密原来都在这里( 二 )


然而算法毕竟是算法,也会有阴沟翻船的时候,其中最著名的例子莫过于「古罗马人夜间如何计时」这个问题,最初 Google 给出的答案是:

日晷 。罗马人最初使用日晷来测量时间流逝 。通过这种方法他们不仅可以相对准确地获取日出、日落和正午时间,还能根据日影长度估算一天中的其它时刻 。日晷这种新工具的引入给了罗马人一种更好的测量时间的方法……
那么夜间没有太阳如何用日晷计时呢?Google 的精选摘要那时也不知道 。是不是有点你学生时代答非所问但一定要把试题纸写满的味道了……
知识图谱:强力的信息补充上面我们已经了解了「精选摘要」,也见识了它的「胡说八道」,那当我们意识到精选摘要似乎在「乱侃」的时候怎么办?或者这个搜索页面根本就没有精选摘要……
你可能已经有这个习惯了:向右看 。页面右侧可能会出现一个知识面板,它包含了当前搜索话题相关的知识信息,没准也能在你的搜索中派上用场 。这个知识面板(Knowledge Panel)与早年 Google 精心搭建的知识图谱(Knowledge Graph)体系密切相关 。
Google 搜索引擎的工作原理,秘密原来都在这里

文章插图
图片来自于维基百科
简单来说,知识图谱是一个由各种不同页面、不同来源的信息构成的小「知识库」,根据话题的不同,Google 通过语义算法自动整理、归纳不同内容的相关信息,这些信息同时会随着原始来源页面的变化而自动更新 。
因此当我们在搜索人物、地点、组织等信息的时候,知识面板可以直接将相关内容汇总为一张知识面板放在搜索页面右侧 。目前这个面板中所收纳的内容已经相当丰富了,以 Apple 的知识面板为例,我们可以直接在知识面板中找到 Apple 这家公司的基本信息介绍、股价信息、业务范围、售后电话、社交账户页面、热门产品甚至换电池业务页面……比起跳转到某个互联网犄角旮旯里才能找到官网的体验来说这样的知识面板能够大幅提高话题信息的检索效率 。
Google 搜索引擎的工作原理,秘密原来都在这里

文章插图
 
尽管知识面板偏居一隅,但是 Google 对它还挺上心的 。按照 Google 的说法,截至 2020 年 5 月,知识面板已经收集了约 50 亿个实体、超过 5000 亿个名词实例,说它是一本藏在 Google 搜索引擎里的「百科全书」不过分吧?
哪些结果排前面?不是钱说了算精选摘要也好,知识面板也罢,这些都可以简单归纳到快速答案范畴内 。假如把整个搜索过程比作是一顿饱餐,精选摘要、知识面板只不过是餐前甜点,页面主体内容里的搜索结果才是正餐 。
所以很多人在浏览 Google 搜索结果的时候,随着鼠标的滚轮不断滑动、蓝色的搜索链接飞速掠过,很自然地就会有一个不成熟的小想法:这么多的搜索结果是如何排序的,前面这几个会不会跟某些搜索引擎一样是收了钱的?
Google 搜索引擎的工作原理,秘密原来都在这里

文章插图
「犯罪嫌疑人」是这样说的
这个问题就涉及到了搜索排名算法了 。
这里最为大众所熟知的搜索排名算法应该就是 PageRank 了 。这也是 Google 最早使用的 对网页进行的排名算法 。对,就是你的潜意识里的那个名字,拉里·佩奇(Larry Page),这个算法正是用 Google 创始人(之一)的名字命名 。
虽然 Google 主要靠广告挣钱,影响搜索结果排名的主要还是算法本身,但金无足赤,算法同样也有问题 。PageRank 的缺陷就包括「旧的页面的排名往往会比新页面高」,也同样因此成为了一些人「刷排名」的漏洞 。因此 Google 在 2016 年 关闭了 PageRank 数据开放的大门 。
诚所谓条条大路通罗马,尽管时间在变、算法在变,不过 Google 表示保证搜索结果排名质量的初心并没有变 。按照 Google 的说法,目前 Google 搜索引擎的排名系统是以质量为导向的,它由一系列算法组成,在搜索过程中,我们搜索的字词、搜索目标网页的相关性、可用性、来源专业程度等等都会影响到算法和页面的最终排名 。用户搜索话题的性质不同也会影响页面的内容排序 。
Google 搜索引擎的工作原理,秘密原来都在这里

文章插图
 
所以从某种程度上来说,Google 搜索引擎现阶段的排名算法其实是有点「黑盒子」,它不像早年 PageRank 那样公开透明,但依然维持着较高的搜索结果排名质量 —— 当然,Google 用来「养家糊口」的广告往往还是会排在搜索结果的上面,好在它们和少数派网站一样都标注得蛮清楚 。


推荐阅读