Google 搜索引擎的工作原理,秘密原来都在这里( 三 )


用人力保证搜索结果质量没错,讲了这么多预测、知识图谱与算法,保证 Google 搜索结果质量最后一环的竟然还是人 。
就像上面提到的那个「罗马人夜间用日晷计时」的笑话一样,搜索结果词不达意甚至答非所问的情况是有的,而算法很难自查 。为了减少类似的情况发生,Google 充分调动这样几波人的智慧:

  1. 专家、权威机构 。在搜索健康财务、公民信息( civic-information )和危机情况等话题的时候,我们能直接在搜索结果中优先看到来自当地政府、卫健、选举等权威机构的信息 。这样我们就能从源头上得到靠谱的信息 。
  2. Google 内部团队 。这当中不得不提到的有两支团队:一支是专门的研究团队,一支是内容合规团队(enforcement team) 。前者通过对世界各地的具体情况进行「实地考察」来改进个性化搜索质量;后者依照 Google 的政策处理那些系统没有拦住的违规内容 。
  3. 搜索质量评分员(Search Quality Rater) 。他们是对搜索质量进行 E-A-T 评级的人,E-A-T 评级反映了搜索结果的专业性(Expertise)、权威性(Authoritativeness)和可信度(Trustworthiness);评分员同时也是帮助 Google 评估我们在搜索行为上实际体验的人 。根据 Google 的数据,目前参与这些工作的评分员有 10000 多人 。
P.S. 评分员在开始提供评级服务之前,需要学习 Google 发布的《搜索质量评分者指南》并且通过相应考试 。整个评估工作也要遵照该《指南》进行 。
除了以人之智慧补算法之不足之外,Google 同样没有放弃对算法优化的努力 。以「网页的相关性和可用性」而言,Google 拥有多种语言理解系统 。这些语言理解系统中既有对应拼写错误、同义词等内容系统,又有基于 AI 的系统 。通过这些系统,Google 得以了解与我们搜索最相关的结果并进行改善 。
配合人为主导的并行实验、实时流量实验等一系列的工作,最终 Google 得以保证我们在 Google 搜索引擎中的实际体验 。根据 Google 披露的数据,2019 年他们与搜索质量评分者一共进行了 383605 余次搜索质量测试、62937 次并行实验、17523 次实时流量实验,这些努力帮助 Google 对搜索算法进行了 3600 多次改进 。
Google 搜索引擎的工作原理,秘密原来都在这里

文章插图
修正前与修正后的精选摘要答案对比
小结一次简单的搜索行为、一个稀松平常的搜索结果页面,背后的算法、原理、构成和人力因素其实都复杂且精妙 。
【Google 搜索引擎的工作原理,秘密原来都在这里】太阳每天都是新的、互联网发展不断向前,我们的搜索需求也水涨船高,回首来路,也正是因为 Google 在「搜索」这件事情上的不断改进和优化,才让它最终成为了不少人心中那个最靠谱的首选 。




推荐阅读