AI科技评论|智能皆搜索,裴健:搜索皆智能?( 四 )


3
智能搜索 , 与人相关
因为搜索的主体是人 , 所以搜索并不简单是一个技术问题 。 最近在《纽约时报》有一篇很好的文章 , 题目就是Techisglobal.right?:技术是全球化的 , 对吗?对 , 技术是全球化的 。
AI科技评论|智能皆搜索,裴健:搜索皆智能?
文章图片
这篇文章谈到了很多先进的美国企业把相应的技术和平台用到别的国家和地区效果不好 。 这里面涉及到很多因素 , 特别是很多与人有关的因素 , 例如说本地化、可理解性、文化、公平性、隐私保护、模型的复杂性、安全性等等 。 如果我们要把智能搜索做好 , 就必须密切考虑人的因素 。
其中 , 深度学习模型的复杂性是一个重要的因素 。 我们最近刚刚完成了一篇KDD2020的论文在这方面做了一些探索 。 模型复杂性本身是一个很复杂的问题 。 在很多场合下 , 人们可能只是简单地比较两个模型之间的准确度或者别的一些性能指标 , 但哪怕两个模型的性能在测试集上是完全一样的 , 并不意味着这两个模型的本质是一样的 , 也不意味着它们捕捉了同样的客观现实 。
AI科技评论|智能皆搜索,裴健:搜索皆智能?
文章图片
举个具体例子 , 上图这两个模型在相应的数据点上是完全一致的 , 但是这两个模型其实差得非常远 。 因此我们需要有一个系统的方法来衡量模型的复杂度、来衡量模型到底有没有对数据过拟合 。 我们的KDD2020上的论文就在这方面给出了一些新的方法 。
与模型和搜索方法很相关的另外一个问题是可解释性 , 一个模型要获得大家的信任 , 它必须有良好的可解释性 。 我们认为 , 模型的可解释性一定要满足两个原则 。 第一是准确性:如果我用一个模型来解释另外一个模型 , 那这两个模型必须在数学上等价 。 如果不等价 , 解释就可能会有问题 。 第二 , 模型的解释必须是一致的 。 一致是什么意思呢?如果我有两个非常相似的样例 , 它们相应的解释也应该非常相似 , 这才能够符合人的直觉 。 可解释性问题的核心是把一个黑盒子转化为一个白盒子 。
AI科技评论|智能皆搜索,裴健:搜索皆智能?
文章图片
我们KDD2018的论文通过把一个深度网络转化为一个基于内部神经元状态的向量 , 给出基于多胞体(polytope)的解释 。 这样所得到的解释是精确的:从数学上解释的模型和原来的深度网络等价 。 同时 , 解释也是是一致的:如果两个点很相近 , 它们落在同一个多胞体里面 , 它们就会遵从相应的相同的线性分类器 , 所以它们的相应解释也会是一样的 。
AI科技评论|智能皆搜索,裴健:搜索皆智能?
文章图片
在今年的ICDE论文中 , 我们把解释模型推到了云端 。 以往的解释工具往往需要知道整个模型的参数 , 甚至要知道相应的很多训练数据 。 在今年的ICDE论文里 , 我们提出可以把整个模型作为一个黑盒 , 然后给出准确和一致的解释 , 不需要知道模型的参数和训练数据 。 这里核心的想法是:如果我们有若干的样例 , 这些样例落在同一个多胞体里面 , 它们就应该遵循同一个线性分类器 , 于是我们可以建造一个线性方程式系统 , 用此来为我们提供相应的解释 。
关于怎么样把智能搜索做好 , 我们讲了很多 。 但是我们应该要充分认识到一点 , 智能搜索也在不断地改变我们的心智 。
AI科技评论|智能皆搜索,裴健:搜索皆智能?
文章图片
在国外大家经常说这句话:如果你遇到一个不了解的事情怎么办?用搜索引擎查一下(googleit) 。 在国内也有俗语叫:内事问度娘 , 外事问谷歌 。 搜索的过程和结果很深刻地改变了人类的思维和学习方式 。 在某些方面搜索拓宽了我们获取信息的渠道和速度 , 使得我们更聪明 。 但在另一些方面 , 我们可能会过度依赖智能搜索 , 在很多地方会变得笨了 。 这里 , 信息的准确性和公平性变得非常重要 。


推荐阅读