Elasticsearch查询速度为什么这么快？这段时间在维护产品的搜索功能

这段时间在维护产品的搜索功能，每次在管理台看到 Elasticsearch 这么高效的查询效率我都很好奇他是如何做到的。
文章插图
这甚至比在我本地使用 MySQL 通过主键的查询速度还快。
文章插图
文章插图
为此我搜索了相关资料：
文章插图
这类问题网上很多答案，大概意思呢如下：ES 是基于 Lucene 的全文检索引擎，它会对数据进行分词后保存索引，擅长管理大量的索引数据，相对于 MySQL 来说不擅长经常更新数据及关联查询。
说的不是很透彻，没有解析相关的原理;不过既然反复提到了索引，那我们就从索引的角度来对比下两者的差异。
MySQL 索引先从 MySQL 说起，索引这个词想必大家也是烂熟于心，通常存在于一些查询的场景，是典型的空间换时间的案例。以下内容以 InnoDB 引擎为例。
常见的数据结构假设由我们自己来设计 MySQL 的索引，大概会有哪些选择呢?
①散列表首先我们应当想到的是散列表，这是一个非常常见且高效的查询、写入的数据结构，对应到 Java 中就是 HashMap 。
文章插图
这个数据结构应该不需要过多介绍了，它的写入效率很高 O(1) ，比如我们要查询 id=3 的数据时，需要将 3 进行哈希运算，然后再这个数组中找到对应的位置即可。
但如果我们想查询 1≤id≤6 这样的区间数据时，散列表就不能很好的满足了，由于它是无序的，所以得将所有数据遍历一遍才能知道哪些数据属于这个区间。
②有序数组
文章插图
有序数组的查询效率也很高，当我们要查询 id=4 的数据时，只需要通过二分查找也能高效定位到数据 O(logn) 。
同时由于数据也是有序的，所以自然也能支持区间查询;这么看来有序数组适合用做索引咯?
自然是不行，它有另一个重大问题;假设我们插入了 id=2.5 的数据，就得同时将后续的所有数据都移动一位，这个写入效率就会变得非常低。
③平衡二叉树既然有序数组的写入效率不高，那我们就来看看写入效率高的，很容易就能想到二叉树。
这里我们以平衡二叉树为例：
文章插图
由于平衡二叉树的特性：左节点小于父节点、右节点大于父节点。
所以假设我们要查询 id=11 的数据，只需要查询 10→12→11 便能最终找到数据，时间复杂度为 O(logn) ，同理写入数据时也为 O(logn) 。
但依然不能很好的支持区间范围查找，假设我们要查询 5≤id≤20 的数据时，需要先查询 10 节点的左子树再查询 10 节点的右子树最终才能查询到所有数据。导致这样的查询效率并不高。
④跳表跳表可能不像上边提到的散列表、有序数组、二叉树那样日常见的比较多，但其实 Redis 中的 sort set 就采用了跳表实现。这里我们简单介绍下跳表实现的数据结构有何优势。
我们都知道即便是对一个有序链表进行查询效率也不高，由于它不能使用数组下标进行二分查找，所以时间复杂度是 o(n) 。
但我们也可以巧妙的优化链表来变相的实现二分查找，如下图：

Elasticsearch查询速度为什么这么快？

推荐阅读

北京青年报|140万张北京消费券9月8日发放

天猫天猫618启幕，1000万95后在“520告白季”“报复性表白”

【金牛座】6月3号喜事不断，福运天降，运势顺风顺水，钱财不愁的3生肖

鸡冠花泡水喝治什么病,栽种鸡冠花要注意什么

68岁洪金宝与友人聚餐 68岁洪金宝与友人聚餐身体突然暴瘦

保安|漫展“保安女”道歉后，网友爆出其生活照，真人比cos狂三好看很多

科技信息中心懂手机的人都这样选，20年购机避不开的2大刚需

ZAKER生活|并出现美国雇佣兵，如何杜绝99年悲剧重演？，塞尔维亚爆发骚乱

名片设计卡片设计

才友军事▲太平洋仅剩下一艘航母编队，世界目光转向东方，这次已不是美军

纳西姆|男子自称先知遭控渎神，巴基斯坦受审遭当庭枪杀，凶嫌：梦中人指使

胫骨筋膜炎怎么办？

如何起诉离婚(如何起诉离婚？)

"Go City 旅城"旅行景点通票微信小程序上线解锁新加坡自由行掌上旅游新姿势

电动车掌中宝电动车劲敌出现？电动车将会被取代？你怎么看？

「网文圈」原创腾讯嫡系接管阅文，网文新时代已经到来

北晚新视觉网：美国曾拒绝中国物资，我们需要热脸贴冷屁股吗？，全球疫情肆虐

想给父母做个全身检查，在北京哪个体检中心比较好点

健身励志录才能享受人生。只要用心感受，幸福就会永远存在，人有个好的心态

情暖童心关爱留守儿童的美篇?关爱留守儿童美篇分享