为什么我使用了索引,查询还是慢?

经常有同学问我,我的一个SQL语句使用了索引,为什么还是会进入到慢查询之中呢?今天我们就从这个问题开始来聊一聊索引和慢查询 。
案例剖析为了实验,我创建了如下表:
CREATE TABLE `T`(`id` int(11) NOT NULL,`a` int(11) DEFAUT NULL,PRIMARY KEY(`id`),KEY `a`(`a`)) ENGINE=InnoDB;该表有三个字段,其中用id是主键索引,a是普通索引 。
首先SQL判断一个语句是不是慢查询语句,用的是语句的执行时间 。他把语句执行时间跟long_query_time这个系统参数作比较,如果语句执行时间比它还大,就会把这个语句记录到慢查询日志里面,这个参数的默认值是10秒 。当然在生产上,我们不会设置这么大,一般会设置1秒,对于一些比较敏感的业务,可能会设置一个比1秒还小的值 。
语句执行过程中有没有用到表的索引,可以通过explain一个语句的输出结果来看KEY的值不是NULL 。
我们看下 explain select * from t;的KEY结果是NULL
为什么我使用了索引,查询还是慢?

文章插图
 
(图一)
explain select * from t where id=2;的KEY结果是PRIMARY,就是我们常说的使用了主键索引
为什么我使用了索引,查询还是慢?

文章插图
 
(图二)
explain select a from t;的KEY结果是a,表示使用了a这个索引 。
为什么我使用了索引,查询还是慢?

文章插图
 
(图三)
虽然后两个查询的KEY都不是NULL,但是最后一个实际上扫描了整个索引树a 。
假设这个表的数据量有100万行,图二的语句还是可以执行很快,但是图三就肯定很慢了 。如果是更极端的情况,比如,这个数据库上CPU压力非常的高,那么可能第2个语句的执行时间也会超过long_query_time,会进入到慢查询日志里面 。
所以我们可以得出一个结论:是否使用索引和是否进入慢查询之间并没有必然的联系 。使用索引只是表示了一个SQL语句的执行过程,而是否进入到慢查询是由它的执行时间决定的,而这个执行时间,可能会受各种外部因素的影响 。换句话来说,使用了索引你的语句可能依然会很慢 。
全索引扫描的不足那如果我们在更深层次的看这个问题,其实他还潜藏了一个问题需要澄清,就是什么叫做使用了索引 。
我们都知道,InnoDB是索引组织表,所有的数据都是存储在索引树上面的 。比如上面的表t,这个表包含了两个索引,一个主键索引和一个普通索引 。在InnoDB里,数据是放在主键索引里的 。如图所示:
为什么我使用了索引,查询还是慢?

文章插图
 
可以看到数据都放在主键索引上,如果从逻辑上说,所有的InnoDB表上的查询,都至少用了一个索引,所以现在我问你一个问题,如果你执行select from t where id>0,你觉得这个语句有用上索引吗?
为什么我使用了索引,查询还是慢?

文章插图
 
我们看上面这个语句的explain的输出结果显示的是PRIMARY 。其实从数据上你是知道的,这个语句一定是做了全面扫描 。但是优化器认为,这个语句的执行过程中,需要根据主键索引,定位到第1个满足ID>0的值,也算用到了索引 。
所以即使explain的结果里写的KEY不是NULL,实际上也可能是全表扫描的,因此InnoDB里面只有一种情况叫做没有使用索引,那就是从主键索引的最左边的叶节点开始,向右扫描整个索引树 。
也就是说,没有使用索引并不是一个准确的描述 。
  • 你可以用全表扫描来表示一个查询遍历了整个主键索引树;
  • 也可以用全索引扫描,来说明像select a from t;这样的查询,他扫描了整个普通索引树;
  • 而select * from t where id=2这样的语句,才是我们平时说的使用了索引 。他表示的意思是,我们使用了索引的快速搜索功能,并且有效的减少了扫描行数 。
索引的过滤性要足够好根据以上解剖,我们知道全索引扫描会让查询变慢,接下来就要来谈谈索引的过滤性 。
假设你现在维护了一个表,这个表记录了中国14亿人的基本信息,现在要查出所有年龄在10~15岁之间的姓名和基本信息,那么你的语句会这么写,select * from t_people where age between 10 and 15 。
你一看这个语句一定要在age字段上开始建立索引了,否则就是个全面扫描,但是你会发现,在你建立索引以后,这个语句还是执行慢,因为满足这个条件的数据可能有超过1亿行 。


推荐阅读