为什么 SQL 语句不要过多的 join？ _小知识

面试官：有操作过linux吗?
我：有的呀
面试官：我想查看内存的使用情况该用什么命令
我：free 或者 top
面试官：那你说一下用free命令都可以看到啥信息
我：那，如下图所示可以看到内存以及缓存的使用情况

total 总内存
used 已用内存
free 空闲内存
buff/cache 已使用的缓存
avaiable 可用内存

文章插图

面试官：那你知道怎么清理已使用的缓存吗(buff/cache)
我：em... 不知道
面试官：sync; echo 3 > /proc/sys/vm/drop_caches就可以清理buff/cache了，你说说我在线上执行这条命令做好不好?

文章插图

我：(送分题,内心大喜)好处大大的有，清理出缓存我们就有更多可用的内存空间, 就跟pc上面xx卫士的小火箭一样，点一下，就释放出好多的内存
面试官：em...., 回去等通知吧
再谈SQL Join面试官：换个话题，谈谈你对join的理解
我：好的（再答错就彻底完了,把握住机会)
回顾SQL中的join可以根据某些条件把指定的表给结合起来并将数据返回给客户端
join的方式有

inner join 内连接

文章插图

left join 左连接

文章插图

right join 右连接

文章插图

full join 全连接

文章插图

以上图片源自这里

【为什么 SQL 语句不要过多的 join？】面试官：在项目开发中如果需要使用join语句，如何优化提升性能?
我：分为两种情况，数据规模小的，数据规模大的。
面试官: 然后?
我：对于

数据规模较小全部干进内存就完事了嗷
数据规模较大

可以通过增加索引来优化join语句的执行速度可以通过冗余信息来减少join的次数尽量减少表连接的次数，一个SQL语句表连接的次数不要超过5次

面试官：可以总结为join语句是相对比较耗费性能，对吗？
我：是的
面试官: 为什么?
缓冲区我: 在执行join语句的时候必然要有一个比较的过程
面试官: 是的
我：逐条比较两个表的语句是比较慢的，因此我们可以把两个表中数据依次读进一个内存块中, 以MySQL的InnoDB引擎为例，使用以下语句我们必然可以查到相关的内存区域show variables like '%buffer%'

文章插图

如下图所示join_buffer_size的大小将会影响我们join语句的执行性能
面试官: 除此之外呢?
一个大前提我：任何项目终究要上线，不可避免的要产生数据，数据的规模又不可能太小
面试官: 是这样的
我：大部分数据库中的数据最终要保存到硬盘上,并且以文件的形式进行存储。
以MySQL的InnoDB引擎为例

InnoDB以页(page)为基本的IO单位，每个页的大小为16KB
InnoDB会为每个表创建用于存储数据的.ibd文件

文章插图

验证

文章插图

我：这意味着我们有多少表要连接就需要读多少个文件，虽然可以利用索引，但还是免不了频繁的移动硬盘的磁头
面试官：也就是说频繁的移动磁头会影响性能对吧
我：是的，现在的开源框架不都喜欢说自己通过顺序读写大大的提升了性能吗，比如hbase、kafka
面试官：说的没错，那你认为Linux有对此做出优化吗?提示，你可以再执行一次free命令看一下
我：奇怪缓存怎么占用了1.2G多