微服务架构下,Mysql读写分离后,数据库CPU飙升卡壳问题解析

前言最近系统(基于SpringCloud+K8s)上线,运维团队早上8点左右在群里反馈,系统登录无反应!我的第一反应是MySQL数据库扛不住了 。

微服务架构下,Mysql读写分离后,数据库CPU飙升卡壳问题解析

文章插图
 
排查问题也是一波三折,有网络问题,也有mysql读写分离后数据库参数优化问题 。
问题回顾1、运维团队早上8点左右在群里反馈,系统登录无反应 。
2、DevOps团队通过查看Kibana日志,发现ELK、k8s集群、redis、Mongodb、Nigix、文件服务器全部报:”Connect Unknown Error“,惊出一身冷汗 。。。
微服务架构下,Mysql读写分离后,数据库CPU飙升卡壳问题解析

文章插图
 
心里嘀咕难道K8s容器也挂了?那还怎么玩?
3、查看监控短信,连续收到数据库读写分离Master-Slave警告信息
微服务架构下,Mysql读写分离后,数据库CPU飙升卡壳问题解析

文章插图
 
问题定位1、Connect Unknown Error
经过从k8s团队确认,在早上8点左右出现了网络中断,持续了大概1分钟左右,导致k8s平台剔除响应超时的微服务节点,同时不断的启动新的容器 。通过日志分析,8点半左右容器平台恢复正常,但是前台页面查询数据很慢(后来定位是Mysql数据库服务器CPU占用92%,导致数据库服务器处理应用请求很慢) 。
2、Mysql读写分离Master-Slave警告信息
MHA架构
Mysql读写分离是采用MHA架构,一主两从(Master-Slave) 。
【微服务架构下,Mysql读写分离后,数据库CPU飙升卡壳问题解析】Master负责数据的写操作,同时通过binlog日志同步到两个Slave从库,从库负责应用程序的查询操作 。
在报Connect Unknown Error异常后,我们检查了Mysql服务器,发现Master节点CPU占用92%(应用层读写请求全部路由到了Master节点原因导致),而两个Slave节点全部处于空闲状态,并且主从数据不同步了 。
微服务架构下,Mysql读写分离后,数据库CPU飙升卡壳问题解析

文章插图
 
3、数据库DBA通过查看mysql的show processlist命令,发现有大量的“create sort index(排序索引)”Sql语句(约36个)
微服务架构下,Mysql读写分离后,数据库CPU飙升卡壳问题解析

文章插图
 
经排查发现有个cms_article表有几百万的数据,客户端分页查询请求,虽然只取10条数据行,但是实际查询了几百万行数据,而且要在数据库内存中进行了几百万数据内存排序 。所以出现了大量的create sort index排序索引 。而且频繁执行Create Sort Index 会造成Mysql占满服务器CPU,导致服务器请求无响应,甚至假死状态!
解决办法1、Connect Unknown Error
k8s平台自动剔除响应超时的微服务节点,同时启动新的容器,直至恢复到故障前的容器节点水平,依靠k8s平台自我修复 。
微服务架构下,Mysql读写分离后,数据库CPU飙升卡壳问题解析

文章插图
 
2、Mysql读写分离Master-Slave警告信息
恢复步骤
1、重启Master-Slave节点,应用层读写请求正常,但是主从数据还是不同步,经定位是mysql同步线程Slave_IO_Running和Slave_SQL_Running都为No 。
2、晚上重启Slave_IO_Running和Slave_SQL_Running线程
只有Slave_IO_Running和Slave_SQL_Running都为yes,则表示同步成功 。
微服务架构下,Mysql读写分离后,数据库CPU飙升卡壳问题解析

文章插图
 
3、数据库DBA通过查看mysql的show processlist命令,发现有大量的“create sort index(排序索引)”Sql语句(约36个)
innodb_buffer_pool_size从500M调整为300G(服务器共500G内存)
innodb_buffer_pool_size
用于缓存索引和数据的内存大小, 这个当然是越多越好, 数据读写在内存中非常快, 减少了对磁盘的读写 。
当数据提交或满足检查点条件后才一次性将内存数据刷新到磁盘中 。然而内存还有操作系统或数据库其他进程使用, 一般设置 buffer pool 大小为总内存的 1/5 至 1/4 。若设置不当, 内存使用可能浪费或者使用过多 。
对于繁忙的服务器, buffer pool 将划分为多个实例以提高系统并发性, 减少线程间读写缓存的争用 。
buffer pool 的大小首先受 innodb_buffer_pool_instances 影响, 当然影响较小 。
Mysql性能调优总结预计44W用户 峰值在线人数 5万左右 。
1、innodb_buffer_pool_size=500M
太小,严重影响数据库性能 。服务器共500G内存,但只给mysql缓冲池分配了500M,非常影响数据库性能,且造成资源浪费 。建议设置为服务器内存的60% 。


推荐阅读