当数据库遇上"自动驾驶"，阿里云 DAS 在自治诊断的突破( 四 ) 导读：VLDB2020（The46thInternational

3) 异常序列聚类模块(TOPIC)：
文章插图
通过异常指标的相似度聚类完成iSQ1和iSQ2的相似度匹配，如果两个iSQ的相似度匹配很高，认定为一类异常序列相似度算法Sij表示iSQ i与iSQ j的相似度，T表示指标类别， |Kit,Kjt| 表示每个指标之间的相似度，
文章插图
文章插图
文章插图
关联匹配的算法如下，通过KDTree的加速，结合层次聚类完成多指标异常序列的相似度匹配，相似度的阈值参数调整可以基于海量数据分类获得。
文章插图
文章插图
文章插图
聚类方法我们同时也进行了多个方法做了对比， Topic表现较好。同时也对异常抽取模块，和关联分析模块的作用同时做了相应的对比：
文章插图
4) 贝叶斯案例模型模块 BCM illustration
文章插图
BCM作为基于实例的方法主要是通过一些代表性的样本来解释聚类/分类结果的方法。通过观察代表性的样本，我们可以直观得获得其对应族类的样本宏观特征。通过Topic对异常序列的聚类产出的结果还需要增加序列的可解释性，通过BCM进行相关数据的整合，进而将异常序列(Patterns)进行整合。
下图是DBA标注时候的案例，通过标注历史的案例，来对现有的iSQ进行判定：
文章插图
例如 mysql.cpu_usage +,mysql.select_ps+, mysql.qps+ 异常， BCM可以通过相似指标序列产出， CPUIntensiveWorkload, 这样的聚类结果，当异常序列不在我们已知聚类序列里面时，通过DBA的标注，可以标注出更多的异常序列，我们的后端案例库会越来越丰富，聚类效果会越来越明显，总分类如下图
我们最终实现了从根因分类到Solution的初步映射， DAS的决策中心会根据不同根因和其现象的patterns ，来分发自治Action消息到各个自治业务模块，摆脱了单纯依靠规则驱动的方式，通过数据在各业务场景的内循环，我们的模型也同时在不断更新和迭代，当新的根因和场景出现时，我们的分类会越来越细，同时可以适应多种业务场景和自治场景的根因定位。
文章插图
文章插图
AutonomousDiagnose 的实践
我们HA的SQL是一个比较典型的场景，我们通常使用探活SQL去探测数据库实例的心跳去保证数据库的可用性。
但是当这个探活SQL变为iSQ的时候，数据库通常会出现严重潜在的问题。对于数据库无征兆"突然挂掉"的问题，我们很难通过数据来推算出时间， HA通常通过探活SQL来解决"突然挂掉"的问题，但是在review阿里集团和阿里云大量的故障case后，我们往往很难取判断数据库"半死不活"的场景，因为探活RT的连接还是可用的，但是SQL的RT会变慢，而传统基于规则的监控时很难能检测出这一类问题的，我们这两年线上很多故障都是这种现象，而一直没有很好的解决办法。通过探活SQL变为iSQ的检测，我们可以站在用户视角第一时间发现SQL请求变慢的现象，一个"监控检测"的问题就转化成了一个"预测性维护"的问题, 提前发现潜在问题并定位根因发起自治action 。

当数据库遇上"自动驾驶"，阿里云 DAS 在自治诊断的突破( 四 )

推荐阅读

集美家居集美家居定慧桥商场端午借传统文化活动揽人气

第一财经|中芯国际明天开始申购相关概念股开盘大涨丨板块牛熊榜

国航ARJ21飞机完成首航，正式投入航线运营

麻辣香锅你这么做，不怕你不上瘾

云度正式回归新能源汽车“主赛道”

颖颖说车还怎么娶媳妇？，为啥女生坐摩托车都侧着？女神：这3点都想不到

『比特币』5.4最新消息：乡村妇女为了买比特币竟然卖车卖房。而他老公既然

外援|分钟寺地块引入外援世茂，合生能否扭转豪宅掉队局面？

解析治疗强迫症的几种方法如何治疗强迫症

手机中国@VIVE面向全球推出虚拟现实软件及解决方案服务，HTC

葱油蚕豆

受伤后怎样恢复到伤前水平

『2019科技之光』卢伟冰太“任性”？雷军正面回应，网友怒赞：干得漂亮

智通财经|Bio(VIE.US)首款新药获FDA批准，成立不到两年半，Viela

邓为|邓为：曾被质疑“小牌大耍”，如今被于正插刀：伺候不起

旅行百事通|这个暑假不留遗憾！，收拾行装

银针功效作用,君山银针的功效与作用

仪仗队|首次访华就想耍威风？我国直接撤走仪仗队：热脸不贴“冷屁股”！

安徽网资讯安庆■开发区招商局赴苏州、上海等地开展招商工作

转给父母！老年人要做好这些事

当数据库遇上&quot;自动驾驶&quot;，阿里云 DAS 在自治诊断的突破( 四 )

推荐阅读

当数据库遇上"自动驾驶"，阿里云 DAS 在自治诊断的突破( 四 )