阿里万亿交易量级下的秒级监控( 五 )


我们还把宿主机和网络监控也关联起来了 , 现在用的都是容器 , 但有的问题可能是因为宿主机出问题了 , 或者上面负载太高了 , 用户可以做出直观的判断 。
同时 , 还把报警集成在钉钉里面完成 。钉钉有什么好处呢?它跟传统的短信、邮件报警不一样 , 它可以有很丰富的交互 。用户可以点击进来看报警的详情 , 甚至可以有曲线、报警的历史 , 点进去还可以做一些重启机器的操作 , 或者觉得这是个误报我要关闭半个小时 , 都可以在这里一站式完成 。这比以前用短信收报警的方式前进了一大步 。
钉钉

阿里万亿交易量级下的秒级监控

文章插图
 
钉钉一站式报警处理
4.3、智能化
阿里万亿交易量级下的秒级监控

文章插图
 
在智能化上面我们也在做很多探索 , 比如智能基线 。
图上有一段虚线 , 是通过算法预测出来这个曲线后面这段时间的走势可能是什么样的 。我们可以很直观的判断出来到底有没有异常 。进一步希望做到用户不用配报警 , 自动帮它生成报警的阈值 。
智能基线让用户只要配一个规则就可以了 。原先是一天内不同时间业务指标的范围可能都不一样 , 用户只能根据时间段配了一堆规则 。上图是简化后的规则 , 有了智能基线以后只要配当前值和基线比超过百分之多少就报警 , 就这么简单 。




推荐阅读