运维|湾区金科沙龙,华青融天技术总监吴伟平详解旁路式应用性能监控

7月29日下午 , 由深圳市金融科技协会主办的“湾区金科(Fintech)沙龙(第九期)——智能运维专场”在湾区国际金融科技城7楼成功举办 。 深圳市金融科技协会会员代表、湾区国际金融科技城、国际金融科技生态园入驻企业代表等逾100人参加沙龙 。 华青融天南区技术总监吴伟平受邀参加 , 并以“基于网络流量的旁路式应用性能监控的应用和实践”为题作了演讲 。
运维|湾区金科沙龙,华青融天技术总监吴伟平详解旁路式应用性能监控
图片

华青融天南区技术总监 吴伟平
众所周知 , 运维团队的核心工作是要保障业务系统稳定性 。 而衡量稳定性有两个关键指标: MTBF和MTTR 。 MTBF指的平均故障间隔时间 , 即是一个业务系统在出现第一次故障和第二次故障之间的间隔时长;MTTR指的是平均故障修复时间 , 即发生故障后修复的平均时长 。 那么 , 对于运维团队来说 , 构建运维体系的核心目标就是要尽可能提升MTBF , 降低MTTR , 如果这两个目标都达到了 , 就可以认为系统是趋近于稳定的 。
运维|湾区金科沙龙,华青融天技术总监吴伟平详解旁路式应用性能监控
图片

当故障发生的时候 , 第一个要做的事情就是识别这个故障 , 这个阶段称为故障发现阶段 。 从故障实际发生到我们整整开始响应 , 这段时间叫做MTTI , 称之为平均故障发现时间 。
识别故障之后要做的事情是定位故障的原因 , 这个阶段称为故障定位阶段 。 我们需要弄清楚问题的根源是网络、服务器还是应用层面 , 故障的根因定位花费的时间叫做MTTK , 这个称之为平均故障认知时间 , 核心工作就是要去定位故障根源 。
根因弄清楚后 , 下一步要做的事情是要采取措施恢复业务 , 这个阶段称之为故障恢复阶段 。 故障恢复对应的衡量指标就是MTTF , 平均故障解决时间 。
再往后 , 故障解决之后我们需要验证问题是否真正解决 , 这个称之为故障恢复验证阶段 。 故障恢复验证阶段对应的指标是MTTV , 即平均故障修复验证时间 。
以上就是MTTR的四个阶段和四组指标 。
运维|湾区金科沙龙,华青融天技术总监吴伟平详解旁路式应用性能监控
图片

如上面的饼图 , 这个图里有两个关键的特征一直困扰着运维团队 , 第一个特征 , 就是大部分问题都是由用户发现 , 而不是运维团队发现的 , 运维团队经常陷入被动救火状态 。。 第二个特征就是有90%的问题是用来定位问题根源在哪儿的 。 以至于在运维圈子里面有一句调侃的话 , 当业务系统出现问题的时候 , 任何环节都可能有问题 , 但运维监控一定有问题 。
提高故障发现能力和故障定位效率是运维团队亟需解决的两项挑战 。
运维|湾区金科沙龙,华青融天技术总监吴伟平详解旁路式应用性能监控
图片

华青融天的鹰眼产品(EZSonar)有五个能力可以有效地帮助运维团队提高故障发现能力和故障定位效率 , 最终达到缩减MTTR的目的 。
1.微监控
融天鹰眼对业务系统进行更细颗粒度的实时监控 , 保障业务系统的健康运行 。 它可对业务系统的每一个交易代码、网银的每一个URL、柜面系统的每一个营业网点进行独立监控 , 实时掌握其健康状态 , 任何一个局部出现问题时 , 都能实时发现、秒级定位 。
2.轻告警
针对告警太多、太重的运维现实 , 融天鹰眼通过减少误告警、提高告警信息量、降低告警噪音 , 实现高效率的平衡 , 使运维人员既兼顾业务的健康运行 , 又节省时间精力 。
3.慧分析
依托机器学习的AI技术 , 融天鹰眼使全量解码的海量业务数据可自主学习 , 进行故障的分析定位 。 融天鹰眼可对业务系统的任意一笔交易代码进行追踪 , 尤其对重点对公业务、重点VIP大客户业务等进行精准监控 , 及时发现问题 , 保障用户体验 。
4.全链路
融天鹰眼监控从业务的发起端到核心系统的整条链路 , 跨越多个物理节点、集群和数据中心 , 从业务维度聚焦每个业务类型 , 实现节点级的根源定位 , 当问题发生时可顺藤摸瓜、一目了然 。


推荐阅读