系统|破解银行分布式架构转型中的运维难题

摘要
全球IT行业正发生巨大的变化 , 云计算、大数据、物联网、人工智能等新技术正在改写游戏规则 。 在银行业 , 主机一直以其高可用性、高吞吐率而得到大银行的青睐 , 但随着监管机构鼓励银行等金融机构自主创新 , 加之以X86和云计算为基础的开放系统分布式架构的崛起 , 主机面临着日益严峻的挑战 。 为此 , 国内各家银行都在积极探索核心系统分布式架构转型(简称“核心下移“)的解决方案 。
银行核心系统的“下移”不仅仅是核心基础架构的变革、同时也要求开发和运维实现同步改革 。 AIOps成为确保下移过程的可观察性、保证业务连续性的制胜武器 。 北京华青融天科技有限公司推出的融天鹰眼业务监控系统 , 可以帮助银行应对这种转型带来的挑战 , 在核心下移的开发、迁移、运维过程中都发挥着至关重要的作用 。
一.分布式架构转型给运维带来哪些痛点?
银行核心系统从集中式架构迁移到开放式架构 , 意味着开发和运维的全套技术栈和工具的迁移 。 从运维角度看 , 虽然开放系统分布式架构的运维成本可能下降 , 但随之而来的很多新的挑战是的运维的难度反而提高了:
1.主机系统在银行业已经有几十年的历史 , 运维经验丰富 , 工具完备 , 但分布式核心系统和分布式数据库并没有成熟的经验和工具 。
2.分布式数据库、甚至是异地多中心双活的数据库集群对大部分银行来说是个新事物 , 如何对这个复杂集群进行监控 , 保证每一个事务的准确性和可用性 , 负载均衡+db proxy的多层架构中发现性能黑洞 , 如何深入到数据库集群内部的全链路监控 。 这些都是必须面对的新课题 。
3.集中式到分布式架构 , 即使银行的业务量没有大的变化 , 分布式架构中各个集群节点处理的业务请求也会激增数倍到数十倍 , 需要监控的环节大大增加 , 对监控系统的性能是一个巨大挑战 。
二.融天鹰眼的价值:打开分布式系统黑箱 , 体现可观察性
银行核心系统下移正如一台性命攸关的换心手术 , 难度极高 , 而其中的关键环节 , 就是对整个手术过程的监控 , 就像手术台边的大型X光设备和大大小小的屏幕一样 , 医生要随时观察患者体内的每个微小变化 , 洞察每一条血管、每一根神经、每一次血流 。 华青融天的鹰眼业务监控系统(EZSonar)正是扮演了透视设备的角色 , 保证了银行“换心”过程的全程可见、可观察 , 确保“换心”的成功 。
系统|破解银行分布式架构转型中的运维难题
图片

融天鹰眼系统借助旁路数据包解码和全链路监控技术 , 以非侵入式的方法 , 在不影响业务系统运行的前提下 , 打开IT系统内部神秘的黑盒 , 让用户对整个核心下移过程的每一步一目了然 , 直观地看到数据流在所有节点间的流动 , 随时发现异动 , 让运维团队心中有数 。
三.开发阶段 , 提供仿真数据 , 为优化提供一手数据支持
核心基础架构的迁移 , 意味着核心应用的开发的技术栈也会从COBOL等主机语言平行迁移到Java或其他开放语言 。 通常 , 建立一套仿真系统 , 实现在真实用户交易的数据环境下对重构的核心进行测试和优化 , 融天鹰眼系统可以对仿真系统进行全链路监控 , 帮助开发、测试团队追踪每一笔测试交易的处理链路 , 甚至可以深入到数据库集群的每一个节点 , 为bug定位、代码优化、集群分发策略优化提供实时的数据支持 。 在实际案例中 , 在鹰眼的帮助下 , 将数据库集群的sql查询数量优化到最初的1/4 。
四.运维阶段 , 贯通系统全链路 , 快速定位故障根源
系统|破解银行分布式架构转型中的运维难题
图片

融天鹰眼系统的全链路解码和多维分析功能 , 是快速定位问题根源的利器 。 以双十一重点保障的业务为例 , 我们实现了从各渠道跨越银行各个核心应用组件的不同位置的网络流量精细化采集 , 并对应用性能指标进行实时监控 , 实现重保期间各应用组件性能的实时监控和快速分析视图 , 形成基于网络流量分析的自动告警策略 , 实现主动预警和快速定位 。


推荐阅读