##支付宝那个“疯起来连自己都打”的团队向你发出入伙邀请( 二 )


平时没有故障的时候做什么呢?就是开头提到的红蓝攻防了 。 蓝军从第三方角度发掘各类脆弱点,并通过红蓝军技术攻防演练,不断验证防御系统的可靠性 。 每年的大演练时刻,都会进行全公司的动员,两边排兵布阵,攻守异常激烈 。
在“期末考试”中,每支红军在被攻击后,花费多长时间发现故障,又用了多长时间恢复等都会被视作评定指标,而结果会根据“无损”攻防体系相匹配的度量平台,对攻防结果进行排名 。
##支付宝那个“疯起来连自己都打”的团队向你发出入伙邀请
本文插图

去年“期末考试”冠军得主是红一支付宝军,支付宝资深技术专家兼军长李铮提到,去年12月21日的红蓝大军颁奖仪式上,第一名获得了一副金算盘,以及关公铜像一年所有权,而今年还给最后一名准备了特别“奖品”——一副烂算盘,“真的是很烂的算盘,也就淘宝上才能买到 。 ”
除此之外,资金安全是专门保护支付宝里的资金的系统,在海量线上资金处理时,要保证一分钱资金都不出问题,需要的是海量数据计算和风险挖掘能力 。
技术风险的未来:喝着红酒过大促
2018年杭州云栖大会ATEC峰会,时任蚂蚁金服副CTO胡喜在现场2000多人的注视下做了一场技术演示,杭州两个数据中心的服务器网线被人为剪断,在40%服务器突然无法工作的情况下,系统只用了26秒便恢复正常,这次演示展现了蚂蚁金服“三地五中心”架构的容灾能力,也是蚂蚁金融科技开放的技术解决方案之一 。
##支付宝那个“疯起来连自己都打”的团队向你发出入伙邀请
本文插图

剪断光缆 , 26秒支付宝就恢复正常
这已经很了不起,不过,和技术风险团队对未来的畅想相比,还有不少距离 。
当前,支付宝正在向云原生架构转型,作为守门员的技术风险团队面临着巨大的挑战 。 这些挑战包括:产品需求变更频繁、软件开发速度也越来越快,这个过程中带来风险的可能性和频率也越来越高;基础架构的迁移要求系统进行全面的测试,带来了巨大的测试工作量;原有的技术风险基础设施和中台部分系统不适应云原生架构,需要重新研发 。
不过,李铮表示,挑战同时也意味着机遇,云原生化将给技术风险带来巨大的技术红利 。
以双十一大促场景为例,双十一是支付宝创新技术的演练场,每年最先进的技术都会在双十一的舞台上亮相,在2019年双十一大促中,诸多云原生技术就第一次登上舞台 。 每年双十一的峰值越来越高,而我们的追求是保证效率进一步提升,成本进一步下降 。 利用云原生技术可以做到更快速的弹性伸缩,在几分钟之内就能完成扩容和拉起服务,这在以前是难以做到的 。
随着云原生技术的进一步深化,我们可以畅想,未来双十一保障会变成一件非常轻松的事情 。 利用如Serverless等技术,做到快速和自动化调度,不需要人的参与,就可以扛住双十一的峰值,实现以前 “喝着红酒过大促” 的梦想 。
而要实现这些,关键就是把技术风险能力云原生化,包含三个部分:从云自身看,要对云上技术和变更的完全可控;从技术风险角度看,需要统一技术的数据资产为技术风险服务;从云服务的业务角度看,技术风险功能需要内置,业务系统不用研发甚至不感知就能具备能力 。
除了云原生之外,技术风险的另一个发展趋势就是数据化和智能化 。
数据智能在技术风险领域可以起到非常大的作用,概括来谈,可以分为提升效率和扩展边界 。 一方面,通过历史日志和监控数据对模型进行训练,AI 可以自动化一些需要人工的作业流程,比如错误聚类,根因分析,还可以根据历史数据进行预测,比如智能容量评估;另一方面,AI 可以同时进行的任务远远超过人工,覆盖的业务范围更广,可以做到以前人工做不到的事情,比如故障自愈 。
未来,技术风险防控体系将具备更多智能特性,尽量减少人工干预,最好的情况是实现无人值守,由智能化的风险系统来应对各种风险场景,完成全局最佳的风险决策 。 这将是整个团队的努力方向——让大促和所有变更无人值守 。


推荐阅读