新浪、百度、淘宝以及其他的一些大型互联网系统,在出现故障之后,一般的处理思路、流程和方法是怎么样的

处理思路基本都差不太多。第一,最快速度恢复线上环境。比如备机上线,回滚,等等,会根据问题不同采取不同的方式。第二,分析故障原因。第三,善后,如何避免之类的。一般都会做故障分级。不同的级别有不同的具体处理方案。记得在infoq上看过一个演讲,百度的:让万台服务器共舞,他们的自己修复那套系统可以参考一下。
■网友
淘宝的故障是分level的,遇到故障可能会会滚之前的操作。和Amazon的类似,事后也会review故障原因,找出相应的负责团队,还有后续改进的action。
■网友
本文内容节选自由msup主办的第七届TOP100summit,三七互娱运维开发负责人童传江分享的《三七互娱故障追踪和故障自愈系统》实录。
分享者童传江在维行业7年工作经验,做过网络管理,做过应用运维,目前专注于运维开发,对于行业所要解决的质量、成本、效率、安全,有完整的交付和实践经验,爱好广泛,热衷于解决疑难问题和分享。
编者按:2018年11月30日-12月3日,第七届全球软件案例研究峰会在北京国家会议中心盛大开幕,现场解读「壹佰案例榜单」。本文为三七互娱运维开发负责人童传江老师分享的《三七互娱故障追踪和故障自愈系统》案例实录。
在实际运维过程中,因为业务系统越来越复杂,变更越来越频繁,总是存在各种各样监控未覆盖或者以前未知的故障发生。如何构建一套全链路的故障追踪和故障自愈系统,成了质量保证部门的刚需,通过行业标准化的PaaS平台模式和Trace追踪技术,从而实现整个架构的质量可控。
今天,我将从两个方面分享故障追踪的实例,第一方面,关于运维平台的整体架构,分别从成本、效率和质量三个维度解决的大致方向;第二方面,关于在链路追踪具体的案例实践。
运维平台的整体架构
现阶段,关于运维平台有三个大方向的问题需要解决:
第一个是成本,有些公司认为这个问题不是非常严重,但公司发展到一定规模,运维成本对于运维部门来说是一个非常大的挑战。像服务器、CDN、宽带的成本可以占到营收的百分之几以上,是一个很大的支出。运维成本核心要解决的是搞清楚具体钱花在哪个方向,并对这些成本问题进行优化。
第二个是效率,这是运维面临的主要问题。对于基础设施的交付、中间件的交付,或是代码发布,分解业务需求交付从上到下每一个步骤,并让每个一个步骤变得更快,这是我们要解决的第二个问题。
第三个是质量,这个问题很简单,业务是否正常、用户体验是否良好等,如果说有问题,到底哪里出现问题,这是运维部门要保障的。
那么,如何解决以上三个问题呢?
从技术方面来看,主要划分三个模块,第一个模块,对基础设施的交付;第二个模块,运维开发能力层面;第三个模块,前端接入层面。
从基础设施能力方面来看,因为运维的场景不同,现有情况在基础设施层面交付非常繁杂,有些应用需要裸机,我们就要直接进行裸机自动化系统完整交付;有些业务需要自动扩容,我们就要提供IAAS的平台;在基础设施方面,操作系统交付能力上有一个“封装”。将裸机,虚拟化IAAS,容器化IAAS,公有云统一向上封装。核心为提供操作系统能力。
新浪、百度、淘宝以及其他的一些大型互联网系统,在出现故障之后,一般的处理思路、流程和方法是怎么样的

从运维层面来看,第一块是CMDB,它包括了资产到应用,以及整个关联关系,所有需要关联到成本或质量的相关数据都存在CDMB中。第二块是任务通道,对所有下层交付的系统实现各种各样的自动化,通过任务通道来执行的,分化细节来看,提供了脚本执行、文件传输、配置分发、任务编排、定时调度、以及一套API。第三块是数据通道,以前的监控数据,日志数据、APM数据或者像交换机Netflow等各种各样的数据都在数据通道中。 数据通道的核心是做收集数据、传输数据、计算数据、存储收集、展示数据,数据通道核心在用一套逻辑,提供同一个数据处理能力。第四块是第三方API,如上图所示,涉及到各种公有云,微信,DNS等平台。接入能力层面,主要是提供前端的WEB端,包括移动端app上的封装,关于API Gateway,我们现有的实现API网关主要做Web防火墙这样的应用规则。


推荐阅读