新浪、百度、淘宝以及其他的一些大型互联网系统，在出现故障之后，一般的处理思路、流程和方法是怎么样的处理思路基本

处理思路基本都差不太多。第一，最快速度恢复线上环境。比如备机上线，回滚，等等，会根据问题不同采取不同的方式。第二，分析故障原因。第三，善后，如何避免之类的。一般都会做故障分级。不同的级别有不同的具体处理方案。记得在infoq上看过一个演讲，百度的：让万台服务器共舞，他们的自己修复那套系统可以参考一下。
■网友
淘宝的故障是分level的，遇到故障可能会会滚之前的操作。和Amazon的类似，事后也会review故障原因，找出相应的负责团队，还有后续改进的action。
■网友
本文内容节选自由msup主办的第七届TOP100summit，三七互娱运维开发负责人童传江分享的《三七互娱故障追踪和故障自愈系统》实录。
分享者童传江在维行业7年工作经验，做过网络管理，做过应用运维，目前专注于运维开发，对于行业所要解决的质量、成本、效率、安全，有完整的交付和实践经验，爱好广泛，热衷于解决疑难问题和分享。
编者按：2018年11月30日-12月3日，第七届全球软件案例研究峰会在北京国家会议中心盛大开幕，现场解读「壹佰案例榜单」。本文为三七互娱运维开发负责人童传江老师分享的《三七互娱故障追踪和故障自愈系统》案例实录。
在实际运维过程中，因为业务系统越来越复杂，变更越来越频繁，总是存在各种各样监控未覆盖或者以前未知的故障发生。如何构建一套全链路的故障追踪和故障自愈系统，成了质量保证部门的刚需，通过行业标准化的PaaS平台模式和Trace追踪技术，从而实现整个架构的质量可控。
今天，我将从两个方面分享故障追踪的实例，第一方面，关于运维平台的整体架构，分别从成本、效率和质量三个维度解决的大致方向；第二方面，关于在链路追踪具体的案例实践。
运维平台的整体架构
现阶段，关于运维平台有三个大方向的问题需要解决：
第一个是成本，有些公司认为这个问题不是非常严重，但公司发展到一定规模，运维成本对于运维部门来说是一个非常大的挑战。像服务器、CDN、宽带的成本可以占到营收的百分之几以上，是一个很大的支出。运维成本核心要解决的是搞清楚具体钱花在哪个方向，并对这些成本问题进行优化。
第二个是效率，这是运维面临的主要问题。对于基础设施的交付、中间件的交付，或是代码发布，分解业务需求交付从上到下每一个步骤，并让每个一个步骤变得更快，这是我们要解决的第二个问题。
第三个是质量，这个问题很简单，业务是否正常、用户体验是否良好等，如果说有问题，到底哪里出现问题，这是运维部门要保障的。
那么，如何解决以上三个问题呢？
从技术方面来看，主要划分三个模块，第一个模块，对基础设施的交付；第二个模块，运维开发能力层面；第三个模块，前端接入层面。
从基础设施能力方面来看，因为运维的场景不同，现有情况在基础设施层面交付非常繁杂，有些应用需要裸机，我们就要直接进行裸机自动化系统完整交付；有些业务需要自动扩容，我们就要提供IAAS的平台；在基础设施方面，操作系统交付能力上有一个“封装”。将裸机，虚拟化IAAS，容器化IAAS，公有云统一向上封装。核心为提供操作系统能力。

从运维层面来看，第一块是CMDB，它包括了资产到应用，以及整个关联关系，所有需要关联到成本或质量的相关数据都存在CDMB中。第二块是任务通道，对所有下层交付的系统实现各种各样的自动化，通过任务通道来执行的，分化细节来看，提供了脚本执行、文件传输、配置分发、任务编排、定时调度、以及一套API。第三块是数据通道，以前的监控数据，日志数据、APM数据或者像交换机Netflow等各种各样的数据都在数据通道中。数据通道的核心是做收集数据、传输数据、计算数据、存储收集、展示数据，数据通道核心在用一套逻辑，提供同一个数据处理能力。第四块是第三方API，如上图所示，涉及到各种公有云，微信，DNS等平台。接入能力层面，主要是提供前端的WEB端，包括移动端app上的封装，关于API Gateway，我们现有的实现API网关主要做Web防火墙这样的应用规则。

新浪、百度、淘宝以及其他的一些大型互联网系统，在出现故障之后，一般的处理思路、流程和方法是怎么样的

推荐阅读

骑鱼的馋猫|从不喜欢欠人情，也不占别人便宜，“欠账就睡不着”的3大生肖女

糖墩儿墩儿自制薯条鸡米花！比外面卖的还要健康好吃！

马桶一拆一装要多少钱,马桶拆下来还能装上吗

原则|中联重科：调整定增方案对发行对象、定价原则及募资规模等进行调整

烤箱豆沙酥饼烤箱豆沙酥饼的做法

骑缝章怎么盖好

党史|高亦吾曾帮周恩来，离世8年后其子进京求职，周总理和他谈3小时

冬季旅游超级实用攻略！冬季旅游攻略

明星婚姻|他曾数次求婚秦岚都被拒，娶小12岁央视主持人，现家庭事业双丰收

湖南省教育考试院、湘微招考|湖南本科一批投档线出炉！今年多少分能上清华北大？

砂糖橘功效

梦见雨下的好大把路都冲毁了梦见雨下的好大伞刮坏了

糖糖看运势|真爱降临，生活很幸运，余生幸福美满的3星座，8月初

舟过安仁的意思翻译舟过安仁的意思

苍松怪石图题诗注音苍松怪石图题诗

嘉庆如果重用和珅,嘉庆如果重用和珅

LPL|英雄联盟：外卡战队的最强音？UOL能否突破入围赛

手机文件传输助手在哪里手机上文件传输助手有什么意思

康斯坦丁|花小猪打车被多地叫停背后：裂变营销在出行领域玩不转吗？

宋太祖传位太宗原因?宋太宗把皇位传给谁-_1