新浪、百度、淘宝以及其他的一些大型互联网系统,在出现故障之后,一般的处理思路、流程和方法是怎么样的( 二 )


现在,我们来详细看一下CMDB数据的具体模型。如下图所示:
新浪、百度、淘宝以及其他的一些大型互联网系统,在出现故障之后,一般的处理思路、流程和方法是怎么样的

CDMB主要分为两大块,第一块是资源,第二块是应用。资源是通用的,而应用这一块是应用分类、应用单体,这里要注意的是,所有的应用CMDB层面,我们是将它拆分到具体的PaaS平台,所有的应用和单体应用跑到中间件上面,而数据是记录在CDMB中的。如果说一个应用如果需要依赖集群,则需要Master、VIP各种各样的属性。实际上关联到基础设施的操作系统的进程上去了,所有运维的数据都是放入CMDB这张表里面,我如果需要解决成本问题,是可以依据一条链路的,先从业务出发,找到我的资产花费了多少,因为核心的成本在资产上,关于成本问题,我们可以通过CMDB将这个数据找出来。
关于效率问题,其实核心是在交付基础设施、交付中间件、交付代码做持续集成。通过基础设施的交付效率提升,中间件交付效率的提升,代码交付效率的提升,来实现到整体效率提升,所有的数据依旧是放在CMDB这张表里面。
关于质量问题,我们的业务依然是运行在中间件上,中间件运行在真实的资源上,在运维层面的上一层或中间一层保证业务的质量。
综上所述,我们大致介绍了一个平台最开始的整体架构,包括CMDB的详细解释。接下来,再介绍一下,在这个模型上如何对成本、效率、质量问题如何具体解决?
关于运维成本,CMDB简化了逻辑关系,固定资产存在账单,我们的业务存在收入,并不是说一个业务它的运维成本高,就一定有问题。实际上,我们是按一个收入占比的,运维成本高,收入也随着增加。基于以上,我们可以非常清晰的得到一个财务数据,这个财务数据的核心是某一个应用收入了多少钱,它的收入占比是多少。当然,因为有详细的关联数据,依然可以知道各种各样的钱花在了什么地方。
【新浪、百度、淘宝以及其他的一些大型互联网系统,在出现故障之后,一般的处理思路、流程和方法是怎么样的】 关于提升运维效率的大体方向如何解决?
新浪、百度、淘宝以及其他的一些大型互联网系统,在出现故障之后,一般的处理思路、流程和方法是怎么样的

我们对整个业务做了抽象,第一块作为基础设施,第二块是中间件这一层,第三块是持续交付,真实的业务在最上面。IAAS如何提升需求?我们在对于IAAS实现交互就像实现云平台一样,操作系统安装不管做自动系统安装还是云API,其他的IAAS提供一套统一的API/用户界面自己申请/自己获取基础设施的资源。
关于效率PaaS平台,在中间件这层,我们会使用MySQL。在产品集群把MySQL做成云化模型的管理模式,主要是在改变思路,以前的业务需要一个MySQL,DBA会给它一个MySQL。但实际在进行云化模式管理的时候,我们会将普通的MySQL实现成一个云化的产品,在业务需要时,它将自己进行申请。所有的自动化能够将一个MySQL集群实现成云化模式的话,核心需要的技术能力主要还是运维能力、开发能力、交付能力、平台能力。CMDB、数据通道和第三方API,我们只能使用基础的运维能力层,能够实现到类似于把普通的MySQL实现云化,比如,腾讯云、阿里云一样的MySQL集群,看一下详细界面,云化监控或是需要人工接入的都把它云化成云平台模式,提供给业务方块,自助操作。
在运维效率方面的提升,从IAAS、PaaS层面我们核心要做的是,虽然现在没有能力从技术能力、各个组件开发成一个云化产品,但实际上,我们在运维能力上能做到在产品层面类似于云的产品,提升运维的效率。
现在,我们详细介绍一下关于运维质量的方面。
新浪、百度、淘宝以及其他的一些大型互联网系统,在出现故障之后,一般的处理思路、流程和方法是怎么样的


推荐阅读