那些网络中容易出现的故障,工程师精细分享!

运维人最怕网络出故障 。先抛开一些闲话不谈,网络故障从大体上来讲,有下面几种情况:

那些网络中容易出现的故障,工程师精细分享!

文章插图
 
 
硬件问题
 
既然网络设备是一台机器,就有可能出现“疲劳”,从而导致各种各样的硬件故障出现 。硬件的故障,一般有下面几种情况 。
 
第一种是造成整机停机的故障 。
 
停机属于重大安全问题,造成停机的原因一般有以下几点:
 
(1)设备电源模块损坏,常见于一些单电源的盒式交换机;
(2)设备在搬移过程中,因为碰撞,摔打造成的主板芯片受损;
(3)一些使用超年限的设备,在重启的时候出现问题,起不来了;
(4)因为机房环境不好,设备温度过高造成“假死”的现象 。
 
设备停机属于重大安全问题,也是特别紧急的事件,需要马上更换设备 。即使是假死,都要把备机准备好了再操作,防止假死的设备重启时真的挂了 。
 
第二种是设备的模块、板卡损坏,不至于造成停机,但是引起了单点故障的隐患或者部分网络业务中断 。
 
比如,Cisco 6509一般都会配备两款引擎板卡,如果其中一块引擎板卡损坏了,不至于造成该交换机停机,也不会导致网络业务中断 。但如果不及时换掉这块坏引擎板,就造成了这台Cisco 6509单引擎运行,这肯定就是单点故障的隐患 。如果这台Cisco 6509坏掉的是一块48口的千兆电口板呢?那肯定连接在这块电口板上的业务全部中断了 。这种情况,就看根据整体的网络业务有没有受到影响来确定紧急程度了 。对于客户来说,坏一个板卡也是需要立即更换的 。
第三种情况是,设备上某个小部件损坏 。
 
比如说一台H3C 12508上插了6块电源,其中坏了那么一块;再或者是4个风扇,停了其中一个 。这种情况看起来对这台H3C 12508的正常运转暂时没啥影响,在处理的时候,也不是什么紧急事件了 。那这种情况,就要给客户说明情况,根据要求来决定什么时候进行处理 。
那些网络中容易出现的故障,工程师精细分享!

文章插图
 

那些网络中容易出现的故障,工程师精细分享!

文章插图
 
 
软件问题
 
软件问题一般分为操作系统自身BUG,还有人为因素导致的操作系统拷贝不完整造成的一系列问题 。操作系统本来是一类软件,或多或少都会有一些BUG,可能体现在一些功能上面 。
 
比较经典的一个BUG就是H3C R6600系列,出厂自带的操作系统Comware v7.1.059, ESS 0322,在配置BFD和BGP联动的时候(对端是Cisco),BFD就不生效,需要升级为v7.1.064, Release 7618才可以 。这也就是为什么说官网经常对一些设备的操作系统软件提供一些新版本的软件包或者补丁包 。
 
人为因素则是因为在对设备做软件升级的时候,因为对设备操作系统软件.bin文件拷贝不完整导致设备重启以后就起不来了 。导致这个问题的原因一般都是在拷贝软件到设备的Flash里时,没有仔细核对拷贝后文件的大小 。
那些网络中容易出现的故障,工程师精细分享!

文章插图
 
 
实施造成的问题
 
实施造成故障,这也算是一种比较常见的问题 。网络割接实施本来就有风险 。如果是操作人员经验不足或者技艺不精,对割接的风险评估不足,前期的测试准备不充分,就有可能在网络割接的时候不仅没能对网络完成优化改造,反而带来一些新的故障 。
 
一个很典型的例子,就是思科的设备换成华为或者H3C 。比如拿一个拓扑图来说:
那些网络中容易出现的故障,工程师精细分享!

文章插图
 

那些网络中容易出现的故障,工程师精细分享!

文章插图
 
第一个风险点就是私有协议要改通用协议 。
 
之前的Cisco 4503E使用的网关冗余协议是HSRP,换成华为就要换成VRRP 。在这里要注意的就是,HSRP的组播地址是224.0.0.2,VRRP的组播地址是224.0.0.18,这里是HSRP和VRRP最关键的一个差异点 。所以,HSRP改VRRP,首先就要检查Cisco 4503E上的所有VLAN接口(SVI),看看VLAN接口下是否挂了ACL,这个ACL下必须增加放行224.0.0.18 。
那些网络中容易出现的故障,工程师精细分享!

文章插图


推荐阅读