服务器|B站自曝去年服务器大崩溃原因 就因为这?
不知道差友们还记不记得,去年的 7 月 13 日,B 站发生了一件大事 。它毫无征兆的崩了 。。。( 如果忘了的小伙伴,可以看 这篇文章 )
文章图片
至于为啥崩了,当时大家谁也心里没个底 。不过吹起水来可是一套一套的,什么停电啊,起火啊,程序员 rm -rf /* 跑路啊 。。。说的是个天马行空 。
文章图片
后来呢,随着 B 站在凌晨两点一顿修仙,把服务器问题给慢慢解决,这件事情也算是告一段落了 。
文章图片
本以为这次 B 站崩了会和微博上无数崩了的网站一样,成为我们冲浪生活中的一个笑谈,仅留下一个大会员给我们 “ 缅怀 ” 。
文章图片
没想到在今年的 7 月 13 日,B 站特意发了一篇文章,刨开心窝子来给我们讲了一讲,那个晚上,到底发生了什么 。
文章图片
咱也看了一下这篇文章,好家伙,让整个 B 站崩溃的原因,竟然只是一行代码没写好???借着这篇文章,世超准备带大家从 B 站的角度来回顾一下这件事情 。放心,不会有生涩难懂的名词,不会有犀利糊涂的黑话,保证小白也能看明白 。 案情回溯: 意外,发生在 2021 年 7 月 13 日的 22 时 52 分 。
负责搞定站点可靠性的工程师(SRE)和B站的客服都收到了大量网站打不开的报警 。
文章图片
而负责处理这些事故的同事已经下班了,当即准备在家里通过 VPN 来登录公司内网处理这些问题 。
结果发现VPN 也崩了 。。。压根进不去系统 。最后,还是在公司的整了个 “ 绿色通道 ” 才成功进去 。你说这绿色通道不会是向日葵吧(一种远程桌面软件)
▼
文章图片
而在绿色通道成功打通,负责各种业务的团队就位之后,B 站也开始对问题进行分析定位 。出问题的模块也很明显,在线业务主机房的7层 SLB(负载均衡服务器,用来处理多用户,多业务的情况)的 CPU 跑满了 100% 。
简单来说,就是 CPU 被不知道哪里来的刺客给占用光了算力,没法处理业务了 。
系统未响应.exe ▼
文章图片
B 站最开始的尝试方法呢,和咱们平时手机电脑卡机后做的操作一样 。
重启就完事了,要相信重启能解决 90% 的问题!
文章图片
但很可惜,B 站这次是那个 10.5% 。
说业务恢复了嘛,也没有,主机房重启后还是出现了CPU 跑满 100%的问题 。不过别的机房好起来了,虽然会卡,但是没出现 CPU 跑满的问题 。
文章图片
有一部分做了多活的业务(多站点同时提供服务)开始慢慢恢复 。所以 。。。重启不能完全解决问题,但是这个问题既然过去没出现过 。
那会不会是新加入的代码问题呢?随着时间在一分一秒的过去,借助分析工具的帮助,问题被定位到了最近新上线的 Lua (一种编程语言,类似 Python,Java 这些) 函数上 。
随后,B 站开始进行了一波波紧张的回滚操作 。
文章图片
这一通工作弄下来,虽然好像找到几个疑似出问题的部位,但服务器还是该挂挂,距离 “ 康复 ” 还有那么一些距离 。
推荐阅读
- 梁静茹新恋情曝光与男友海边拥吻-梁静茹新恋情曝光
- 维也纳恐袭酿4死 枪手身份曝光-维也纳恐袭枪手身份
- 维也纳恐袭酿4死枪手身份曝光-维也纳恐袭一名奥籍华人身亡
- |乐视Y2Pro真机实拍图曝光,这配色喜欢么?
- 华为|华为鸿蒙OS 3.0大量新功能曝光:测试版已兼容安卓12 AOSP
- windows通过dnscmd命令批量操作dns服务器记录
- 韩星不动产富豪榜曝光-韩国女星收入排行榜
- 欧洲|百年一遇热浪!高温灾难笼罩欧洲 数千人被热死:大热曝万物
- 男子曝被海航空姐骗婚百万-海航空姐“骗婚”百万已婚男
- 大量法国人赶在封城前离开巴黎-法国封城大逃亡场面曝光