『设计』像这样管理https证书,你还担心证书过期忘记更新?


由于证书的实效限制 , 因证书过期忘记更换出现的故障屡见不鲜 , 而且影响都比较严重 , 用户量越大 , 灾难性越强 。
既然大家都知道证书的破坏力 , 那么为什么过期问题还是前仆后继的出现呢?
分析看 , 一来证书是一个正常时期少有人关注的东西 , 只有过期了才知道他的破坏力 , 容易忽视轻敌 。 二来在互联网企业 , 随着业务线的增加 , 证书可能成百上千 , 再加上最初的使用没有做好规划 , 在这个背景下 , 叠加业务调整、人员流动 , 证书一多管理上的漏洞马上被触发 , 特别是有些完全依靠纯人肉管理的更是极不靠谱 。
在小爱 , 我们结合巡检(运维中台)+告警(open-falcon)的方式来管理证书 , 按周巡检 , 并且把证书巡检设计到了小爱运维中台 , 杜绝一切漏网之鱼 , 业务巡检界面如下(感谢兴耀同学的开发付出) , 我们对所有证书剩余天数做了top排序 , 并进行了异常标色 , 黄色代表要开始关注了(<30天过期) , 红色(<15天过期)代表要重点关注着手处理了:
『设计』像这样管理https证书,你还担心证书过期忘记更新?
本文插图
【『设计』像这样管理https证书,你还担心证书过期忘记更新?】这样还是不够的 , 比如说证书本身没过期 , 但域名下面有多个vip , 其中有一个vip的证书忘记更新了 , 这时巡检会产生的效果图如下:
『设计』像这样管理https证书,你还担心证书过期忘记更新?
本文插图
可以看到红框圈起来的vip证书还有3天过期 , 但其他的vip还有690天过期 , 有个vip成了漏网之鱼 , 巡检发现后立马处理 。
在制度设计上 , 每周一由oncall同学进行巡检 , 并将要更新的证书通过jira分发下去 , 负责更新的同学更新后再到这儿DoubleCheck形成闭环 , 通过这套组合拳 , 证书忘记更新的问题基本不再担心 , 希望对现在的你有所帮助 。


    推荐阅读