健康码|粤康码“崩溃”的90分钟:到底发生了什么?

今天上午8:30左右 , 不少用户集中反映 , “粤省事”小程序里的“粤康码”打不开了 。
在亮码的过程中 , 页面会出现“信号不佳”的提示 , 或是直接呈现黑白二维码 , 表示“亮码失败” 。
【健康码|粤康码“崩溃”的90分钟:到底发生了什么?】下方的“核酸检测”和“疫苗接种”两栏都注明“升级维护 , 请稍后再试” 。

健康码|粤康码“崩溃”的90分钟:到底发生了什么?
文章图片

图左为正常访问;图右为亮码失败
#粤康码#、#粤康码崩了#等词条迅速登上微博热搜 。

健康码|粤康码“崩溃”的90分钟:到底发生了什么?
文章图片

事发六小时后 , 热搜词条仍然在榜
上午10:00之后 , 情况逐渐得到缓解 。也有网友向雷峰网表示 , 自己的粤康码在十点左右还是黑白 , 但在十点半左右已经可以正常打开 。
今日午间 , 当市民再度打开“粤省事”小程序里的“粤康码” , 页面会首先显示公告称:
8:31 , 监测到流量增大;
9:04 , 部分缓解;
9:56 , 完全恢复顺畅运行 。

健康码|粤康码“崩溃”的90分钟:到底发生了什么?
文章图片

而在粤康码崩溃的90分钟里 , 微信小程序“深i您”、“穗康码” , 以及由国家政务服务平台提供服务的支付宝健康码 , 均可正常使用 。

健康码|粤康码“崩溃”的90分钟:到底发生了什么?
文章图片

微信小程序“深i您”界面
“应该只有‘粤省事’这个渠道出了问题 。‘深i您’和‘穗康码’都分别注明了‘粤康码(深圳/广州)’的字样 , 但一样可以正常打开 。”有网友评论道 。
公开资料显示 , 数字广东公司是粤康码系统以及全省数字政府建设的运营中心 。“粤省事”移动政务服务平台 , 由腾讯与广东省合作开发 。
1、为何崩溃?还是高并发的锅
在1月7日到1月9日的三天时间里 , 深圳新增四例本土确诊病例 , 深圳多区同时展开大规模核酸筛查 。深圳以及广东其他市县的不少公共场所 , 都新增了入场前先亮健康码和核酸证明的防疫要求 。
而今天(1月10日)正是深圳“0107疫情”发生之后的第一个工作日 , 不少上班族正是在进入地铁和办公园区的时候 , 发现粤康码打不开了 。
这次故障的主要原因 , 多位业内人士表示 , 应该还是与高并发访问有关 。
官方声明中提到:
今早的访问量峰值一度高达140万次/分钟 。
而根据广州日报的报道 , 2021年5-6月广东曾爆发过一轮疫情 , 在此期间 , 粤康码进行过系统调优升级:
促使网关每分钟可承载的访问量从原来的10万+提升至60万+ , 每天的调用量从原来的10亿+提升至80亿+ 。
有业内人士指出 , 从两组数字的对比来看 , 粤康码系统今早确实显著承压 。
“遇到高峰浪涌 , 爆服务器负载属于正常现象 。”资深信息安全专家吴先生向雷峰网解释 , 就算有弹性资源自动扩容机制 , 生效也需要时间 , 扩容期间的请求还是会卡在队列里 。
整个扩容流程大致是:浪涌到阈值——触发告警——触发扩容请求——分配资源——挂载镜像——服务启动——负载均衡器转发流量 。
他强调:“扩容的每一步都是秒级反应 , 但第一步到最后一步之间 , 这段时间的请求 , 在重新请求之前都卡着 。如果浪涌太快 , 需要连续申请资源 , 还是会卡不少时间 。”
举个例子:
假设队伍负载是100(100进100出)一旦溢出 , 假设每次扩容20% , 扩容用时10秒;某一秒的峰值到达130 , 触发告警;10秒后扩容至120 , 不够则继续扩容;但在这10秒内 , 超出能力的请求数量可能已经累积了300个 , 响应还是很慢 , 只能等着队列超时后重新分配 , 或者卡进去 。这还不包括“卡了之后重新请求——造成流量异常上升”的情况 。


推荐阅读