致明道云用户:
3 月 15 日 9 点 50 分左右,收到内外部反馈系统出现频繁异常登出且无法登录的情况,经过工程师排查发现,隶属北京可用区的 1 台集群节点 CPU 负载异常,从而导致运行在上面的底层基础服务实例也出现异常,使得其他服务访问到此实例亦出现异常,随后工程师紧急安排处理,具体处理过程如下
- 9:55 工程师介入排查集群运行状态,发现基础服务运行异常,产生大量访问错误日志
- 10:00 将外部流量访问切换到备份节点,客户逐步恢复访问
- 10:05 将异常节点排空,上面运行的服务实例转移到其他节点,对服务器进行重启
- 10:08 将异常节点重新加入集群,重启相关服务重新编排分配,检查服务日志
- 10:15 将外部流量切换到正常节点,确认访问流量正常
后续措施:
- 排查集群节点负载异常的原因,加强监控体系
- 对集群再次进行扩容
- 对底层基础服务实例进行流量拆分,避免更多的交叉影响
给您带来的影响我们深感抱歉,我们将持续跟进并保持关注,如有疑问请随时联系我们 010-53153053。
明道云运维团队
2022 年 03 月 15 日