20220315_明道云异常登出登录故障原因通告

分享 明道云  收藏
0 / 262

致明道云用户:

3 月 15 日 9 点 50 分左右,收到内外部反馈系统出现频繁异常登出且无法登录的情况,经过工程师排查发现,隶属北京可用区的 1 台集群节点 CPU 负载异常,从而导致运行在上面的底层基础服务实例也出现异常,使得其他服务访问到此实例亦出现异常,随后工程师紧急安排处理,具体处理过程如下

  • 9:55 工程师介入排查集群运行状态,发现基础服务运行异常,产生大量访问错误日志
  • 10:00 将外部流量访问切换到备份节点,客户逐步恢复访问
  • 10:05 将异常节点排空,上面运行的服务实例转移到其他节点,对服务器进行重启
  • 10:08 将异常节点重新加入集群,重启相关服务重新编排分配,检查服务日志
  • 10:15 将外部流量切换到正常节点,确认访问流量正常

后续措施:

  • 排查集群节点负载异常的原因,加强监控体系
  • 对集群再次进行扩容
  • 对底层基础服务实例进行流量拆分,避免更多的交叉影响

给您带来的影响我们深感抱歉,我们将持续跟进并保持关注,如有疑问请随时联系我们 010-53153053。

明道云运维团队

2022 年 03 月 15 日

feedback@mingdao.com