2020-12-28_明道云服务故障通告

问答  收藏
0 / 746

尊敬的明道云用户:

12 月 28 日早上 10 点 30 分左右,收到内外部反馈无法打开明道云甚至出现 502 错误的情况,经过运维工程师排查发现,服务调度集群节点出现未就绪状态,并且节点服务器无法进行远程连接,初步排查是集群节点所在机房出现了网络故障,遂经过与 UCloud 工程师确认是服务集群所在北京 D 机房整体出现内网网络故障,由于我们 K8S 工作节点以及部分数据节点均在此机房,故无法对服务进行可用性切换

  • 12 月 28 日 11 点 20 分左右,UCloud 告知故障恢复
  • 12 月 28 日 11 点 30 分左右,集群工作节点逐步恢复,服务逐步开始启动
  • 12 月 28 日 11 点 38 分左右,明道云服务基本恢复达到可用状态

服务恢复之后,还有反馈卡顿比较慢的情况,经过排查由于集群工作节点逐个恢复,调度器将大部分服务都调度到了先行恢复的工作节点,导致这些节点资源占用异常,运维工程师重新进行了服务重新调度,于 14 点 20 分左右彻底恢复

后续措施:

  • 与 Ucloud 云计算团队加强沟通,确认此次 D 可用区故障根本原因
  • 探讨更高级别可用性方案并针对性进行优化

给您带来的影响我们深感抱歉,我们将持续跟进并保持关注,如有疑问请随时联系我们 010-53153053

感谢您的支持与理解!

明道云团队

2020.12.28

附件:UCloud 故障报告

2020.12.28 北京可用区 D 内网网络异常故障报告 1.jpg
2020.12.28 北京可用区 D 内网网络异常故障报告 2.jpg
2020.12.28 北京可用区 D 内网网络异常故障报告 3.jpg

报告下载:2020.12.28 北京可用区 D 内网网络异常故障报告.pdf