尊敬的明道云用户:
12 月 28 日早上 10 点 30 分左右,收到内外部反馈无法打开明道云甚至出现 502 错误的情况,经过运维工程师排查发现,服务调度集群节点出现未就绪状态,并且节点服务器无法进行远程连接,初步排查是集群节点所在机房出现了网络故障,遂经过与 UCloud 工程师确认是服务集群所在北京 D 机房整体出现内网网络故障,由于我们 K8S 工作节点以及部分数据节点均在此机房,故无法对服务进行可用性切换
- 12 月 28 日 11 点 20 分左右,UCloud 告知故障恢复
- 12 月 28 日 11 点 30 分左右,集群工作节点逐步恢复,服务逐步开始启动
- 12 月 28 日 11 点 38 分左右,明道云服务基本恢复达到可用状态
服务恢复之后,还有反馈卡顿比较慢的情况,经过排查由于集群工作节点逐个恢复,调度器将大部分服务都调度到了先行恢复的工作节点,导致这些节点资源占用异常,运维工程师重新进行了服务重新调度,于 14 点 20 分左右彻底恢复
后续措施:
- 与 Ucloud 云计算团队加强沟通,确认此次 D 可用区故障根本原因
- 探讨更高级别可用性方案并针对性进行优化
给您带来的影响我们深感抱歉,我们将持续跟进并保持关注,如有疑问请随时联系我们 010-53153053
感谢您的支持与理解!
明道云团队
2020.12.28
附件:UCloud 故障报告