根据GitHub,在2024年10月,GitHub经历了一次显著事件,导致其服务性能下降。此问题的根源在于公司某站点的数据库迁移导致的DNS基础设施故障。
事件概述
事件始于10月11日05:59 UTC,持续超过19小时。问题初始时,站点的DNS基础设施在数据库迁移后无法解析查询。恢复数据库的努力导致了连锁故障,进一步影响了DNS系统。从17:31 UTC开始,客户开始遇到问题,其中4%的Copilot用户面临IDE代码补全性能下降,25%的Actions工作流用户遭遇超过五分钟的延迟。此外,所有代码搜索请求在大约四小时内均失败。
响应和解决
通过将受影响的DNS站点重定向到一个备选位置以缓解问题的尝试最初没有成功,因为这一策略削弱了从健康站点返回到故障站点的连接。20:52 UTC,GitHub团队实施了一项补救计划,部署了临时DNS解析功能至受影响的站点。DNS解析在21:46 UTC开始恢复,并于22:16 UTC完全恢复正常。代码搜索的剩余问题于10月12日01:11 UTC得到解决。
未来预防措施
事件后,GitHub承诺加强其弹性和自动化流程,以加快诊断和解决未来类似问题的速度。公司旨在提高基础设施的可靠性,以防止类似事件的再发生。
为了获取GitHub服务状态的实时更新,用户被鼓励访问GitHub状态页面。此外,有关在研项目和改进的见解可以在GitHub工程博客中找到。
Image source: Shutterstock