GitHub 的九月挑战
根据GitHub 博客,在 2024 年 9 月,GitHub 遭遇了多次服务中断,影响了 GitHub Actions、GitHub Pages 和 GitHub Codespaces 等关键功能。这些事件揭示了 GitHub 基础设施改进的领域,并促使公司实施战略性改进。
事故详述
第一次事故发生在 2024 年 9 月 16 日,当时 GitHub Actions 和 Pages 服务受到了 57 分钟的影响。服务管理运行器连接的错误配置导致了 CPU 限制,造成 Actions 任务的延迟。在此期间,多达 80% 的运行被延迟超过五分钟。GitHub 通过重定向运行器连接和改进监控系统来解决此问题。
在 2024 年 9 月 24 日,GitHub Codespaces 发生了一次网络连接中断,持续 44 分钟。SNAT 端口耗尽导致了 25% 的错误率。GitHub 通过增加端口分配缓解了问题,并计划增强网络容量监控以防止再次发生。
最后一次事故发生在 2024 年 9 月 30 日,影响了印度中部地区的 GitHub Codespaces 用户,他们由于存储容量限制而无法创建新的 codespaces,持续了 43 分钟。GitHub 临时将请求重定向到其他地区并增加了存储容量。同时确定并修复了限制容量利用的错误。
未来的改进
为应对这些事件,GitHub 承诺加强监控和容量规划措施,以避免未来出现类似问题。公司旨在提高检测和缓解此类中断的能力,从而为全球用户提供更稳定和可靠的服务。
用户可以访问 GitHub 的状态页面和GitHub 工程博客获取实时更新和详细的事后分析。
Image source: Shutterstock