背景
一个周五晚上,22:47。Telegram 告警触发:主数据中心宕机。不是一台服务器,不是一个机柜——而是整个数据中心。级联电力故障,UPS 系统未能撑住。
28 个 MariaDB / MySQL 实例、3 个 Galera 集群、2 个 ProxySQL。全部离线。
事件时间线
| 时间 | 操作 |
|---|---|
| 22:47 | PmaControl 告警 — 数据中心不可达 |
| 22:49 | OVH 确认 — 数据中心发生电力事故 |
| 22:51 | DNS 故障切换到备用数据中心 |
| 22:54 | 在存活节点上引导 Galera 集群 |
| 22:58 | ProxySQL 自动重新配置 |
| 23:01 | 在备用集群上首次 SELECT 成功 |
经验总结
- 备份远远不够 — 没有经过测试的恢复计划,备份就毫无用处
- Galera IST 与 SST — 恢复时间是 2 分钟还是 2 小时的差别
- PmaControl 在 12 秒内检测到事故 — 甚至早于 OVH 的告警
总结
从告警到首次 SELECT,14 分钟。这是充分准备的结果,而不是运气。
"备份无法替代恢复策略。" — PmaControl
评论 (0)
暂无评论。
发表评论