Контекст
Пятница, 22:47. Приходит алерт в Telegram: основной дата-центр недоступен. Не сервер, не стойка — весь ДЦ. Каскадное отключение электропитания, ИБП не выдержали.
28 экземпляров MariaDB / MySQL, 3 кластера Galera, 2 ProxySQL. Всё в оффлайне.
Хронология
| Время | Действие |
|---|---|
| 22:47 | Алерт PmaControl — ДЦ недоступен |
| 22:49 | Подтверждение от OVH — инцидент с электропитанием |
| 22:51 | Переключение DNS на резервный ДЦ |
| 22:54 | Bootstrap Galera на выжившем узле |
| 22:58 | Автоматическая переконфигурация ProxySQL |
| 23:01 | Первые успешные SELECT на резервном кластере |
Извлечённые уроки
- Бэкапов недостаточно — без протестированного плана восстановления они бесполезны
- Galera IST vs SST — разница между 2 минутами и 2 часами восстановления
- PmaControl обнаружил инцидент за 12 секунд — раньше алерта от OVH
Заключение
14 минут между алертом и первым SELECT. Это результат подготовки, а не везения.
«Бэкап не заменяет стратегию восстановления.» — PmaControl
Комментарии (0)
Комментариев пока нет.
Оставить комментарий