Kontekst
Piątkowy wieczór, 22:47. Przychodzi alert Telegram: główne centrum danych jest niedostępne. Nie jeden serwer, nie jedna szafa — cały DC. Kaskadowa awaria zasilania, UPS-y nie wytrzymały.
28 instancji MariaDB / MySQL, 3 klastry Galera, 2 ProxySQL. Wszystko offline.
Oś czasu
| Godzina | Działanie |
|---|---|
| 22:47 | Alert PmaControl — DC nieosiągalny |
| 22:49 | Potwierdzenie OVH — incydent zasilania DC |
| 22:51 | Przełączenie DNS do zapasowego DC |
| 22:54 | Bootstrap Galera na ocalałym węźle |
| 22:58 | Automatyczna rekonfiguracja ProxySQL |
| 23:01 | Pierwsze poprawne SELECT na klastrze zapasowym |
Wnioski
- Kopie zapasowe nie wystarczą — bez przetestowanego planu odtwarzania są bezużyteczne
- Galera IST vs SST — różnica między 2 minutami a 2 godzinami odtwarzania
- PmaControl wykrył incydent w 12 sekund — przed alertem OVH
Podsumowanie
14 minut od alertu do pierwszego SELECT. To wynik przygotowania, nie szczęścia.
"Kopia zapasowa nie zastępuje strategii odtwarzania." — PmaControl
Opublikowano (0)
Nieprawidłowy adres e-mail.
Autor