Kontekst

Piątkowy wieczór, 22:47. Przychodzi alert Telegram: główne centrum danych jest niedostępne. Nie jeden serwer, nie jedna szafa — cały DC. Kaskadowa awaria zasilania, UPS-y nie wytrzymały.

28 instancji MariaDB / MySQL, 3 klastry Galera, 2 ProxySQL. Wszystko offline.

Oś czasu

Godzina	Działanie
22:47	Alert PmaControl — DC nieosiągalny
22:49	Potwierdzenie OVH — incydent zasilania DC
22:51	Przełączenie DNS do zapasowego DC
22:54	Bootstrap Galera na ocalałym węźle
22:58	Automatyczna rekonfiguracja ProxySQL
23:01	Pierwsze poprawne SELECT na klastrze zapasowym

Wnioski

Kopie zapasowe nie wystarczą — bez przetestowanego planu odtwarzania są bezużyteczne
Galera IST vs SST — różnica między 2 minutami a 2 godzinami odtwarzania
PmaControl wykrył incydent w 12 sekund — przed alertem OVH

Podsumowanie

14 minut od alertu do pierwszego SELECT. To wynik przygotowania, nie szczęścia.

"Kopia zapasowa nie zastępuje strategii odtwarzania." — PmaControl

Opublikowano (0)

Nieprawidłowy adres e-mail.

Kontrola nad niekontrolowanym: anatomia awarii DC

Kontekst

Oś czasu

Wnioski

Podsumowanie

Opublikowano (0)

Autor