Le contexte

Un vendredi soir, 22h47. L'alerte Telegram tombe : le datacenter principal est down. Pas un serveur, pas un rack — tout le DC. Coupure électrique en cascade, les onduleurs n'ont pas tenu.

28 instances MariaDB / MySQL, 3 clusters Galera, 2 ProxySQL. Tout est offline.

La timeline

Heure	Action
22:47	Alerte PmaControl — DC unreachable
22:49	Confirmation OVH — incident électrique DC
22:51	Basculement DNS vers DC secondaire
22:54	Galera bootstrap sur le noeud survivant
22:58	ProxySQL reconfiguration automatique
23:01	Premiers SELECT OK sur le cluster secondaire

Les leçons

Les sauvegardes ne suffisent pas — sans un plan de reprise testé, elles ne servent à rien
Galera IST vs SST — la différence entre 2 minutes et 2 heures de recovery
PmaControl a détecté l'incident en 12 secondes — avant même l'alerte OVH

Conclusion

14 minutes entre l'alerte et le premier SELECT. C'est le résultat d'une préparation, pas de la chance.

"Une sauvegarde ne remplace pas une stratégie de reprise." — PmaControl

Commentaires (0)

Aucun commentaire pour le moment.

Control the uncontrollable : anatomie d'un crash DC

Le contexte

La timeline

Les leçons

Conclusion

Commentaires (0)

Laisser un commentaire