Le contexte
Un vendredi soir, 22h47. L'alerte Telegram tombe : le datacenter principal est down. Pas un serveur, pas un rack — tout le DC. Coupure électrique en cascade, les onduleurs n'ont pas tenu.
28 instances MariaDB / MySQL, 3 clusters Galera, 2 ProxySQL. Tout est offline.
La timeline
| Heure | Action |
|---|---|
| 22:47 | Alerte PmaControl — DC unreachable |
| 22:49 | Confirmation OVH — incident électrique DC |
| 22:51 | Basculement DNS vers DC secondaire |
| 22:54 | Galera bootstrap sur le noeud survivant |
| 22:58 | ProxySQL reconfiguration automatique |
| 23:01 | Premiers SELECT OK sur le cluster secondaire |
Les leçons
- Les sauvegardes ne suffisent pas — sans un plan de reprise testé, elles ne servent à rien
- Galera IST vs SST — la différence entre 2 minutes et 2 heures de recovery
- PmaControl a détecté l'incident en 12 secondes — avant même l'alerte OVH
Conclusion
14 minutes entre l'alerte et le premier SELECT. C'est le résultat d'une préparation, pas de la chance.
"Une sauvegarde ne remplace pas une stratégie de reprise." — PmaControl
Commentaires (0)
Aucun commentaire pour le moment.
Laisser un commentaire