PmaControl logo PmaControl
  • Accueil
  • PmaControl
    • Agents IA 13 agents on-premise
    • Nos offres Community, Cloud, On-Premise, Premium
    • Documentation Guides, API, architecture
    • Clients 28+ entreprises
    • FAQ 25 questions / 7 catégories
    Bases de données
    • MariaDB 30 articles
    • MySQL 10 articles
    • Galera Cluster 6 articles
    • MaxScale 3 articles
    • ProxySQL 2 articles
    • Amazon Aurora MySQL 0 article
    • Azure Database 0 article
    • ClickHouse 0 article
    • GCP CloudSQL 0 article
    • Percona Server 0 article
    • SingleStore 0 article
    • TiDB 0 article
    • Vitess 0 article
    Solutions
    • Support 24×7 Urgences MariaDB & MySQL
    • Observabilité SQL Monitoring, alertes, topologie
    • Haute disponibilité Réplication, failover, Galera
    • Disaster Recovery Backup, restore, RPO/RTO
    • Sécurité & conformité Audit, RGPD, SOC2
    • Migration & upgrade Zero downtime, pt-osc, gh-ost
  • Nos offres
  • Ressources
    • Documentation Guides techniques & API
    • FAQ 25 questions fréquentes
    • Témoignages Retours clients & cas d'usage
    • Blog Articles & insights
    • Roadmap Fonctionnalités à venir
    Domaines d'expertise
    • Observabilité SQL Monitoring, alertes, topologie Dot3
    • Haute disponibilité Réplication, failover, Galera
    • Sécurité & conformité Audit, RGPD, SOC2, ISO 27001
    • Disaster Recovery Backup, restore, RPO/RTO
    • Performance & optimisation Digests, EXPLAIN, tuning
    • Migration & upgrade Zero downtime, pt-osc
    Liens rapides
    • Wiki GitHub 26 pages — install, engine, plugins
    • Code source Repository GitHub officiel
    • Support 24×7 Urgences MariaDB & MySQL
    • Réserver une démo 30 min — architecture réelle
  • Support 24×7
  • Réserver une démo
Réserver une démo
🇫🇷 FR Français 🇬🇧 EN English 🇵🇱 PL Polski 🇷🇺 RU Русский 🇨🇳 ZH 中文
← Retour au blog

Control the uncontrollable : anatomie d'un crash DC

Publié le 15 mars 2026 Par Aurélien LEQUOY
incident disaster-recovery galera
Partager X LinkedIn Facebook Email PDF
Control the uncontrollable : anatomie d'un crash DC

Le contexte

Un vendredi soir, 22h47. L'alerte Telegram tombe : le datacenter principal est down. Pas un serveur, pas un rack — tout le DC. Coupure électrique en cascade, les onduleurs n'ont pas tenu.

28 instances MariaDB / MySQL, 3 clusters Galera, 2 ProxySQL. Tout est offline.

La timeline

Heure Action
22:47 Alerte PmaControl — DC unreachable
22:49 Confirmation OVH — incident électrique DC
22:51 Basculement DNS vers DC secondaire
22:54 Galera bootstrap sur le noeud survivant
22:58 ProxySQL reconfiguration automatique
23:01 Premiers SELECT OK sur le cluster secondaire

Les leçons

  1. Les sauvegardes ne suffisent pas — sans un plan de reprise testé, elles ne servent à rien
  2. Galera IST vs SST — la différence entre 2 minutes et 2 heures de recovery
  3. PmaControl a détecté l'incident en 12 secondes — avant même l'alerte OVH

Conclusion

14 minutes entre l'alerte et le premier SELECT. C'est le résultat d'une préparation, pas de la chance.

"Une sauvegarde ne remplace pas une stratégie de reprise." — PmaControl

Partager X LinkedIn Facebook Email PDF
← Retour au blog

Commentaires (0)

Aucun commentaire pour le moment.

Laisser un commentaire

PmaControl
+33 6 63 28 27 47 contact@pmacontrol.com
Mentions légales GitHub Contact
N'attendez pas l'incident pour comprendre votre architecture. © 2014-2026 PmaControl — 68Koncept