1. INTERVENANTS

DJEBBOURI Younes
Architecte Azure et DevOps 🚀💻✨

2. PROBLÉMATIQUE

🌪️ Et si ton infra tombait…

Tu gères des VMs, du PaaS, du stockage, peut-être des workloads critiques. Tout tourne bien.
Mais as-tu déjà imaginé ce qui se passe quand tout s’arrête sans prévenir ?

Une mise à jour réseau qui dégénère, un opérateur qui supprime une ressource par erreur, une région Azure qui devient indisponible…
Les causes sont multiples.
Et ce jour-là, tu n’auras pas le temps de chercher la doc. Ce qu’il te faut, c’est un plan clair, testé, maîtrisé.

🎯 C’est là qu’interviennent le PRA (Plan de Reprise d’Activité) et le PCA (Plan de Continuité d’Activité).

Ce ne sont pas juste des options qu’on active dans un portail Azure.
Ce sont des choix d’architecture, des scénarios à anticiper, et une orchestration à préparer à l’avance, bien avant que la panne ne survienne

3. FONDAMENTAUX (PRA vs PCA)

On entend souvent ces deux termes utilisés indifféremment, comme s’ils désignaient la même chose.
Mais en réalité, le PCA et le PRA répondent à deux besoins très différents

Le PCA, c’est ce qui évite que ton service tombe.
C’est de la résilience intégrée à ton architecture : on anticipe, on redonde, on absorbe les chocs

🎯 Objectif : continuer à fonctionner malgré un incident.

Dans Azure, ça peut vouloir dire :

  • Déployer en multi-zones pour survivre à la perte d’un datacenter
  • Répartir la charge entre plusieurs régions avec Traffic Manager ou Front Door
  • Utiliser un cluster PaaS en géo-réplication active (Azure SQL, Cosmos DB…)

📌 Le PCA, c’est proactif : tu prépares ton infra pour ne jamais t’arrêter.


Le PRA, c’est ce qui entre en jeu quand tu n’as pas pu éviter la panne

🎯 Objectif : reprendre rapidement l’activité après un arrêt complet ou partiel

Là, on parle de :

  • Restaurer une VM depuis une sauvegarde (via RSV)
  • Basculement orchestré vers un site secondaire (via ASR)
  • Rétablissement manuel ou semi-automatisé de services critiques

📌 Le PRA, c’est réactif : il te permet de revenir en ligne proprement, avec un impact minimal sur les données et les utilisateurs


Avant de dessiner des schémas ou de déployer quoi que ce soit, il faut s’accorder sur les objectifs métiers.

Le PRA/PCA ne commence ni avec ASR, ni avec une ligne Terraform.
Il commence avec un tableau blanc, et des questions simples :

  • Combien de temps l’activité peut-elle être interrompue ?
  • Combien de données peut-on se permettre de perdre ?
  • Quelle est la disponibilité cible du service ?
  • Quels engagements prend Azure sur les services utilisés ?

⏱️ Combien de temps suis-je prêt à attendre pour que mon système redevienne opérationnel ?

Exemples :

  • Site e-commerce → RTO 15 min (vente perdue = argent perdu)
  • Intranet RH → RTO 4h (impact modéré, tolérance plus haute)

🎯 Le RTO détermine les outils qu’on va mobiliser :
👉 Orchestration automatique ? Redéploiement manuel ? Cluster actif/passif ?


📉 Combien de données puis-je perdre sans que cela devienne critique ?

Exemples :

  • Base de données client → RPO 5 min (toute perte est critique)
  • Fichiers partagés d’archives → RPO 24h (peu d’écritures fréquentes)

🎯 Le RPO influence directement la fréquence de réplication ou de sauvegarde.


🔐 Engagement contractuel d’Azure sur la disponibilité d’un service.

Service AzureSLA Standard
Azure VM avec 1 instance99.9%
Azure VM dans un AS + 2 zones99.99%
Azure SQL avec geo-replica99.99%
Azure Storage RA-GRS99.99% lecture
Azure Front Door99.99% globalement
Azure Trafic Manager100%
⚠️ Ces chiffres ne couvrent que la couche Azure.
Ils ne garantissent pas que ton application respecte ce même niveau de dispo

🧭 L’objectif interne, que tu te fixes vis-à-vis des métiers.

Exemple :

  • L’équipe Cloud vise 99.95% de dispo pour un portail client.
  • L’équipe DevOps impose un RTO < 30 min pour toute app exposée.

🎯 Le SLO est plus exigeant que le SLA. Il est souvent contractualisé en interne avec les métiers.

🟢 Résumé :
– Ton RTO guide la vitesse de reprise
– Ton RPO définit la perte de données acceptable
– Le SLA, c’est ce qu’Azure promet
– Le SLO, c’est ce que toi tu dois garantir
👉 Et c’est en croisant les exigences métiers avec les limites techniques qu’on bâtit une vraie stratégie PRA/PCA.

Azure fournit toutes les briques pour construire une stratégie de résilience solide.
Mais attention : c’est à toi de les assembler intelligemment, selon ton contexte, tes contraintes, et ton budget.

Voici les principaux outils à connaître et comment les utiliser dans une approche structurée PRA / PCA

OutilRôle principalDétails
Recovery Services Vault (RSV)Sauvegarde des VMs, fichiers, basesIntégration native avec Azure VM, Azure SQL, SAP HANA, etc.
Azure Backup CenterSupervision centraliséeVue globale multi-vaults, alertes, conformité
Snapshot managésRestauration rapide de disquesIdéal pour les sauvegardes à chaud ou hors RSV
Azure File Share BackupProtection des partages de fichiersCompatible avec Azure Files (Standard/Premium)
⚠️ Retenir : les sauvegardes protègent tes données, pas ton application dans son ensemble.

OutilRôle principalDétails
Azure Site Recovery (ASR)Réplication des VM (Azure↔Azure ou OnPrem↔Azure)Orchestration, test plan, failover et fallback
Azure SQL Geo-ReplicationContinuité PaaS SQLActive/Passive ou Failover Group automatique
Azure Storage GRS / RA-GRSRedondance inter-régionRésilience sur les blobs, table, queues
Azure PostgreSQL / Cosmos DB DRRéplication PaaS managéeGeo-redundant avec bascule contrôlée ou automatique
⚠️ ASR est l’outil le plus complet pour IaaS, mais il ne couvre pas tout (ex : App Services, etc.).

OutilRôle principal Détails
Azure Front DoorRoutage mondial avec failover automatiqueIdéal pour apps web, supporte le health check
Azure Traffic ManagerDNS load balancingBascule conditionnelle basée sur la dispo régionale
Azure DNSGestion centralisée des zones DNSImportant pour basculer les endpoints rapidement
Application Insights / Log AnalyticsVisibilité temps réelAlerting + détection d’anomalies (down, latence, etc.)
⚠️ Le routage, c’est le point faible de 80% des plans PRA non testés.
OutilRôle principalDétails
Azure Automation / RunbooksExécution de tâches répétablesIdéal pour exécuter un scénario de bascule custom
Logic AppsOrchestration visuelle + intégration ITSMIntégration facile avec ITSM, Slack, Teams, etc.
Azure Chaos StudioSimulation d’incidentsInjection de pannes sur VM, réseau, etc.
Azure Blueprints / Bicep / TerraformRedéploiement infraEn cas de DR total, tu dois savoir reconstruire rapidement
⚠️ Un PRA sans test régulier = illusion de sécurité.
La vraie maturité, c’est l’automatisation du test de reprise.

Un PRA/PCA mal pensé, c’est souvent un faux sentiment de sécurité.
Et ce n’est pas la technologie qui manque, c’est la connaissance des risques et le réalisme dans les choix.

Voici les erreurs les plus courantes qu’on voit en entreprise, même dans des architectures cloud avancées.

Pas tout à fait. Azure te garantit la disponibilité de ses services, pas celle de ton application.

  • Une région peut tomber (ex : incidents West Europe 2023).
  • Un service peut être partiellement dégradé (ex : App Service plan bloqué).
  • Un bug dans ton déploiement n’est pas couvert par le SLA Azure.

🎯 C’est à toi de concevoir une résilience applicative au-dessus des SLA Azure.

Erreur critique. Le test à froid, c’est trop tard.

  • Les DNS ne basculent pas automatiquement.
  • Le vault est peut-être incomplet.
  • Le script de relance a été modifié et plus personne ne le connaît.
  • La réplication ne couvrait pas tous les disques.

🎯 Un PRA/PCA non testé = un PRA/PCA inexistant.

Ça n’existe pas.
Chaque seconde de dispo a un coût. Chaque RPO plus bas consomme plus de ressources.

🎯 Le bon équilibre, c’est celui où le risque métier est aligné avec le budget réel et la technologie maîtrisée

  • Un PRA/PCA, c’est d’abord une démarche métier avant d’être technique.
  • Sauvegarde ≠ reprise. SLA Azure ≠ continuité applicative.
  • Sans test, sans orchestration, et sans documentation claire, ton plan ne sert à rien.

PROCHAIN ARTICLE

Dans cette seconde partie, on entre dans le concret 💪 :

Sauvegardes, réplications, orchestration :
tout ce qu’il faut pour bâtir un PCA IaaS solide, sans illusions.

Au programme :

  • Azure Backup / RSV : ce que ça protège… et ce que ça ne fait pas
  • Azure Site Recovery : architecture, bascule régionale, pièges réels
  • Comment structurer un plan de reprise avec des VM, du réseau, et des dépendances
  • Pourquoi 90% des tests ASR échouent la première fois (et comment éviter ça)

🎯 Objectif : poser les fondations d’un plan PRA réaliste, adapté à ton infra, et surtout testable.

Younes Djebbouri

Younes Djebbouri

Architecte Cloud Azure & DevOps. Passionné par la sécurité, la résilience et les bonnes pratiques d'architecture.

Suivre sur LinkedIn →