1. INTERVENANTS

DJEBBOURI Younes
Architecte Azure et DevOps 🚀💻✨

2. PROBLÉMATIQUE

🌪️ Et si ton infra tombait…

Tu gères des VMs, du PaaS, du stockage, peut-être des workloads critiques. Tout tourne bien.
Mais as-tu déjà imaginé ce qui se passe quand tout s’arrête sans prévenir ?

Une mise à jour réseau qui dégénère, un opérateur qui supprime une ressource par erreur, une région Azure qui devient indisponible…
Les causes sont multiples.
Et ce jour-là, tu n’auras pas le temps de chercher la doc. Ce qu’il te faut, c’est un plan clair, testé, maîtrisé.

🎯 C’est là qu’interviennent le PRA (Plan de Reprise d’Activité) et le PCA (Plan de Continuité d’Activité).

Ce ne sont pas juste des options qu’on active dans un portail Azure.
Ce sont des choix d’architecture, des scénarios à anticiper, et une orchestration à préparer à l’avance, bien avant que la panne ne survienne

3. FONDAMENTAUX (PRA vs PCA)

On entend souvent ces deux termes utilisés indifféremment, comme s’ils désignaient la même chose.
Mais en réalité, le PCA et le PRA répondent à deux besoins très différents

Le Plan de Continuité d’Activité (PCA)

Le PCA, c’est ce qui évite que ton service tombe.
C’est de la résilience intégrée à ton architecture : on anticipe, on redonde, on absorbe les chocs

🎯 Objectif : continuer à fonctionner malgré un incident.

Dans Azure, ça peut vouloir dire :

Déployer en multi-zones pour survivre à la perte d’un datacenter
Répartir la charge entre plusieurs régions avec Traffic Manager ou Front Door
Utiliser un cluster PaaS en géo-réplication active (Azure SQL, Cosmos DB…)

📌 Le PCA, c’est proactif : tu prépares ton infra pour ne jamais t’arrêter.

Le Plan de Reprise d’Activité (PRA)

Le PRA, c’est ce qui entre en jeu quand tu n’as pas pu éviter la panne

🎯 Objectif : reprendre rapidement l’activité après un arrêt complet ou partiel

Là, on parle de :

Restaurer une VM depuis une sauvegarde (via RSV)
Basculement orchestré vers un site secondaire (via ASR)
Rétablissement manuel ou semi-automatisé de services critiques

📌 Le PRA, c’est réactif : il te permet de revenir en ligne proprement, avec un impact minimal sur les données et les utilisateurs

RTO ? RPO ? SLA ? Il faut parler la même langue

Avant de dessiner des schémas ou de déployer quoi que ce soit, il faut s’accorder sur les objectifs métiers.

Le PRA/PCA ne commence ni avec ASR, ni avec une ligne Terraform.
Il commence avec un tableau blanc, et des questions simples :

Combien de temps l’activité peut-elle être interrompue ?
Combien de données peut-on se permettre de perdre ?
Quelle est la disponibilité cible du service ?
Quels engagements prend Azure sur les services utilisés ?

Recovery Time Objective (RTO)

⏱️ Combien de temps suis-je prêt à attendre pour que mon système redevienne opérationnel ?

Exemples :

Site e-commerce → RTO 15 min (vente perdue = argent perdu)
Intranet RH → RTO 4h (impact modéré, tolérance plus haute)

🎯 Le RTO détermine les outils qu’on va mobiliser :
👉 Orchestration automatique ? Redéploiement manuel ? Cluster actif/passif ?

Recovery Point Objective (RPO)

📉 Combien de données puis-je perdre sans que cela devienne critique ?

Exemples :

Base de données client → RPO 5 min (toute perte est critique)
Fichiers partagés d’archives → RPO 24h (peu d’écritures fréquentes)

🎯 Le RPO influence directement la fréquence de réplication ou de sauvegarde.

Service Level Agreement (SLA)

🔐 Engagement contractuel d’Azure sur la disponibilité d’un service.

Service Azure	SLA Standard
Azure VM avec 1 instance	99.9%
Azure VM dans un AS + 2 zones	99.99%
Azure SQL avec geo-replica	99.99%
Azure Storage RA-GRS	99.99% lecture
Azure Front Door	99.99% globalement
Azure Trafic Manager	100%

⚠️ Ces chiffres ne couvrent que la couche Azure.
Ils ne garantissent pas que ton application respecte ce même niveau de dispo

Service Level Objective (SLO)

🧭 L’objectif interne, que tu te fixes vis-à-vis des métiers.

Exemple :

L’équipe Cloud vise 99.95% de dispo pour un portail client.
L’équipe DevOps impose un RTO < 30 min pour toute app exposée.

🎯 Le SLO est plus exigeant que le SLA. Il est souvent contractualisé en interne avec les métiers.

🟢 Résumé :
– Ton RTO guide la vitesse de reprise
– Ton RPO définit la perte de données acceptable
– Le SLA, c’est ce qu’Azure promet
– Le SLO, c’est ce que toi tu dois garantir
👉 Et c’est en croisant les exigences métiers avec les limites techniques qu’on bâtit une vraie stratégie PRA/PCA.

Outils Azure dans une stratégie PRA / PCA

Azure fournit toutes les briques pour construire une stratégie de résilience solide.
Mais attention : c’est à toi de les assembler intelligemment, selon ton contexte, tes contraintes, et ton budget.

Voici les principaux outils à connaître et comment les utiliser dans une approche structurée PRA / PCA

Catégorie 1 : Sauvegarde & restauration

Outil	Rôle principal	Détails
Recovery Services Vault (RSV)	Sauvegarde des VMs, fichiers, bases	Intégration native avec Azure VM, Azure SQL, SAP HANA, etc.
Azure Backup Center	Supervision centralisée	Vue globale multi-vaults, alertes, conformité
Snapshot managés	Restauration rapide de disques	Idéal pour les sauvegardes à chaud ou hors RSV
Azure File Share Backup	Protection des partages de fichiers	Compatible avec Azure Files (Standard/Premium)

⚠️ Retenir : les sauvegardes protègent tes données, pas ton application dans son ensemble.

Catégorie 2 : Réplication & failover

Outil	Rôle principal	Détails
Azure Site Recovery (ASR)	Réplication des VM (Azure↔Azure ou OnPrem↔Azure)	Orchestration, test plan, failover et fallback
Azure SQL Geo-Replication	Continuité PaaS SQL	Active/Passive ou Failover Group automatique
Azure Storage GRS / RA-GRS	Redondance inter-région	Résilience sur les blobs, table, queues
Azure PostgreSQL / Cosmos DB DR	Réplication PaaS managée	Geo-redundant avec bascule contrôlée ou automatique

⚠️ ASR est l’outil le plus complet pour IaaS, mais il ne couvre pas tout (ex : App Services, etc.).

Catégorie 3 : Routage & supervision multi-région

Outil	Rôle principal	Détails
Azure Front Door	Routage mondial avec failover automatique	Idéal pour apps web, supporte le health check
Azure Traffic Manager	DNS load balancing	Bascule conditionnelle basée sur la dispo régionale
Azure DNS	Gestion centralisée des zones DNS	Important pour basculer les endpoints rapidement
Application Insights / Log Analytics	Visibilité temps réel	Alerting + détection d’anomalies (down, latence, etc.)

⚠️ Le routage, c’est le point faible de 80% des plans PRA non testés.

Catégorie 4 : Orchestration & test

Outil	Rôle principal	Détails
Azure Automation / Runbooks	Exécution de tâches répétables	Idéal pour exécuter un scénario de bascule custom
Logic Apps	Orchestration visuelle + intégration ITSM	Intégration facile avec ITSM, Slack, Teams, etc.
Azure Chaos Studio	Simulation d’incidents	Injection de pannes sur VM, réseau, etc.
Azure Blueprints / Bicep / Terraform	Redéploiement infra	En cas de DR total, tu dois savoir reconstruire rapidement

⚠️ Un PRA sans test régulier = illusion de sécurité.
La vraie maturité, c’est l’automatisation du test de reprise.

Idées reçues et pièges fréquents

Un PRA/PCA mal pensé, c’est souvent un faux sentiment de sécurité.
Et ce n’est pas la technologie qui manque, c’est la connaissance des risques et le réalisme dans les choix.

Voici les erreurs les plus courantes qu’on voit en entreprise, même dans des architectures cloud avancées.

“Azure garantit la haute disponibilité, je suis tranquille”

Pas tout à fait. Azure te garantit la disponibilité de ses services, pas celle de ton application.

Une région peut tomber (ex : incidents West Europe 2023).
Un service peut être partiellement dégradé (ex : App Service plan bloqué).
Un bug dans ton déploiement n’est pas couvert par le SLA Azure.

🎯 C’est à toi de concevoir une résilience applicative au-dessus des SLA Azure.

“On testera le failover en cas d’incident”

Erreur critique. Le test à froid, c’est trop tard.

Les DNS ne basculent pas automatiquement.
Le vault est peut-être incomplet.
Le script de relance a été modifié et plus personne ne le connaît.
La réplication ne couvrait pas tous les disques.

🎯 Un PRA/PCA non testé = un PRA/PCA inexistant.

“On veut 0 perte, 0 interruption, 0 impact… et 0 coût”

Ça n’existe pas.
Chaque seconde de dispo a un coût. Chaque RPO plus bas consomme plus de ressources.

🎯 Le bon équilibre, c’est celui où le risque métier est aligné avec le budget réel et la technologie maîtrisée

À retenir

Un PRA/PCA, c’est d’abord une démarche métier avant d’être technique.
Sauvegarde ≠ reprise. SLA Azure ≠ continuité applicative.
Sans test, sans orchestration, et sans documentation claire, ton plan ne sert à rien.

PROCHAIN ARTICLE

Dans cette seconde partie, on entre dans le concret 💪 :

Sauvegardes, réplications, orchestration :
tout ce qu’il faut pour bâtir un PCA IaaS solide, sans illusions.

Au programme :

Azure Backup / RSV : ce que ça protège… et ce que ça ne fait pas
Azure Site Recovery : architecture, bascule régionale, pièges réels
Comment structurer un plan de reprise avec des VM, du réseau, et des dépendances
Pourquoi 90% des tests ASR échouent la première fois (et comment éviter ça)

🎯 Objectif : poser les fondations d’un plan PRA réaliste, adapté à ton infra, et surtout testable.

Younes Djebbouri

Architecte Cloud Azure & DevOps. Passionné par la sécurité, la résilience et les bonnes pratiques d'architecture.

Suivre sur LinkedIn →

Initiation au PRA et PCA sur Azure