1. INTERVENANTS
DJEBBOURI Younes
Architecte Azure et DevOps đđ»âš
2. PROBLĂMATIQUE
đȘïž Et si ton infra tombaitâŠ
Tu gĂšres des VMs, du PaaS, du stockage, peut-ĂȘtre des workloads critiques. Tout tourne bien.
Mais as-tu dĂ©jĂ imaginĂ© ce qui se passe quand tout sâarrĂȘte sans prĂ©venir ?
Une mise Ă jour rĂ©seau qui dĂ©gĂ©nĂšre, un opĂ©rateur qui supprime une ressource par erreur, une rĂ©gion Azure qui devient indisponibleâŠ
Les causes sont multiples.
Et ce jour-lĂ , tu nâauras pas le temps de chercher la doc. Ce quâil te faut, câest un plan clair, testĂ©, maĂźtrisĂ©.
đŻ Câest lĂ quâinterviennent le PRA (Plan de Reprise dâActivitĂ©) et le PCA (Plan de ContinuitĂ© dâActivitĂ©).
Ce ne sont pas juste des options quâon active dans un portail Azure.
Ce sont des choix dâarchitecture, des scĂ©narios Ă anticiper, et une orchestration Ă prĂ©parer Ă lâavance, bien avant que la panne ne survienne
3. FONDAMENTAUX (PRA vs PCA)
On entend souvent ces deux termes utilisĂ©s indiffĂ©remment, comme sâils dĂ©signaient la mĂȘme chose.
Mais en réalité, le PCA et le PRA répondent à deux besoins trÚs différents
Le Plan de ContinuitĂ© dâActivitĂ© (PCA)
Le PCA, câest ce qui Ă©vite que ton service tombe.
Câest de la rĂ©silience intĂ©grĂ©e Ă ton architecture : on anticipe, on redonde, on absorbe les chocs
đŻ Objectif : continuer Ă fonctionner malgrĂ© un incident.
Dans Azure, ça peut vouloir dire :
- DĂ©ployer en multi-zones pour survivre Ă la perte dâun datacenter
- Répartir la charge entre plusieurs régions avec Traffic Manager ou Front Door
- Utiliser un cluster PaaS en gĂ©o-rĂ©plication active (Azure SQL, Cosmos DBâŠ)
đ Le PCA, câest proactif : tu prĂ©pares ton infra pour ne jamais tâarrĂȘter.
Le Plan de Reprise dâActivitĂ© (PRA)
Le PRA, câest ce qui entre en jeu quand tu nâas pas pu Ă©viter la panne
đŻ Objectif : reprendre rapidement lâactivitĂ© aprĂšs un arrĂȘt complet ou partiel
LĂ , on parle de :
- Restaurer une VM depuis une sauvegarde (via RSV)
- Basculement orchestré vers un site secondaire (via ASR)
- Rétablissement manuel ou semi-automatisé de services critiques
đ Le PRA, câest rĂ©actif : il te permet de revenir en ligne proprement, avec un impact minimal sur les donnĂ©es et les utilisateurs
RTO ? RPO ? SLA ? Il faut parler la mĂȘme langue
Avant de dessiner des schĂ©mas ou de dĂ©ployer quoi que ce soit, il faut sâaccorder sur les objectifs mĂ©tiers.
Le PRA/PCA ne commence ni avec ASR, ni avec une ligne Terraform.
Il commence avec un tableau blanc, et des questions simples :
- Combien de temps lâactivitĂ© peut-elle ĂȘtre interrompue ?
- Combien de données peut-on se permettre de perdre ?
- Quelle est la disponibilité cible du service ?
- Quels engagements prend Azure sur les services utilisés ?
Recovery Time Objective (RTO)
â±ïž Combien de temps suis-je prĂȘt Ă attendre pour que mon systĂšme redevienne opĂ©rationnel ?
Exemples :
- Site e-commerce â RTO 15 min (vente perdue = argent perdu)
- Intranet RH â RTO 4h (impact modĂ©rĂ©, tolĂ©rance plus haute)
đŻ Le RTO dĂ©termine les outils quâon va mobiliser :
đ Orchestration automatique ? RedĂ©ploiement manuel ? Cluster actif/passif ?
Recovery Point Objective (RPO)
đ Combien de donnĂ©es puis-je perdre sans que cela devienne critique ?
Exemples :
- Base de donnĂ©es client â RPO 5 min (toute perte est critique)
- Fichiers partagĂ©s dâarchives â RPO 24h (peu dâĂ©critures frĂ©quentes)
đŻ Le RPO influence directement la frĂ©quence de rĂ©plication ou de sauvegarde.
Service Level Agreement (SLA)
đ Engagement contractuel dâAzure sur la disponibilitĂ© dâun service.
Service Azure | SLA Standard |
---|---|
Azure VM avec 1 instance | 99.9% |
Azure VM dans un AS + 2 zones | 99.99% |
Azure SQL avec geo-replica | 99.99% |
Azure Storage RA-GRS | 99.99% lecture |
Azure Front Door | 99.99% globalement |
Azure Trafic Manager | 100% |
â ïž Ces chiffres ne couvrent que la couche Azure. Ils ne garantissent pas que ton application respecte ce mĂȘme niveau de dispo |
Service Level Objective (SLO)
đ§ Lâobjectif interne, que tu te fixes vis-Ă -vis des mĂ©tiers.
Exemple :
- LâĂ©quipe Cloud vise 99.95% de dispo pour un portail client.
- LâĂ©quipe DevOps impose un RTO < 30 min pour toute app exposĂ©e.
đŻ Le SLO est plus exigeant que le SLA. Il est souvent contractualisĂ© en interne avec les mĂ©tiers.
đą RĂ©sumĂ© : – Ton RTO guide la vitesse de reprise – Ton RPO dĂ©finit la perte de donnĂ©es acceptable – Le SLA, câest ce quâAzure promet – Le SLO, câest ce que toi tu dois garantir đ Et câest en croisant les exigences mĂ©tiers avec les limites techniques quâon bĂątit une vraie stratĂ©gie PRA/PCA. |
Outils Azure dans une stratégie PRA / PCA

Azure fournit toutes les briques pour construire une stratégie de résilience solide.
Mais attention : câest Ă toi de les assembler intelligemment, selon ton contexte, tes contraintes, et ton budget.
Voici les principaux outils à connaßtre et comment les utiliser dans une approche structurée PRA / PCA
Catégorie 1 : Sauvegarde & restauration
Outil | RÎle principal | Détails |
---|---|---|
Recovery Services Vault (RSV) | Sauvegarde des VMs, fichiers, bases | Intégration native avec Azure VM, Azure SQL, SAP HANA, etc. |
Azure Backup Center | Supervision centralisée | Vue globale multi-vaults, alertes, conformité |
Snapshot managés | Restauration rapide de disques | Idéal pour les sauvegardes à chaud ou hors RSV |
Azure File Share Backup | Protection des partages de fichiers | Compatible avec Azure Files (Standard/Premium) |
â ïž Retenir : les sauvegardes protĂšgent tes donnĂ©es, pas ton application dans son ensemble. |
Catégorie 2 : Réplication & failover
Outil | RÎle principal | Détails |
---|---|---|
Azure Site Recovery (ASR) | RĂ©plication des VM (AzureâAzure ou OnPremâAzure) | Orchestration, test plan, failover et fallback |
Azure SQL Geo-Replication | Continuité PaaS SQL | Active/Passive ou Failover Group automatique |
Azure Storage GRS / RA-GRS | Redondance inter-région | Résilience sur les blobs, table, queues |
Azure PostgreSQL / Cosmos DB DR | Réplication PaaS managée | Geo-redundant avec bascule contrÎlée ou automatique |
â ïž ASR est lâoutil le plus complet pour IaaS, mais il ne couvre pas tout (ex : App Services, etc.). |
Catégorie 3 : Routage & supervision multi-région
Outil | RÎle principal | Détails |
---|---|---|
Azure Front Door | Routage mondial avec failover automatique | Idéal pour apps web, supporte le health check |
Azure Traffic Manager | DNS load balancing | Bascule conditionnelle basée sur la dispo régionale |
Azure DNS | Gestion centralisée des zones DNS | Important pour basculer les endpoints rapidement |
Application Insights / Log Analytics | VisibilitĂ© temps rĂ©el | Alerting + dĂ©tection dâanomalies (down, latence, etc.) |
â ïž Le routage, câest le point faible de 80% des plans PRA non testĂ©s. |
Catégorie 4 : Orchestration & test
Outil | RÎle principal | Détails |
---|---|---|
Azure Automation / Runbooks | Exécution de tùches répétables | Idéal pour exécuter un scénario de bascule custom |
Logic Apps | Orchestration visuelle + intégration ITSM | Intégration facile avec ITSM, Slack, Teams, etc. |
Azure Chaos Studio | Simulation dâincidents | Injection de pannes sur VM, rĂ©seau, etc. |
Azure Blueprints / Bicep / Terraform | Redéploiement infra | En cas de DR total, tu dois savoir reconstruire rapidement |
â ïž Un PRA sans test rĂ©gulier = illusion de sĂ©curitĂ©. La vraie maturitĂ©, câest lâautomatisation du test de reprise. |
Idées reçues et piÚges fréquents
Un PRA/PCA mal pensĂ©, câest souvent un faux sentiment de sĂ©curitĂ©.
Et ce nâest pas la technologie qui manque, câest la connaissance des risques et le rĂ©alisme dans les choix.
Voici les erreurs les plus courantes quâon voit en entreprise, mĂȘme dans des architectures cloud avancĂ©es.
âAzure garantit la haute disponibilitĂ©, je suis tranquilleâ
Pas tout à fait. Azure te garantit la disponibilité de ses services, pas celle de ton application.
- Une région peut tomber (ex : incidents West Europe 2023).
- Un service peut ĂȘtre partiellement dĂ©gradĂ© (ex : App Service plan bloquĂ©).
- Un bug dans ton dĂ©ploiement nâest pas couvert par le SLA Azure.
đŻ Câest Ă toi de concevoir une rĂ©silience applicative au-dessus des SLA Azure.
âOn testera le failover en cas dâincidentâ
Erreur critique. Le test Ă froid, câest trop tard.
- Les DNS ne basculent pas automatiquement.
- Le vault est peut-ĂȘtre incomplet.
- Le script de relance a été modifié et plus personne ne le connaßt.
- La réplication ne couvrait pas tous les disques.
đŻ Un PRA/PCA non testĂ© = un PRA/PCA inexistant.
âOn veut 0 perte, 0 interruption, 0 impact⊠et 0 coĂ»tâ
Ăa nâexiste pas.
Chaque seconde de dispo a un coût. Chaque RPO plus bas consomme plus de ressources.
đŻ Le bon Ă©quilibre, câest celui oĂč le risque mĂ©tier est alignĂ© avec le budget rĂ©el et la technologie maĂźtrisĂ©e
Ă retenir
- Un PRA/PCA, câest dâabord une dĂ©marche mĂ©tier avant dâĂȘtre technique.
- Sauvegarde â reprise. SLA Azure â continuitĂ© applicative.
- Sans test, sans orchestration, et sans documentation claire, ton plan ne sert Ă rien.
PROCHAIN ARTICLE
Dans cette seconde partie, on entre dans le concret đȘ :
Sauvegardes, réplications, orchestration :
tout ce quâil faut pour bĂątir un PCA IaaS solide, sans illusions.
Au programme :
- Azure Backup / RSV : ce que ça protÚge⊠et ce que ça ne fait pas
- Azure Site Recovery : architecture, bascule régionale, piÚges réels
- Comment structurer un plan de reprise avec des VM, du réseau, et des dépendances
- Pourquoi 90% des tests ASR échouent la premiÚre fois (et comment éviter ça)
đŻ Objectif : poser les fondations dâun plan PRA rĂ©aliste, adaptĂ© Ă ton infra, et surtout testable.