1. INTERVENANTS
DJEBBOURI Younes
Architecte Azure et DevOps đđ»âš
2. PROBLĂMATIQUE
« Quand ton infra tombe, ce ne sont pas des machines quâon doit redĂ©marrer, mais un service mĂ©tier complet, attendu par des clients, des agents, des Ă©quipes »
Anticiper lâincident, câest notre job. Et quand il sâagit dâinfrastructure IaaS, la vraie question nâest pas âest-ce que câest sauvegardĂ© ?â, mais âcombien de temps on met pour redĂ©marrer proprement ?â
Un PCA (Plan de ContinuitĂ© dâActivitĂ©) ou PRA (Plan de Reprise) bien conçu, câest une question de choix techniques lucides dĂšs le dĂ©part : architecture, contraintes applicatives, cohĂ©rence des dĂ©pendances, gouvernance des sauvegardes et design des scĂ©narios de bascule.
Ce premier article pose la base de ces arbitrages, avec du concret terrain et des points critiques Ă adresser en amont
3. ARBITRAGES CLĂS
Avant dâouvrir Azure Site Recovery ou de cliquer sur Backup Vault, il faut clarifier plusieurs choix structurants :
Régional ou Zonal ?

- Zonal : rĂ©plication dans une autre Zone de la mĂȘme RĂ©gion
- Régional : réplication vers une autre Région
Legacy ou Cloud-ready ?
Il faut cartographier : qui parle à qui, et quelles sont les dépendances critiques intra-Zone ou inter-Zone ?
Signaux à surveiller cÎté legacy :
- Connexions codées en dur à des IP privées
- Pas de DNS interne ou usage massif de
/etc/hosts
- Aucun gestionnaire de secrets (variables dâenvironnement, fichiers plats)
- Couplage fort entre application et base de donnĂ©es (latence critique, mĂȘmes AZ nĂ©cessaires)
- Dépendances techniques non documentées ou héritées (ports spécifiques, configurations locales)
Cloud-ready : API stateless, DB managée, gestion centralisée des secrets, DNS interne, infrastructure modulaire et documentée
Windows ou Linux ?
- Windows : intégration plus poussée avec Azure Backup (agent VSS, support SQL Server IaaS)
- Linux : plus léger à répliquer mais attention à la cohérence applicative
â ïž Attention : Certaines distributions ou noyaux custom peuvent poser problĂšme avec les agents Azure ou ASR (ex. no kernel support for Hyper-V sockets, modules manquants, etc.) Toujours vĂ©rifier la compatibilitĂ© avec ASR |
Latence entre zone : un frein réel
Exemple rĂ©el : une application dans AZ1 avec base de donnĂ©es dans AZ2 â les utilisateurs remontent des lenteurs.
đ Ce type dâobservation impacte lâarchitecture cible :
- đŽ PCA multi-zone Ă Ă©viter si les workloads sont trop sensibles Ă la latence inter-Zone
- đą PrĂ©fĂ©rer un PCA mono-zone avec VMSS flex : un par Zone, et bascule via ASR uniquement si nĂ©cessaire
Répartition & haute disponibilité

- Availability Set : pas compatible Capacity Reservation avec ASR
- Availability Zone : recommandé pour production stable
- VMSS Flex : pour PCA mono-zone
â ïž Attention : – VMSS Flex nâest pas compatible avec Ultra Disk |
Topologie Réseau & Dépendances DNS
- La réplication sans prise en compte du vNet, NSG, DNS ou routage custom = PCA Incomplet
- Le rĂ©seau de la zone ou rĂ©gion cible doit ĂȘtre prĂȘt Ă accueillir les VM rĂ©pliquĂ©es
â ïž ProblĂšme courant : tout est rĂ©pliquĂ©, mais rien ne rĂ©pond â DNS KO, UDR manquants, IPs invalides |
Recommandation :
Network Mapping : utilisez le mapping automatique ou manuel pour associer chaque vNet/source Ă un vNet/cible (-asr
suffix), ce qui permet une bascule IP transparente en cas de failover
Adresse IP : ASR respecte lâusage DHCP ou lâIP statique. Si statique, assurez-vous que cette IP est valide dans la zone cible .
NSG & sécurité réseau :
- Utilisez les service tags AzureSiteRecovery, Storage, Microsoft Entra ID, ServiceBus, et Automation pour autoriser le trafic sortant nécessaire
- ND : les appliances réseau (NVA) ne doivent pas bloquer le trafic ASR. Préférez le Service Endpoint Microsoft.Storage pour les VM sources
Test de bascule : réalisez des tests sans impact en validant que chaque VM répliquée rejoint le bon vNet et que la connectivité DNS/IP est fonctionnelle
đĄ Cette section fera lâobjet dâun focus avec des scripts PowerShell concrets dans une prochaine partie |
Alignement des disques & performances IOPS
- ASR réplique les disques, mais ne garantit pas le tier : une VM initialement sur un Premium SSD peut, aprÚs failover, se retrouver sur un standard SSD ou HDD, entraßnant une chute notable de performance
- Pour les PremiumâŻSSD, Azure permet de changer manuellement le performance tier (par exemple de P10 Ă P50) sans downtime, mais uniquement lorsque le disque est dĂ©jĂ créé
Risques :
- Disques rĂ©pliquĂ©s avec moins dâIOPS/throughput â lenteurs apprĂ©ciables, mĂȘme si les VM dĂ©marrent.
- Un dimensionnement inadapté peut entraßner de mauvaises surprises au moment du failover
đ NB : les capacity reservations et rĂ©servations de SKU disque seront traitĂ©es dans les prochains articles.
IdentitĂ©s & rĂšgles dâaccĂšs post-bascule
Les Managed Identities (MSI) associĂ©es aux machines virtuelles rĂ©pliquĂ©es ne changent pas dâID aprĂšs failover.
Mais attention : leur accĂšs aux ressources Azure reste dĂ©pendant des rĂŽles RBAC attribuĂ©s, qui eux, sont liĂ©s au scope (groupe de ressources, subscription, etc.) dâorigine.
đ Exemple courant : la VM redĂ©marre dans la rĂ©gion cible, mais :
- Elle nâa plus accĂšs au Key Vault, Azure Container Registry ou Azure Service Bus,
- Parce que les attributions de rÎle étaient faites au niveau du groupe de ressources local, et pas dans le scope cible.
Bonnes pratiques :
- Préférer des attributions RBAC au niveau Subscription ou Management Group, pour garantir la persistance des accÚs aprÚs basculement
- Intégrer des étapes post-failover dans les Recovery Plans (ou scripts personnalisés) pour réassigner les rÎles si nécessaire
- VĂ©rifier les dĂ©pendances critiques (Key Vault, Storage, EventHubâŠ) et tester les scĂ©narios de reprise avec
az role assignment list
ou via Azure Policy
Application Security Groups (ASG)
Les Application Security Groups (ASG) permettent de simplifier la gestion des rĂšgles NSG en regroupant des machines virtuelles par rĂŽle applicatif, sans gestion dâIP explicite.
â ïž ASR ne rĂ©plique pas les ASG : MĂȘme si la VM et ses interfaces rĂ©seau sont bien restaurĂ©es dans la rĂ©gion cible, les ASG rĂ©fĂ©rencĂ©s dans les rĂšgles NSG doivent ĂȘtre recréés manuellement ou via automatisation |
đ Risques observĂ©s :
- VM en ligne, mais aucun trafic réseau entrant/sortant
- NSG bien prĂ©sent, mais ASG manquant â rĂšgle ignorĂ©e
Recommandation :
- Intégrer la création ou restauration des ASG dans un process automatisé de type Recovery Plan
- Tester la connectivité post-failover sur les ports critiques protégés par ASG
đĄ Ce sera couvert dans un prochain article :
Je partagerai un script PowerShell qui extrait dynamiquement les ASG dâune rĂ©gion source, puis les rĂ©importe dans la rĂ©gion cible avant le failover.
Objectif : zéro surprise réseau pendant la bascule
4. AZURE BACKUP, RSV ET SITE RECOVERY
Azure Backup
Azure Backup offre une protection granulaire des ressources IaaS, couvrant :
- les machines virtuelles complĂštes (disques + configuration),
- les fichiers et dossiers spécifiques (via MARS agent),
- les workloads applicatifs comme SQL Server ou SAP HANA en IaaS.
đ La sauvegarde est orchestrĂ©e automatiquement, avec des points de restauration rĂ©guliers selon la politique dĂ©finie :
- Sauvegardes de bases SQL avec full, diff et log backups (si lâextension est installĂ©e)
- Snapshots disque Ă chaud
Recommandation :
- Installer lâIaaS Extension SQL sur les VMs SQL pour gĂ©rer automatiquement les sauvegardes applicatives (full, diff, log) sans scripts personnalisĂ©s
- Définir une stratégie de rétention claire selon la criticité métier (30j, 1 an, 10 ans avec vault de longue durée, etc.)
đ Documentation officielle SQL IaaS Backup
Recovery Services Vault (RSV)
- Conteneur pour centraliser les politiques de sauvegarde & réplication
- Types de redondance :
- LRS : local (coût faible, recommandé pour tests/dev)
- ZRS : redondance inter-zone (bon compromis PCA zonal)
- GRS : réplication régionale (coûteux mais robuste)
Recommandation terrain :
- Mutualiser un RSV ZRS pour la production, LRS pour les environnements hors production
đ Pour une meilleure mutualisation des RSV entre plusieurs projets, une gouvernance par tags de criticitĂ© permet dâautomatiser les choix :
criticalite=haute
â la VM est protĂ©gĂ©e dans un RSV GRScriticalite=moyenne
â RSV ZRScriticalite=faible
â RSV LRS
Cela permet à chaque équipe de piloter ses besoins PCA sans réinventer la roue
â ïž Attention : changer une VM de RSV rĂ©initialise son historique de sauvegarde |
đ Pour aller plus loin, on peut aussi taguer la politique de rĂ©tention et de frĂ©quence des sauvegardes (ex. backup_policy=hebdomadaire
, backup_retention=30j
, backup_time=23h00
).
- Conteneur pour centraliser les politiques de sauvegarde & réplication
- Types de redondance :
- LRS : local (coût faible, recommandé pour tests/dev)
- ZRS : redondance inter-zone (bon compromis PCA zonal)
- GRS : réplication régionale (coûteux mais robuste)
Azure Site Recovery (ASR)

- Réplication automatisée des VMs vers une autre zone ou région
- Prise en charge de scénarios zonal / régional
- Orchestration complĂšte avec :
- Plan de récupération
- Scripts personnalisés (PowerShell, Azure CLI)
- Gestion des NICs, IPs, NSG, etc.
âĄïž ASR gĂšre la continuitĂ© du service (failover, reprotect), lĂ oĂč Azure Backup protĂšge les donnĂ©es.
đ En pratique, les deux sont complĂ©mentaires :
- Azure Backup = protection de la donnée, restaurable à tout moment
- ASR = maintien de lâactivitĂ©, orchestration en cas dâinterruption majeure
5. ERREURS COURANTES
- đŽ RĂ©plication dâune VM sans sa base â latence, ou crash applicatif
- đŽ Usage dâAvailability Set avec ASR â incompatibilitĂ© Capacity Reservation
- đŽ Zones mal gĂ©rĂ©es â ASR rĂ©plique, mais rĂ©seau et DNS sont KO
Exemple type dâarchitecture PCA mono-zone
Zone | VMSS Flex | DB | RSV | Backup | ASR |
---|---|---|---|---|---|
AZ1 | â | â | ZRS (prod) | Agent installĂ© | vers AZ2 |
AZ2 | â | â | Agent installĂ© | vers AZ1 |
6. CONCLUSION
đ Ce que lâon oublie souvent : Le failover, câest 50 % technique⊠50 % coordination. Sans documentation claire, sans runbook testĂ©, mĂȘme un PCA parfait techniquement peut Ă©chouer.
Un bon PCA IaaS commence par une cartographie honnĂȘte de la rĂ©alitĂ© technique, et une sĂ©rie dâarbitrages clairs sur :
- Zones et régions
- Applications legacy vs modernes
- OS & dépendances réseau
- Performances & contraintes éditeurs
đ§± Ensuite viennent les outils : Azure Backup pour la donnĂ©e, ASR pour le run, RSV pour piloter lâensemble.
PROCHAIN ARTICLE
Qui on redémarre en premier ? Et pourquoi.
Un PCA, ce nâest pas une simple question dâinfrastructure
Câest savoir qui doit pouvoir bosser dans les 30 minutes, et quel service mĂ©tier coĂ»te vraiment cher sâil tombe
đ Dans la prochaine partie, on verra comment travailler avec les mĂ©tiers pour identifier les rĂŽles critiques, cartographier les blocs fonctionnels Ă prioriser, et bĂątir des scĂ©narios de bascule qui font sens techniquement et financiĂšrement.