1. INTERVENANTS

DJEBBOURI Younes
Architecte Azure et DevOps đŸš€đŸ’»âœš

2. PROBLÉMATIQUE

« Quand ton infra tombe, ce ne sont pas des machines qu’on doit redĂ©marrer, mais un service mĂ©tier complet, attendu par des clients, des agents, des Ă©quipes »

Anticiper l’incident, c’est notre job. Et quand il s’agit d’infrastructure IaaS, la vraie question n’est pas “est-ce que c’est sauvegardĂ© ?”, mais “combien de temps on met pour redĂ©marrer proprement ?”

Un PCA (Plan de ContinuitĂ© d’ActivitĂ©) ou PRA (Plan de Reprise) bien conçu, c’est une question de choix techniques lucides dĂšs le dĂ©part : architecture, contraintes applicatives, cohĂ©rence des dĂ©pendances, gouvernance des sauvegardes et design des scĂ©narios de bascule.

Ce premier article pose la base de ces arbitrages, avec du concret terrain et des points critiques Ă  adresser en amont

3. ARBITRAGES CLÉS

Avant d’ouvrir Azure Site Recovery ou de cliquer sur Backup Vault, il faut clarifier plusieurs choix structurants :

  • Zonal : rĂ©plication dans une autre Zone de la mĂȘme RĂ©gion
  • RĂ©gional : rĂ©plication vers une autre RĂ©gion

Il faut cartographier : qui parle à qui, et quelles sont les dépendances critiques intra-Zone ou inter-Zone ?

  • Connexions codĂ©es en dur Ă  des IP privĂ©es
  • Pas de DNS interne ou usage massif de /etc/hosts
  • Aucun gestionnaire de secrets (variables d’environnement, fichiers plats)
  • Couplage fort entre application et base de donnĂ©es (latence critique, mĂȘmes AZ nĂ©cessaires)
  • DĂ©pendances techniques non documentĂ©es ou hĂ©ritĂ©es (ports spĂ©cifiques, configurations locales)

Cloud-ready : API stateless, DB managée, gestion centralisée des secrets, DNS interne, infrastructure modulaire et documentée


  • Windows : intĂ©gration plus poussĂ©e avec Azure Backup (agent VSS, support SQL Server IaaS)
  • Linux : plus lĂ©ger Ă  rĂ©pliquer mais attention Ă  la cohĂ©rence applicative
⚠ Attention :
Certaines distributions ou noyaux custom peuvent poser problĂšme avec les agents Azure ou ASR (ex. no kernel support for Hyper-V sockets, modules manquants, etc.)
Toujours vérifier la compatibilité avec ASR

Exemple rĂ©el : une application dans AZ1 avec base de donnĂ©es dans AZ2 → les utilisateurs remontent des lenteurs.

👉 Ce type d’observation impacte l’architecture cible :

  • 🔮 PCA multi-zone Ă  Ă©viter si les workloads sont trop sensibles Ă  la latence inter-Zone
  • 🟱 PrĂ©fĂ©rer un PCA mono-zone avec VMSS flex : un par Zone, et bascule via ASR uniquement si nĂ©cessaire

  • Availability Set : pas compatible Capacity Reservation avec ASR
  • Availability Zone : recommandĂ© pour production stable
  • VMSS Flex : pour PCA mono-zone
⚠ Attention :
– VMSS Flex n’est pas compatible avec Ultra Disk

  • La rĂ©plication sans prise en compte du vNet, NSG, DNS ou routage custom = PCA Incomplet
  • Le rĂ©seau de la zone ou rĂ©gion cible doit ĂȘtre prĂȘt Ă  accueillir les VM rĂ©pliquĂ©es
⚠ ProblĂšme courant : tout est rĂ©pliquĂ©, mais rien ne rĂ©pond → DNS KO, UDR manquants, IPs invalides

Network Mapping : utilisez le mapping automatique ou manuel pour associer chaque vNet/source Ă  un vNet/cible (-asr suffix), ce qui permet une bascule IP transparente en cas de failover

Adresse IP : ASR respecte l’usage DHCP ou l’IP statique. Si statique, assurez-vous que cette IP est valide dans la zone cible .

NSG & sécurité réseau :

  • Utilisez les service tags AzureSiteRecovery, Storage, Microsoft Entra ID, ServiceBus, et Automation pour autoriser le trafic sortant nĂ©cessaire
  • ND : les appliances rĂ©seau (NVA) ne doivent pas bloquer le trafic ASR. PrĂ©fĂ©rez le Service Endpoint Microsoft.Storage pour les VM sources

Test de bascule : réalisez des tests sans impact en validant que chaque VM répliquée rejoint le bon vNet et que la connectivité DNS/IP est fonctionnelle

💡 Cette section fera l’objet d’un focus avec des scripts PowerShell concrets dans une prochaine partie

  • ASR rĂ©plique les disques, mais ne garantit pas le tier : une VM initialement sur un Premium SSD peut, aprĂšs failover, se retrouver sur un standard SSD ou HDD, entraĂźnant une chute notable de performance
  • Pour les Premium SSD, Azure permet de changer manuellement le performance tier (par exemple de P10 Ă  P50) sans downtime, mais uniquement lorsque le disque est dĂ©jĂ  créé
  • Disques rĂ©pliquĂ©s avec moins d’IOPS/throughput → lenteurs apprĂ©ciables, mĂȘme si les VM dĂ©marrent.
  • Un dimensionnement inadaptĂ© peut entraĂźner de mauvaises surprises au moment du failover

🛑 NB : les capacity reservations et rĂ©servations de SKU disque seront traitĂ©es dans les prochains articles.


Les Managed Identities (MSI) associĂ©es aux machines virtuelles rĂ©pliquĂ©es ne changent pas d’ID aprĂšs failover.

Mais attention : leur accĂšs aux ressources Azure reste dĂ©pendant des rĂŽles RBAC attribuĂ©s, qui eux, sont liĂ©s au scope (groupe de ressources, subscription, etc.) d’origine.

📌 Exemple courant : la VM redĂ©marre dans la rĂ©gion cible, mais :

  • Elle n’a plus accĂšs au Key Vault, Azure Container Registry ou Azure Service Bus,
  • Parce que les attributions de rĂŽle Ă©taient faites au niveau du groupe de ressources local, et pas dans le scope cible.
  • PrĂ©fĂ©rer des attributions RBAC au niveau Subscription ou Management Group, pour garantir la persistance des accĂšs aprĂšs basculement
  • IntĂ©grer des Ă©tapes post-failover dans les Recovery Plans (ou scripts personnalisĂ©s) pour rĂ©assigner les rĂŽles si nĂ©cessaire
  • VĂ©rifier les dĂ©pendances critiques (Key Vault, Storage, EventHub
) et tester les scĂ©narios de reprise avec az role assignment list ou via Azure Policy

Les Application Security Groups (ASG) permettent de simplifier la gestion des rùgles NSG en regroupant des machines virtuelles par rîle applicatif, sans gestion d’IP explicite.

⚠ ASR ne rĂ©plique pas les ASG :
MĂȘme si la VM et ses interfaces rĂ©seau sont bien restaurĂ©es dans la rĂ©gion cible, les ASG rĂ©fĂ©rencĂ©s dans les rĂšgles NSG doivent ĂȘtre recréés manuellement ou via automatisation

📌 Risques observĂ©s :

  • VM en ligne, mais aucun trafic rĂ©seau entrant/sortant
  • NSG bien prĂ©sent, mais ASG manquant → rĂšgle ignorĂ©e
  • IntĂ©grer la crĂ©ation ou restauration des ASG dans un process automatisĂ© de type Recovery Plan
  • Tester la connectivitĂ© post-failover sur les ports critiques protĂ©gĂ©s par ASG

💡 Ce sera couvert dans un prochain article :
Je partagerai un script PowerShell qui extrait dynamiquement les ASG d’une rĂ©gion source, puis les rĂ©importe dans la rĂ©gion cible avant le failover.

Objectif : zéro surprise réseau pendant la bascule

4. AZURE BACKUP, RSV ET SITE RECOVERY

Azure Backup offre une protection granulaire des ressources IaaS, couvrant :

  • les machines virtuelles complĂštes (disques + configuration),
  • les fichiers et dossiers spĂ©cifiques (via MARS agent),
  • les workloads applicatifs comme SQL Server ou SAP HANA en IaaS.

🔄 La sauvegarde est orchestrĂ©e automatiquement, avec des points de restauration rĂ©guliers selon la politique dĂ©finie :

  • Sauvegardes de bases SQL avec full, diff et log backups (si l’extension est installĂ©e)
  • Snapshots disque Ă  chaud
  • Installer l’IaaS Extension SQL sur les VMs SQL pour gĂ©rer automatiquement les sauvegardes applicatives (full, diff, log) sans scripts personnalisĂ©s
  • DĂ©finir une stratĂ©gie de rĂ©tention claire selon la criticitĂ© mĂ©tier (30j, 1 an, 10 ans avec vault de longue durĂ©e, etc.)

👉 Documentation officielle SQL IaaS Backup


  • Conteneur pour centraliser les politiques de sauvegarde & rĂ©plication
  • Types de redondance :
    • LRS : local (coĂ»t faible, recommandĂ© pour tests/dev)
    • ZRS : redondance inter-zone (bon compromis PCA zonal)
    • GRS : rĂ©plication rĂ©gionale (coĂ»teux mais robuste)

Recommandation terrain :

  • Mutualiser un RSV ZRS pour la production, LRS pour les environnements hors production

📌 Pour une meilleure mutualisation des RSV entre plusieurs projets, une gouvernance par tags de criticitĂ© permet d’automatiser les choix :

  • criticalite=haute → la VM est protĂ©gĂ©e dans un RSV GRS
  • criticalite=moyenne → RSV ZRS
  • criticalite=faible → RSV LRS

Cela permet à chaque équipe de piloter ses besoins PCA sans réinventer la roue

⚠ Attention : changer une VM de RSV rĂ©initialise son historique de sauvegarde

🔁 Pour aller plus loin, on peut aussi taguer la politique de rĂ©tention et de frĂ©quence des sauvegardes (ex. backup_policy=hebdomadaire, backup_retention=30j, backup_time=23h00).

  • Conteneur pour centraliser les politiques de sauvegarde & rĂ©plication
  • Types de redondance :
    • LRS : local (coĂ»t faible, recommandĂ© pour tests/dev)
    • ZRS : redondance inter-zone (bon compromis PCA zonal)
    • GRS : rĂ©plication rĂ©gionale (coĂ»teux mais robuste)

  • RĂ©plication automatisĂ©e des VMs vers une autre zone ou rĂ©gion
  • Prise en charge de scĂ©narios zonal / rĂ©gional
  • Orchestration complĂšte avec :
    • Plan de rĂ©cupĂ©ration
    • Scripts personnalisĂ©s (PowerShell, Azure CLI)
    • Gestion des NICs, IPs, NSG, etc.

âžĄïž ASR gĂšre la continuitĂ© du service (failover, reprotect), lĂ  oĂč Azure Backup protĂšge les donnĂ©es.

📌 En pratique, les deux sont complĂ©mentaires :

  • Azure Backup = protection de la donnĂ©e, restaurable Ă  tout moment
  • ASR = maintien de l’activitĂ©, orchestration en cas d’interruption majeure

5. ERREURS COURANTES

  • 🔮 RĂ©plication d’une VM sans sa base → latence, ou crash applicatif
  • 🔮 Usage d’Availability Set avec ASR → incompatibilitĂ© Capacity Reservation
  • 🔮 Zones mal gĂ©rĂ©es → ASR rĂ©plique, mais rĂ©seau et DNS sont KO
ZoneVMSS FlexDBRSVBackupASR
AZ1✅❌ZRS (prod)Agent installĂ©vers AZ2
AZ2❌✅Agent installĂ©vers AZ1

6. CONCLUSION

📌 Ce que l’on oublie souvent : Le failover, c’est 50 % technique
 50 % coordination. Sans documentation claire, sans runbook testĂ©, mĂȘme un PCA parfait techniquement peut Ă©chouer.

Un bon PCA IaaS commence par une cartographie honnĂȘte de la rĂ©alitĂ© technique, et une sĂ©rie d’arbitrages clairs sur :

  • Zones et rĂ©gions
  • Applications legacy vs modernes
  • OS & dĂ©pendances rĂ©seau
  • Performances & contraintes Ă©diteurs

đŸ§± Ensuite viennent les outils : Azure Backup pour la donnĂ©e, ASR pour le run, RSV pour piloter l’ensemble.

PROCHAIN ARTICLE

Qui on redémarre en premier ? Et pourquoi.

Un PCA, ce n’est pas une simple question d’infrastructure

C’est savoir qui doit pouvoir bosser dans les 30 minutes, et quel service mĂ©tier coĂ»te vraiment cher s’il tombe

👉 Dans la prochaine partie, on verra comment travailler avec les mĂ©tiers pour identifier les rĂŽles critiques, cartographier les blocs fonctionnels Ă  prioriser, et bĂątir des scĂ©narios de bascule qui font sens techniquement et financiĂšrement.


📎 Pour aller plus loin (docs Microsoft) :