Recherche
Fermer cette boîte de recherche.

Le guide de Cristie Software sur la planification de la reprise après sinistre et les processus de reprise du système.

L'arrêt des systèmes informatiques critiques aura un impact sur le flux normal des processus commerciaux d'une manière ou d'une autre et, dans presque tous les cas, entraînera une perte de revenus.

1. Introduction

Une situation de catastrophe peut survenir de n'importe où, qu'il s'agisse d'une tempête qui inonde le siège, d'une pandémie qui oblige le personnel à travailler à distance ou d'une cyberattaque qui compromet les systèmes. Dans de telles situations, il est important d'avoir des plans prêts à fonctionner pour garantir que votre personnel et votre entreprise puissent continuer à fonctionner. Même si elle n'est pas à pleine capacité, il est vital pour la survie de votre entreprise d'atteindre une position où vous pouvez servir vos clients avec un niveau acceptable d'expérience de service aussi rapidement que possible. L'élaboration de stratégies visant à atténuer les risques liés aux événements inattendus est au cœur de la gestion de la continuité des activités et constitue un processus essentiel que toutes les entreprises devraient entreprendre. Malheureusement, les études montrent que 35 % seulement des petites entreprises ont mis en place des plans de reprise adéquats et que 10 % seulement de celles qui n'ont aucun processus de reprise survivront à un incident majeur. Un plan de reprise après sinistre (DRP) est un sous-ensemble du plan global de continuité des activités, et le processus de reprise du système est le sujet sur lequel nous allons nous concentrer ici. Le plan DR est une approche documentée avec des instructions sur la façon de répondre à des incidents non planifiés qui implique la restauration des systèmes de support vitaux, y compris les installations de serveurs, les actifs informatiques et d'autres systèmes et données d'infrastructure critiques. L'objectif d'un plan de reprise après sinistre est de minimiser les temps d'arrêt des activités et des services et de rétablir le fonctionnement normal des opérations techniques dans le délai le plus court possible. Comme dans de nombreux domaines de la stratégie et de la planification d'entreprise, des compromis sont nécessaires lors de la création d'un plan de reprise après sinistre, ce qui implique une évaluation des risques par rapport aux coûts d'interruption de service pour les éléments clés de vos opérations commerciales.

Quels sont les coûts des temps d'arrêt ?

L'indisponibilité des systèmes informatiques critiques aura un impact sur le déroulement normal des processus commerciaux d'une manière ou d'une autre et, dans presque tous les cas, entraînera une perte de revenus. Le coût exact des temps d'arrêt est bien sûr très difficile à mesurer. De nombreux facteurs entrent en jeu, tels que la taille de l'entreprise, le secteur d'activité, la durée réelle de la panne, le nombre de personnes touchées et l'heure de la journée. En général, les pertes sont nettement plus élevées par heure pour les entreprises qui reposent sur des transactions de données de haut niveau, comme les banques et les magasins de détail en ligne. Il y a eu de nombreux exemples très médiatisés, notamment la panne de 14 heures en 2019 qui a coûté à Facebook un montant estimé à 90 millions de dollars et, en 20161, une panne de courant de cinq heures dans un centre opérationnel de Delta Airlines a provoqué 2 000 vols annulés et une perte estimée à 150 millions de dollars2. Bien sûr, ce sont des leaders de l'industrie avec d'énormes marges d'exploitation et des millions en banque, ils peuvent surmonter une tempête financière d'un jour bien mieux que la plupart. Les petites entreprises peuvent subir des pertes moins importantes lors d'un incident majeur, mais l'impact global peut être beaucoup plus dommageable, jusqu'à la faillite. Le cabinet d'analystes industriels Gartner a mené une enquête sur le coût des temps d'arrêt en 2014, qui a déterminé que le coût moyen des temps d'arrêt informatiques était de 5 600 dollars par minute. Le rapport a montré qu'en raison des grandes différences dans le mode de fonctionnement des entreprises, les temps d'arrêt, au bas de l'échelle, peuvent atteindre 140 000 dollars par heure, 300 000 dollars par heure en moyenne, et jusqu'à 540 000 dollars par heure à l'extrémité supérieure3. Bien entendu, si l'on se projette en 2022, ces chiffres seront sans doute beaucoup plus élevés. Une façon élémentaire de déterminer le coût des temps d'arrêt pour les sections de votre entreprise consiste à déterminer le nombre d'employés touchés, à calculer leur salaire horaire moyen, puis à déterminer l'impact du temps d'arrêt sur leur productivité. Par exemple, si toute votre chaîne de production est en panne, l'impact sur votre département de fabrication sera de 100 %, puis appliquez la formule : Coût du temps d'arrêt = (nombre d'employés affectés) x (impact sur la productivité) x (salaire horaire moyen)En outre, il existe plusieurs coûts moins tangibles du temps d'arrêt, tels que l'impact sur le moral des employés, votre réputation, la marque et la fidélité des clients, qui doivent être pris en compte. Au-delà de la valeur de la planification de la DR et du renforcement de la résilience opérationnelle, l'analyse du coût des temps d'arrêt peut vous aider à réfléchir stratégiquement à votre modèle d'entreprise et vous permet de mieux comprendre votre entreprise d'un point de vue tactique.

Quels sont les RTO et RPO acceptables pour vos fonctions commerciales ?

Pour chaque fonction commerciale, il est important de déterminer les objectifs acceptables en matière de temps de récupération (RTO) et de points de récupération (RPO). Dans certains cas, ces paramètres seront déterminés par des accords de niveau de service spécifiques conclus avec des clients ou même au sein de l'entreprise. Comme leur nom l'indique, le RTO définit le temps maximal acceptable qu'il faut pour rétablir complètement un système dans son état de fonctionnement avant le scénario de panne. Le RPO est défini comme la quantité maximale de données, mesurée en temps, qui peut être perdue après une reprise après un sinistre ou un événement comparable avant que la perte de données ne dépasse ce qui est acceptable pour l'organisation. Il est important que ces paramètres soient calculés en supposant le pire scénario possible. Très souvent, les calculs du RTO sont basés sur des estimations pour une reprise manuelle d'un seul système sans tenir compte de l'infrastructure sous-jacente. Dans de nombreuses situations, telles qu'une cyberattaque ou une catastrophe naturelle, plusieurs systèmes devront être restaurés, ce qui augmentera considérablement le RTO réel et renforcera le fait que la restauration manuelle des systèmes est irréalisable. La récupération de plusieurs systèmes doit être prise en compte afin d'établir une véritable estimation du RTO, l'automatisation de la récupération jouant un rôle essentiel dans le processus de restauration. Raccourcir le RTO ou réduire le RPO implique généralement une augmentation des coûts, d'où la nécessité d'effectuer une évaluation des risques et un calcul du coût du temps d'arrêt pour chaque système que vous souhaitez protéger avant de fixer ces paramètres.

2. Identification des risques

Effectuer une évaluation des risques

Avant de mettre en œuvre un DRP, il convient de procéder à une évaluation des risques et de toutes les vulnérabilités potentielles auxquelles votre entreprise peut être exposée. L'évaluation des risques de DR détermine les risques potentiels pour le fonctionnement d'une organisation résultant de catastrophes naturelles ou d'origine humaine, avec une estimation de la probabilité que chaque scénario se produise. Les résultats de ces estimations doivent ensuite être multipliés par le coût des temps d'arrêt pour chaque scénario. La valeur déterminée définit le niveau de protection que votre organisation doit envisager contre une menace donnée. Cependant, dans certains cas, il peut y avoir des pénalités à plus long terme à prendre en compte, notamment lorsque la perte de données peut signifier une violation des réglementations de conformité du secteur. Par exemple, si vous êtes une organisation du secteur de la santé régie par les réglementations HIPPA pour la protection des informations de santé électroniques protégées (ePHI) qui exigent spécifiquement une sauvegarde sécurisée des "copies exactes récupérables des informations de santé électroniques protégées" et qu'une inondation efface toutes vos données, les problèmes de conformité des dossiers détruits persisteront pendant des mois, voire des années, si vous n'aviez pas de site de sauvegarde sûr. Que la catastrophe soit naturelle ou provoquée par l'homme, il est également important d'identifier et de planifier les situations où, en plus de la perte de systèmes, vous n'aurez pas accès aux ressources et au personnel auxquels vous êtes habitué dans le cadre de vos activités normales.

Types et caractéristiques des risques

Catastrophe naturelle

Une catastrophe naturelle affectera souvent l'accès aux bâtiments et à l'infrastructure de soutien. Par conséquent, la réplication complète du site doit être envisagée si votre évaluation des risques indique qu'un tel événement a une probabilité suffisante. L'emplacement du site de réplication devra être pris en compte si vous vous trouvez dans une zone sujette aux événements naturels. Prenons l'exemple d'une société financière située à San Francisco, en Californie. La finance est un secteur strictement réglementé, et les entreprises sont tenues de tenir des registres d'une manière très spécifique. En outre, comme l'entreprise se trouve en Californie, le risque de tremblement de terre est élevé. Compte tenu de ces contraintes, elles doivent s'assurer que les centres de données sont sauvegardés afin d'éviter les amendes en cas de destruction d'un centre de données, et que les sites de réplication se trouvent dans d'autres endroits moins sensibles aux tremblements de terre. De même, si vous êtes situé dans une zone inondable, la réplication locale sur site n'est probablement pas l'option la plus sûre.

Erreur humaine

La forme la plus courante d'erreur humaine est la suppression accidentelle de fichiers ou de dossiers. Pour pallier ces situations, il convient de planifier des sauvegardes régulières des volumes de données importants afin de pouvoir restaurer les éléments supprimés à partir d'une copie ponctuelle appropriée. Bien entendu, les humains peuvent aller bien au-delà de la suppression accidentelle de fichiers et effectuer des tâches indésirables telles que l'arrêt accidentel du système, la déconnexion du câble réseau, la saisie incorrecte de données et, malheureusement, ils représentent le risque le plus élevé lorsqu'il s'agit de faciliter la cybercriminalité. 98 % des cyberattaques s'appuient sur l'ingénierie sociale5 pour obtenir des informations de connexion et des données personnelles, ou pour transmettre un logiciel malveillant par l'ouverture de pièces jointes malveillantes par le personnel. Outre les risques cybernétiques que présentent les humains, qui sont un sujet digne d'une discussion bien plus approfondie que celle qui peut être abordée ici, les erreurs telles que les arrêts accidentels et les suppressions de fichiers peuvent être réduites en limitant l'accès physique au système au personnel nécessaire, et en limitant de la même manière l'accès à la connexion au personnel essentiel pour vos systèmes les plus critiques.

Coupure de courant

Les coupures de courant imprévues entraînent un arrêt non progressif des systèmes, ce qui peut entraîner la perte de transactions ou la corruption de fichiers de données. Au minimum, les systèmes critiques doivent être équipés d'une source d'alimentation sans coupure (UPS) qui fournit une alimentation de secours en cas de défaillance de la source d'alimentation d'entrée ou de l'alimentation secteur. L'ASI sera en mesure de fournir de l'énergie pendant une durée limitée afin de faciliter un arrêt en douceur ou de permettre l'utilisation de générateurs de secours, le cas échéant. La réplication dans le nuage ou sur un site physique distinct peut assurer un basculement en cas de panne de courant, mais l'accès au réseau et les systèmes de communication peuvent également être affectés par la panne de courant.

Défaillance du matériel

La défaillance du système due au matériel sous-jacent peut être progressive ou instantanée et catastrophique. Les disques durs (HDD), en raison de leurs pièces mécaniques mobiles, présentent très souvent un schéma de défaillance progressive qui peut être atténué par la mise en œuvre de mécanismes de protection des données tels que les différents niveaux de RAID disponibles. De même, bien qu'ils n'aient pas de pièces mobiles, les disques flash et SSD ont une durée de vie limitée et des caractéristiques d'usure qui limitent leur capacité d'utilisation dans le temps. Les SSD sont relativement nouveaux sur le marché ; les fabricants tentent donc encore de déterminer leur durée de vie. Selon les estimations actuelles, l'âge limite des SSD est de 10 ans, mais la durée de vie moyenne des SSD semble être plus courte dans la pratique. Des chercheurs ayant entrepris une étude conjointe entre Google et l'Université de Toronto ont testé des disques SSD sur une période de plusieurs années et ont constaté que les disques SSD étaient remplacés environ 25 % moins souvent que les disques durs4. De même, la mémoire du système peut présenter des défaillances progressives, mais étant donné que la mémoire du système contient généralement les instructions du code de l'application et les données d'exploitation, la plupart des défaillances de la mémoire se traduiront par une panne de l'application ou du système d'exploitation. Les défaillances au niveau des cartes système sont généralement catastrophiques et nécessitent le remplacement de la carte concernée ou la récupération d'une image système complète sur une machine physique de remplacement. À moins que le matériel de la machine de remplacement ne soit identique à l'original, le processus de récupération peut rencontrer des problèmes dus à des différences dans les pilotes critiques de démarrage, ce qui entraîne une longue intervention des équipes de support informatique. Une solution permettant de restaurer de manière transparente des systèmes sur du matériel différent est présentée dans la section 3.

Erreur de mise à niveau

Erreur humaineLa forme la plus courante d'erreur humaine est la suppression accidentelle de fichiers ou de dossiers. Pour éviter ce genre de situation, il convient de planifier des sauvegardes régulières des volumes de données importants afin que les éléments supprimés puissent être restaurés à partir d'une copie ponctuelle appropriée. Bien entendu, les humains peuvent aller bien au-delà de la suppression accidentelle de fichiers et effectuer des tâches indésirables telles que l'arrêt accidentel du système, la déconnexion du câble réseau, la saisie incorrecte de données et, malheureusement, ils représentent le risque le plus élevé lorsqu'il s'agit de faciliter la cybercriminalité. 98 % des cyberattaques s'appuient sur l'ingénierie sociale5 pour obtenir des informations de connexion et des données personnelles, ou pour transmettre un logiciel malveillant par l'ouverture de pièces jointes malveillantes par le personnel. Outre les risques cybernétiques que présentent les humains, qui sont un sujet digne d'une discussion bien plus approfondie que celle qui peut être abordée ici, les erreurs telles que les arrêts accidentels et les suppressions de fichiers peuvent être réduites en limitant l'accès physique au système au personnel nécessaire, et de la même manière en limitant l'accès à la connexion au personnel essentiel pour vos systèmes les plus critiques.Erreur de mise à jourLa plupart des éléments d'une infrastructure informatique nécessitent des mises à jour régulières des logiciels ou des micrologiciels pour corriger les bogues, offrir de nouvelles fonctionnalités et, surtout, combler les vulnérabilités aux cyberattaques qui ont pu être découvertes par les fabricants d'équipements. Par conséquent, les mises à jour régulières sont généralement une bonne chose et sont fortement recommandées dans la lutte contre la cybercriminalité. Les mises à jour peuvent causer des problèmes lorsque la compatibilité entre les applications est affectée. Il peut être nécessaire d'y remédier en mettant à niveau les applications associées dans l'ordre correct, ou dans certains cas, un retour à une version antérieure peut être la seule option pour maintenir la compatibilité entre applications. La plupart des mises à jour de correctifs ont une fonction de retour en arrière ou de désinstallation. Si ce n'est pas le cas, la restauration à une version antérieure à partir d'une sauvegarde ponctuelle peut être la seule option. De même, il n'est pas rare que les fichiers de correctifs contiennent des bogues qui font échouer la mise à niveau et nécessitent un retour en arrière. De nombreuses applications logicielles, systèmes d'exploitation et périphériques réseau proposent des mises à jour automatiques qui peuvent poser des problèmes de mise à niveau inattendus et entraîner des temps d'arrêt imprévus. La gestion des correctifs est donc une tâche importante qui nécessite une planification et une attention particulières pour éviter les temps d'arrêt indésirables.

Soutien aux systèmes existants

Bien que la transition de nombreuses applications d'entreprise vers le cloud et le modèle as-a-service de fourniture de plates-formes soient de plus en plus répandus, il existe de nombreuses entreprises qui répondent à des applications patrimoniales spécifiques à un secteur et qui n'ont pas de plan de migration vers le cloud à court terme. Certaines applications patrimoniales nécessitent à leur tour l'utilisation prolongée d'un système d'exploitation patrimonial qui peut avoir dépassé le stade de "fin de support", ce qui signifie que le développeur du système d'exploitation ne fournira plus de support technique et, plus important encore, ne fournira plus de mises à jour du système d'exploitation. Cela peut présenter une vulnérabilité en matière de sécurité qui peut nécessiter une attention particulière pour s'assurer que les données vitales sont protégées et/ou que certains systèmes sont isolés du réseau principal. Les applications patrimoniales peuvent présenter des défis supplémentaires dans le scénario DR, car la reconstruction d'un système peut dépendre de la disponibilité des supports d'application d'origine, tels que les CD/DVD d'installation, ainsi que de tous les fichiers de correctifs ultérieurs nécessaires pour amener l'application à sa version la plus récente. Il en va de même pour le système d'exploitation sous-jacent. Pour ces raisons, l'utilisation d'un logiciel de récupération de système et/ou la réplication de système peut être d'une importance vitale pour assurer la récupération des systèmes patrimoniaux après un désastre. Cristie Software simplifie la protection des applications patrimoniales grâce à notre matrice de support étendue pour les systèmes d'exploitation patrimoniaux, dont beaucoup sont actuellement en fin de support. Les outils logiciels de sauvegarde modernes sont généralement mis sur le marché en fournissant un support pour les versions les plus récentes des systèmes d'exploitation, le support pour les versions plus anciennes étant ajouté plus tard, en fonction de la demande des clients. Il est donc important de vérifier les matrices de compatibilité des systèmes d'exploitation pour tous les outils de protection des données que vous prévoyez d'utiliser lorsque des applications patrimoniales sont impliquées.

Virus informatique

Les virus informatiques sont presque toujours invisibles. Si un logiciel antivirus n'est pas installé sur vos systèmes et vos dispositifs d'extrémité, vous ne saurez peut-être pas que vous en avez un. Les dommages causés par les virus peuvent varier, mais les moins dommageables peuvent généralement être supprimés ou mis en quarantaine à l'aide du logiciel antivirus de votre choix. Le processus suit généralement la séquence d'étapes ci-dessous.

  • Déconnectez le système de tous les réseaux
  • Redémarrez le système en "mode sans échec" selon les instructions du système d'exploitation.
  • Supprimez tous les fichiers temporaires
  • Lancez une recherche de virus
  • supprimer ou mettre en quarantaine les fichiers détectés
  • Rescanner le système pour vérifier l'absence de toute autre menace.
  • Redémarrer le système dans des conditions normales de fonctionnement
  • Changez tous les mots de passe
  • S'assurer que tous les systèmes d'exploitation, les applications, les navigateurs et les éléments du réseau disposent des dernières mises à jour logicielles.
  • Reconnectez le système au réseau

Il est essentiel de comprendre que les systèmes traditionnels de protection contre les logiciels malveillants, y compris les pare-feu et les logiciels antivirus, utilisent une technique de protection appelée "liste noire". Il s'agit d'une technique efficace, mais qui prend beaucoup de temps, tant pour les éditeurs de logiciels de sécurité, qui doivent constamment tenir à jour des fichiers de définition pour détecter et isoler tous les codes malveillants connus, que pour le personnel informatique, qui doit veiller à ce que tous les correctifs et fichiers de définition soient actualisés. Les charges utiles des logiciels malveillants et des virus sont conçues pour exploiter les vulnérabilités découvertes dans la pile technologique, qu'il s'agisse d'un système d'exploitation, de l'infrastructure du réseau, d'une application ou de tout autre élément intermédiaire. C'est là que réside le principal défaut de l'approche de la liste noire : vous corrigez constamment les failles de sécurité qui sont déjà connues et exploitées, d'où la raison pour laquelle les équipes de sécurité informatique sont toujours à la traîne dans la lutte contre la cybercriminalité.L'approche traditionnelle de la liste noire est une approche réactive qui permet aux codes de logiciels malveillants nouveaux et inconnus de s'infiltrer et de se propager sans être détectés avant de faire des ravages. Ces nouvelles vulnérabilités sont connues sous le nom d'exploits "zero day". Tant que ces vulnérabilités ne sont pas atténuées, les pirates peuvent continuer à les exploiter pour nuire aux applications système, aux données de l'entreprise et aux autres ordinateurs du réseau.

Cyberattaque

Une cyberattaque est une attaque orchestrée sur le réseau, les systèmes, l'infrastructure et les données d'une entreprise, avec intervention manuelle d'un individu ou d'une équipe de pirates. L'objectif de l'attaquant est généralement de paralyser les systèmes vitaux de l'entreprise en verrouillant et/ou en cryptant les systèmes et les données dont elle a besoin pour fonctionner. Une demande de rançon est alors émise en partant du principe qu'une clé de décryptage sera fournie en cas de paiement. Une tendance d'attaque plus récente est l'exfiltration supplémentaire d'informations confidentielles de l'entreprise et d'informations personnellement identifiables (IPI) sous la menace d'une fuite publique de ces informations ou de leur vente sur le dark web. Très souvent, une cyberattaque est lancée par l'envoi d'un virus informatique (code malveillant), comme décrit précédemment. Le virus est généralement transmis par un courriel de phishing qui incite le destinataire à télécharger une pièce jointe contenant le code malveillant sur son ordinateur ou son appareil. Le code malveillant établit alors une porte dérobée dans le réseau informatique et signale aux pirates qu'une voie d'entrée a été créée. Par ailleurs, les pirates chercheront à exploiter des vulnérabilités inconnues jusqu'alors (zero-day) dans les éléments d'un réseau d'entreprise, tels que les commutateurs et les routeurs, les systèmes d'exploitation des ordinateurs, ou en fait tout dispositif connecté au réseau qui peut fournir une passerelle non détectée.

Coupure des communications

Certaines entreprises répondent encore au moyen d'un PBX (Private Branch Exchange), tandis que d'autres ont opté pour la VoIP (Voice over Internet Protocol) sur Internet ou pour une plateforme de communications unifiées en ligne (UCaaS). Il est clair que les pannes de courant et de réseau peuvent avoir un impact sur les systèmes de communication, mais il n'est pas rare qu'une cyberattaque rende l'infrastructure de communication d'une entreprise inopérante. Les entreprises qui ont abandonné le PBX traditionnel et ont opté pour un PBX en nuage sont dans une bien meilleure position en termes de disponibilité des communications, grâce à la redondance intégrée que ces systèmes offrent. Néanmoins, il est important pour les entreprises de disposer de plates-formes de communication alternatives afin de pouvoir au moins communiquer en interne en cas de sinistre. Il existe de nombreuses options à considérer, dont beaucoup sont extrêmement populaires dans les communications professionnelles quotidiennes, comme Microsoft Teams, Skype, Zoom et même des plateformes sociales comme WhatsApp et Meta Platforms Messenger (anciennement Facebook). Au minimum, les coordonnées alternatives du personnel clé doivent être documentées dans la section de la chaîne de commandement de votre PRD.

" En février 2021, l'État du Texas a subi une crise électrique majeure à la suite de trois violentes tempêtes hivernales qui ont balayé les États-Unis.Les dommages dus à ces tempêtes ont été estimés à au moins 195 Md$, probablement la catastrophe la plus coûteuse de l'histoire de l'État6. "

3. Création d'un document de plan de RD

Qu'est-ce qu'un plan DR ?

Un plan de reprise après sinistre documente les procédures et les ressources qu'une organisation utilise pour se remettre d'une perturbation majeure de son infrastructure informatique. La planification de la reprise après sinistre peut utiliser une variété d'outils en fonction des actifs existants de l'organisation et de ses objectifs de reprise. Les plans de reprise après sinistre comprennent généralement les paramètres suivants :

  • Audit des systèmes et applications critiques
  • Objectifs de points de reprise (RPO) pour chaque processus d'entreprise.
  • Objectifs de temps de récupération (RTO) pour chaque processus métier.
  • Emplacement des sauvegardes de données et du site de réplication. La création d'une sauvegarde secondaire hors site ou d'une réplique de vos systèmes et données les plus importants est un élément essentiel de toute solution de reprise après sinistre.
  • Chaîne de commandement / tableau des responsabilités. Une liste des personnes responsables de la mise en œuvre du plan de reprise après sinistre. L'attribution de rôles et de responsabilités facilite le suivi et l'application rapide et cohérente du plan.
  • Plan de test de DR. Les plans DR nécessitent des tests fréquents pour s'assurer que les procédures de récupération fonctionnent et que les RTO, RPO et SLA peuvent être respectés en cas d'urgence réelle.

Étapes typiques de la préparation d'un plan de RD

Les étapes ci-dessous décrivent les tâches de haut niveau que vous devrez généralement effectuer pour développer un plan DR robuste.

Étape 1 : Effectuer un audit des ressources informatiques

Il convient de réaliser un audit de tous les systèmes critiques pour l'entreprise, en donnant le plus de détails possible. Les informations doivent comprendre des éléments tels que les spécifications de la machine et de la capacité de stockage, les versions du système d'exploitation, les applications et versions installées, l'emplacement de la machine. Outre les serveurs, il est important de ne pas négliger les composants du réseau de l'entreprise, notamment les diagrammes de sa topologie et les détails des paramètres de configuration essentiels. Il convient également d'inclure les dispositifs d'extrémité de l'entreprise, tels que les appareils mobiles et les ordinateurs portables des employés. En dressant l'inventaire de toutes les ressources informatiques de votre réseau et des applications et données que chacune d'entre elles contient, vous pouvez commencer à consolider et à rationaliser le tout afin de faciliter la sauvegarde et la restauration à l'avenir.

Étape 2 : Déterminer une hiérarchie des systèmes essentiels à la mission.

La planification de la reprise après sinistre est une bonne occasion d'examiner en détail vos processus d'entreprise afin de déterminer réellement quels éléments sont essentiels au maintien des opérations. Il est probable que votre entreprise traite et stocke beaucoup plus de données que vous ne le pensiez, y compris beaucoup de données redondantes qui ne sont pas essentielles au maintien des opérations. Au cours de votre audit des ressources informatiques, vous découvrirez probablement plusieurs ensembles de données qui ne sont pas importants et ne méritent donc pas de consommer des ressources de sauvegarde. Déterminer quels systèmes et applications sont critiques fera appel à votre analyse du coût des temps d'arrêt, qui déterminera à son tour le RTO/RPO et la méthode de protection des données que vous devrez employer.

Étape 3 : Établir les rôles et les responsabilités

Chaque employé de l'organisation devrait avoir un rôle à jouer dans votre plan de reprise après sinistre. Un geste aussi simple que de signaler une vulnérabilité en matière de cybersécurité à une personne ayant plus d'ancienneté ou de savoir-faire pour mettre en œuvre le plan de reprise après sinistre peut s'avérer crucial. Une liste clairement documentée des rôles et des responsabilités rendra votre plan de reprise d'activité beaucoup plus efficace.

Étape 4 : Définissez vos objectifs de rétablissement

Il peut être très facile de tomber dans le piège qui consiste à déterminer des objectifs de récupération pour vos systèmes les plus critiques, puis d'appliquer cette mesure comme le plus petit dénominateur commun pour tous vos objectifs de récupération. Fixer des objectifs RTO/RPO trop ambitieux sur un système mettra une pression inutile sur votre équipe interne, ce qui pourrait bien être préjudiciable au processus global de récupération. Nous examinerons l'analyse des risques et le choix approprié du type de récupération et des objectifs de récupération dans les sections 4 et 5.

Étape 5 : Sélectionnez et documentez vos emplacements de sauvegarde et de réplication.

Le choix de l'emplacement des sauvegardes de vos données et des réplications de vos systèmes est très varié. Si celles-ci sont hors site et/ou gérées par des organisations tierces, les détails de leur emplacement, y compris les points de contact clés, doivent être inclus dans le plan. En outre, le processus d'approvisionnement en matériel de remplacement doit être planifié et documenté. Si vous faites appel à un tiers pour la fourniture d'un système de récupération, il convient de poser des questions concernant les délais de fourniture de l'équipement et la priorité d'attribution aux clients dans le cas d'un événement à l'échelle de l'État ayant un impact sur de nombreuses entreprises. Plus précisément, disposeront-ils de suffisamment de matériel, et l'attribution se fera-t-elle selon le principe du premier arrivé, premier servi, ou selon une autre structure de classement des clients.

Étape 6 : Élaboration et documentation d'un plan de test du DR

"Croire en ses sauvegardes est une chose. Devoir les utiliser en est une autre. Si vous n'avez pas testé vos restaurations, vous n'avez pas vraiment de sauvegardes". On ne soulignera jamais assez l'importance de tester réellement vos procédures de DR. Les tests non automatisés sont une tâche difficile et chronophage, et c'est l'une des principales raisons pour lesquelles tant d'entreprises ne testent pas leurs procédures de récupération de manière régulière, voire pas du tout. Nous examinons plus en détail les tests de DR dans les sections 6 et 7.

4. Sélectionner les options de récupération

Une stratégie de récupération appropriée sera nécessaire pour chacun des types de risques identifiés comme pertinents et significatifs pour votre organisation. Le RPO est un facteur clé utilisé pour déterminer la fréquence de sauvegarde des données qui sera nécessaire pour récupérer les données critiques en cas de sinistre. Les systèmes pour lesquels l'intégrité transactionnelle est d'une importance vitale nécessiteront souvent des systèmes répliqués avec une protection continue des données (CDP) fonctionnant comme une paire failover-failback, ou dans le cadre d'une configuration en cluster multi-nœuds. Par conséquent, pour chaque système de votre architecture de processus métier, votre DRP doit préciser si la restauration du système sera effectuée en restaurant les fichiers à partir d'une sauvegarde récente ou en transférant les services vers un système répliqué fonctionnant dans un environnement DR actif. Dans le cas où la récupération du système implique une restauration à partir d'une sauvegarde, il y a un autre choix à faire : réparer et reconstruire le système d'origine ou restaurer le système d'exploitation, les applications et les données sur une plateforme différente. Ce dernier choix présente des défis spécifiques supplémentaires que nous aborderons plus loin dans cette section.

Sauvegarde et réplication - Principales différences et scénarios d'utilisation

Il peut y avoir une certaine confusion autour des termes de sauvegarde et de réplication. Ils sont souvent considérés comme des termes interchangeables ou comme une approche alternative dans un DRP. La sauvegarde et la restauration, ainsi que la réplication, sont toutes deux des éléments essentiels d'un plan complet de reprise après sinistre. Chacun joue son rôle dans la protection de vos systèmes, mais les rôles qu'ils jouent sont différents. Examinons d'abord le rôle des sauvegardes dans le cadre d'un plan de reprise après sinistre.

L'importance des sauvegardes

Les sauvegardes sont conçues pour vous fournir une sauvegarde cohérente et à long terme de vos données. Les sauvegardes peuvent être utilisées pour récupérer votre sauvegarde la plus récente après une panne de serveur ou pour fournir une récupération granulaire d'un seul fichier qui a été accidentellement supprimé. Les sauvegardes peuvent également être déployées à plus long terme pour répondre aux objectifs de conformité. Essentiellement, les sauvegardes constituent votre dernière ligne de défense, et elles se concentrent sur un équilibre entre vos points de récupération et le temps de récupération. En outre, les sauvegardes peuvent être isolées de votre environnement de production afin de protéger davantage vos systèmes contre les logiciels malveillants. Les cybercriminels sont conscients de l'importance des sauvegardes dans votre défense contre les ransomwares, c'est pourquoi ils ciblent et compromettent souvent les sauvegardes avant d'émettre leurs demandes. Par conséquent, les sauvegardes isolées, qui sont également immuables, deviennent un élément clé de nombreuses stratégies de cybersécurité. Il ne faut pas oublier que les applications d'entreprise ne contiennent pas le système d'exploitation complet et les informations sur l'infrastructure de stockage du disque nécessaires pour reconstruire et réapprovisionner un système compromis.

Introduction à la réplication

Si les logiciels de sauvegarde et de récupération peuvent normalement restaurer vos systèmes et vos données rapidement, le RTO sera généralement plus lent que si la réplication faisait partie du processus. En effet, il faut d'abord approvisionner les systèmes avant de restaurer les applications et les données, ce qui prend beaucoup de temps.

Logiciel de réplication

Le logiciel de réplication crée une copie en direct de vos systèmes critiques, qui peut inclure la configuration complète du système, et synchronise régulièrement ces données entre votre système de production primaire et la copie secondaire de ce système. En cas de catastrophe, vous pouvez rapidement transférer votre activité de la copie primaire à la copie secondaire, un processus connu sous le nom de basculement. Ce processus minimise les temps d'arrêt de votre entreprise (RTO) et les pertes de données potentielles, car les synchronisations entre les deux systèmes sont susceptibles d'être beaucoup plus fréquentes que vos sauvegardes complètes, connues sous le nom de RPO. Le basculement et le retour en arrière du système peuvent être automatisés pour réduire davantage le temps d'arrêt du système et, dans de nombreux cas, un RTO proche de zéro peut être atteint de sorte que toute interruption n'est pas perceptible par les utilisateurs du système. Le logiciel Cristie Recovery peut détecter les pannes et fournir une automatisation du basculement/retour à travers la configuration du logiciel Cristie Virtual Appliance (VA). Essentiellement, la réplication est plus axée sur la continuité de votre activité et la minimisation de l'impact d'un sinistre sur votre entreprise, pendant que vous récupérez vos systèmes secondaires à partir de vos sauvegardes.

Logiciel Cristie CloneManager™

Le logiciel Cristie CloneManager crée des copies synchronisées et répliquées de vos machines critiques pour que votre entreprise continue à fonctionner avec un minimum de temps d'arrêt et d'impact sur votre entreprise pendant un scénario de DR. Les synchronisations peuvent être réglées selon un calendrier défini par l'utilisateur pour réduire vos RPO, ou la perte de données entre les deux systèmes, à quelques minutes. CloneManager comprend également des fonctions telles que le basculement et le retour automatique pour automatiser le processus de basculement et réduire davantage les RTO et les temps d'arrêt de votre entreprise. Des tests améliorés permettent de tester vos copies répliquées en dehors de l'environnement de production sans affecter le processus de synchronisation, ce qui vous donne une confiance totale dans votre plan de reprise après sinistre.

Maintenir la mobilité de la réplication pour éviter l'enfermement du fournisseur.

L'avènement de la technologie de virtualisation et du cloud computing a offert aux organisations un large éventail de choix lors de la sélection d'une plate-forme cible pour la réplication de systèmes. Les systèmes physiques ne doivent plus être répliqués sur des systèmes physiques similaires fonctionnant dans un emplacement de secours. Dans les cas où le calcul haute performance est nécessaire, la réplication de systèmes physiques similaires peut être essentielle. Cependant, dans de nombreux cas, la réplication de machines physiques vers des cibles virtuelles ou en nuage à des fins de reprise après sinistre est désormais une option très viable, et pour de nombreuses organisations, cela devient une pratique standard. La configuration d'une cible de réplication virtuelle ou en nuage, puis la gestion des tâches de réplication pour plusieurs machines peuvent sembler une tâche décourageante. De nombreux fournisseurs de services de sauvegarde et de réplication dans le cloud proposent des outils de migration et de réplication gratuits pour aider les clients dans le processus d'intégration de la réplication des systèmes vers un environnement de cloud virtuel. À première vue, il peut s'agir d'un service très utile. L'inconvénient, c'est que les outils fournis sont généralement conçus pour répliquer les systèmes uniquement dans l'environnement en nuage spécifique du fournisseur, donc dans le sens de la mobilité de la réplication, beaucoup de ces outils sont unidirectionnels. Bien entendu, du point de vue des fournisseurs, leur intérêt est d'attirer et de conserver des clients, ce qui peut avoir pour inconvénient de créer un scénario de verrouillage du fournisseur pour le client. Pour garantir une protection maximale et une liberté de choix du fournisseur de cloud, votre DRP doit s'efforcer d'atteindre une mobilité de réplication totale, ce qui signifie que votre infrastructure DR doit être capable de répliquer des systèmes vitaux dans n'importe quelle direction, vers et depuis des cibles physiques, virtuelles et de cloud avec une indépendance totale quant au choix du fournisseur de cloud. Cristie VA offre cette capacité, permettant une liberté totale de déplacer vos systèmes DR entre les fournisseurs et les types de plateformes.

Sélection de la cible de réplication sur site, dans le nuage, en co-location ou hybride.

Sur site

Le plus grand avantage de la réplication de systèmes sur site est probablement la protection des données. Comme les données sont stockées localement dans vos locaux, vous avez un contrôle total sur elles et sur leur sécurité. Les données sensibles ne doivent pas quitter l'entreprise, ce qui peut être un avantage décisif, notamment lorsqu'il s'agit de questions de conformité et de garantie de la souveraineté des données. Un autre avantage clé est la performance. Avec n'importe quelle solution de réplication hors site, les performances de récupération seront régies par la connexion Internet, SD-WAN ou MPLS dont vous disposez avec votre fournisseur de colocation ou de cloud, qui, dans certains cas, peut être bien inférieure à celle de la solution de réplication sur site. Comme les données sont stockées localement dans vos locaux, vous en avez le contrôle total et vous pouvez en assurer la sécurité. Les données sensibles ne doivent pas quitter l'entreprise, ce qui peut constituer un avantage décisif, notamment lorsqu'il s'agit de questions de conformité et de garantie de la souveraineté des données. Un autre avantage clé est la performance. Avec toute solution de réplication hors site, les performances de récupération seront régies par la connexion Internet, SD-WAN ou MPLS que vous avez avec votre fournisseur de colocation ou de cloud, qui, dans certains cas, peut être bien inférieure aux performances disponibles au sein de votre réseau interne. En outre, votre réseau interne doit être accessible à tout moment, ce qui garantit la réplication des systèmes quel que soit l'état de votre connexion Internet. De plus, si votre entreprise ne dépend pas d'Internet ou de services basés sur le cloud pour la sauvegarde et la réplication, vous n'aurez peut-être pas besoin de payer pour une connexion à haut débit, ce qui réduira vos coûts mensuels d'Internet. Comme nous l'avons vu précédemment, les risques de proximité de votre système de production en cas de catastrophe locale ou naturelle doivent être soigneusement pris en compte lors du choix d'une solution de DR sur site.

Pour

  • Facilité d'accès et souplesse de déploiement
  • Contrôle total de la sécurité et de la souveraineté des données
  • Avantages des performances du système et du réseau
  • Réduction potentielle des coûts de l'internet

Cons

  • Frais de Capex
  • Frais généraux d'administration
  • Frais d'entretien
  • Susceptible de subir des catastrophes naturelles ou d'autres catastrophes locales

Colocation

Un centre de données en colocation a été construit spécialement pour garantir la fiabilité du temps de fonctionnement à de nombreux clients. Les centres de données en colocation louent des espaces, où des cages sécurisées et des suites privées résident dans un environnement informatique idéal pour maintenir les actifs informatiques physiques des entreprises. Trouver le bon fournisseur de colocation peut offrir des avantages considérables en termes de connectivité réseau neutre, d'intégration du cloud pour une connectivité hybride et de connectivité multi-cloud via une infrastructure réseau solide. Dans la plupart des cas, les centres de données en colocation peuvent offrir à leurs clients une solution informatique supérieure à un coût total inférieur, avec moins d'inconvénients que les solutions sur site, bien que les coûts d'installation initiaux soient généralement plus élevés. Chaque client utilise son propre système, ce qui présente certains avantages et inconvénients. Comme vous n'êtes pas le propriétaire du centre de données, vous devrez peut-être respecter certaines réglementations appliquées à votre location qui peuvent restreindre l'accès à certaines périodes. Il est donc important de comprendre les règles d'accès et de s'assurer que ces exigences répondent aux besoins de votre entreprise. Dans de nombreux cas, les locataires peuvent utiliser les services de conciergerie et les experts informatiques internes de l'installation de colocation pour les tâches de maintenance et d'exploitation, évitant ainsi tout déplacement inutile vers le centre de données. Dans l'ensemble, pour les entreprises de taille moyenne à grande, les avantages de la colocation devraient dépasser les coûts d'installation initiaux pour offrir une bonne combinaison de performances et de prix abordables. Cela est d'autant plus vrai lorsque le partenaire que vous choisissez est en mesure de fournir un service client de qualité pour répondre à tout problème lié à votre déploiement.

Pour

  • Économies de temps et de coûts. 
  • Aucun besoin de serveurs et d'infrastructures supplémentaires
  • Réduction du coût global de la gestion informatique
  • Éviter les problèmes de capacité électrique
  • Une connectivité étendue
  • Flexibilité
  • Sécurité renforcée, tant physique que cybernétique

Cons

  • Les coûts initiaux sont plus élevés
  • Frais de Capex
  • Possibilité d'un contrôle moindre
  • Restrictions sur la maintenance en termes de temps ou de ressources
  • Trouver le bon fournisseur en termes de proximité, de prix et de services.

Hybride

Le cloud computing est très bien établi, mais de nombreuses entreprises craignent encore de migrer leurs systèmes et leurs données vers cet environnement. Les inquiétudes les plus fréquentes concernent la confidentialité des informations, la qualité des services et les performances que les applications d'entreprise auront après la migration. Le développement d'une infrastructure informatique hybride peut servir de passerelle pour atténuer certaines de ces préoccupations grâce à une solution "meilleur des deux mondes", permettant aux entreprises de choisir ce qu'elles veulent déplacer vers le cloud public, ce qu'elles veulent conserver sur place, et de décider quels services de sauvegarde et de réplication du cloud utiliser à quelles fins. En outre, les entreprises peuvent inclure un cloud privé dans cette architecture, qui est un environnement interne de cloud computing offrant toute l'évolutivité des services de cloud public, mais dédié exclusivement à l'entreprise et accessible uniquement par elle. Les infrastructures de cloud computing sur site, public et privé peuvent fonctionner indépendamment ou être connectées selon les besoins. Par exemple, vous pouvez choisir de répliquer une charge de travail critique, avec de fortes exigences de sécurité ou de conformité, dans votre cloud privé, tandis que les processus moins critiques profitent des services de cloud public. L'entreprise a ainsi un contrôle total sur l'infrastructure et la pile d'applications de secours.

Pour

  • Flexibilité
  • Évolutivité et déploiement
  •  Mobilité accrue
  • Sécurité accrue des données

Cons

  • Difficile à mettre en œuvre
  • Plus cher que le cloud public
  • Compatibilité des fichiers entre les plateformes privées et publiques
  • Possibilité de perdre la visibilité de vos informations

Types de cibles de réplication

Machines physiques

Les systèmes d'exploitation exécutés sur des machines physiques sont étroitement liés au matériel sous-jacent par le biais de pilotes spécifiques aux périphériques utilisés sur la carte système. Les exemples incluent les contrôleurs de stockage, les adaptateurs graphiques et les adaptateurs réseau. Si une machine cible de réplication physique n'est pas identique au système source d'origine, l'image de réplication du système peut échouer à démarrer sur la machine cible en raison d'un décalage d'un ou plusieurs pilotes de niveau système critiques pour le démarrage. Il s'agit d'une situation que de nombreux administrateurs de systèmes informatiques connaissent bien et qui implique un certain nombre de difficultés et de délais pour mettre le système cible dans un état prêt au démarrage avant de pouvoir accéder aux applications et aux données.

Surmonter le casse-tête de la récupération sur du matériel différent

En revanche, l'utilisation du logiciel Cristie Recovery fournit un outil simple à utiliser pour récupérer l'ensemble de votre système sur n'importe quel matériel, plateforme virtuelle ou cloud. Notre logiciel crée un fichier de configuration de la machine qui est enregistré avec votre sauvegarde. Ce fichier de configuration contient toutes les informations nécessaires pour préparer la récupération sur n'importe quelle cible comparable. Les systèmes peuvent être récupérés comme un clone du système d'origine en une seule fois, y compris une récupération ponctuelle. Cela signifie qu'il n'y a pas de temps perdu à essayer de trouver un logiciel ; tout ce dont vous aurez besoin est contenu dans la sauvegarde. Si vous effectuez une restauration sur un matériel différent, nous nous chargeons automatiquement de l'injection de tout nouveau pilote avant le démarrage initial du système de restauration cible. De même, si vous effectuez une restauration dans un environnement virtuel ou en nuage, nous pouvons entièrement automatiser la création de la VM avec les mêmes CPU, RAM et disque que ceux disponibles sur la machine physique d'origine.

Exécution de machines virtuelles (VM)

Les machines virtuelles (VM) désignent généralement des installations de systèmes d'exploitation (OS) distincts fonctionnant sur un seul ordinateur, chaque OS se voyant attribuer une part des ressources système de l'ordinateur. Par exemple, une VM Linux peut être installée au-dessus de votre PC Windows. Plusieurs installations de systèmes d'exploitation peuvent coexister en même temps sur la même machine physique, à condition que celle-ci dispose d'un matériel suffisamment puissant. Cela fait des VM un moyen pratique d'étendre les environnements de bureau et de serveur. Parmi les autres avantages des VM, citons un approvisionnement simple et rapide, une haute disponibilité et une grande évolutivité. Du point de vue de la DR, c'est l'approvisionnement rapide et l'évolutivité qui font des VM une cible de réplication attrayante. Grâce à l'appliance virtuelle (VA) Cristie, il est possible de répliquer ou de récupérer des systèmes à partir de sources physiques ou de nuages vers des machines virtuelles, avec la possibilité de mettre à l'échelle les ressources des VM pour qu'elles correspondent au système source ou pour modifier des ressources spécifiques à la hausse ou à la baisse pendant le provisionnement. Par exemple, vous pouvez souhaiter répliquer vers une VM en cours d'exécution avec des ressources système inférieures à celles de la machine source à des fins de DR, en partant du principe que vous pouvez accepter des performances légèrement inférieures lors d'un basculement du système pour économiser des coûts, car il s'agit d'une situation temporaire jusqu'à ce que les opérations puissent revenir à l'environnement de production normal.

Fichiers d'image de disque virtuel

Jusqu'à présent, nous avons abordé les cibles de réplication dites "en ligne", car il s'agit de machines en fonctionnement prêtes à prendre instantanément le relais du système primaire en cas de panne du système ou de scénario catastrophe. L'avantage des cibles de réplication "en ligne" est qu'elles sont prêtes à fonctionner et peuvent prendre le relais très rapidement. L'inconvénient est qu'elles consomment en permanence des ressources informatiques physiques ou virtuelles en attendant simplement qu'un incident se produise. Pour surmonter cette surcharge liée au maintien de machines de secours en fonctionnement, il existe une alternative sous la forme de fichiers d'images de disques virtuels. Les machines virtuelles peuvent être capturées sous la forme d'une image complète de la même manière qu'un disque système dans une machine physique peut être capturé sous la forme d'une image de disque unique. Le fichier image contient tout, y compris la configuration du système d'exploitation, les applications et toutes les données. La réplication du système peut être effectuée sur un fichier image de disque virtuel stocké dans un environnement de cloud privé ou public plutôt que sur une machine en fonctionnement. Cela présente un avantage considérable en termes de coût, car seul le coût du stockage dans le nuage est nécessaire pour maintenir ces fichiers image, plutôt que le stockage et les ressources informatiques. L'inconvénient est qu'ils sont plus lents à mettre en ligne qu'une machine en fonctionnement, mais pour de nombreux scénarios de DR, le RTO qu'ils fournissent est suffisant. Les solutions de réplication Cristie offrent des capacités de réplication en ligne et hors ligne et prennent en charge tous les standards courants d'images système, notamment les formats de fichiers .vhdx, .qcow2 et .vmdk, via le VA Cristie.

5. Identifier la priorité de récupération pour les applications

Priorités pour la reprise (services partagés et infrastructure)

Un DRP robuste ne doit pas négliger l'importance du réseau d'entreprise sous-jacent. Une organisation ne peut pas fonctionner correctement si les services réseau ne sont pas disponibles pour déplacer les données au sein de l'infrastructure. Par conséquent, l'importance des services réseau ne doit pas être sous-estimée ; un DRP solide doit également inclure la planification de la reprise après sinistre du réseau et couvrir les moyens de réduire le risque de panne du réseau. Alors que l'infrastructure informatique continue de s'éloigner d'une topologie fixe centrée sur le matériel pour s'orienter vers des architectures définies par logiciel, les profils de réseau peuvent plus facilement faire partie de votre ensemble de sauvegardes régulières pour inclure les fichiers de configuration du réseau, y compris les paramètres et réglages initiaux pour configurer les périphériques réseau après tout sinistre de l'infrastructure.

Priorité des groupes d'applications à récupérer

Un élément clé de tout DRP sera la liste des priorités de reprise pour les applications de processus métier. En adoptant une approche par paliers, les planificateurs de la reprise après sinistre peuvent structurer le processus de reprise pour réduire les temps d'arrêt et protéger les systèmes hautement prioritaires. Conceptuellement, les objectifs de point de récupération (RPO) et les objectifs de temps de récupération (RTO) calculés pendant l'étape d'analyse du "coût des temps d'arrêt" peuvent servir de point de départ pour déterminer les priorités de récupération des applications.

Ordre des systèmes à récupérer au sein des groupes d'applications

Il est clair que de nombreuses applications dépendent d'autres applications, de sorte que la liste des priorités de restauration contiendra très probablement des groupes d'applications qui doivent être restaurés et mis en ligne dans un ordre spécifique afin de garantir que les opérations des processus métier puissent se dérouler sans problème et sans goulot d'étranglement. Il est fort probable que le premier système et groupe d'applications à restaurer contienne des serveurs d'infrastructure fondamentaux tels que le contrôleur de domaine qui est nécessaire au départ pour répondre aux demandes d'authentification de sécurité et vérifier les utilisateurs sur chaque domaine d'un réseau informatique. Ce contrôleur est le contrôleur d'accès qui autorise l'accès des hôtes à toutes les ressources du domaine.

6. Récupération manuelle ou automatique ?

Dois-je récupérer manuellement ?

Si vous avez mis en place un solide DRP, c'est parfait. Mais si vous envisagez de récupérer vos systèmes manuellement, le processus peut être beaucoup plus complexe que vous ne le pensez. S'il n'est pas impossible de récupérer vos systèmes manuellement, vous aurez besoin de compétences spécifiques pour gérer les systèmes d'exploitation, les applications, les réseaux et le stockage, ainsi que de beaucoup de temps. En général, la reconstruction manuelle complète d'un serveur avec des applications prend entre deux et huit heures, sans compter le temps nécessaire à la restauration des données. De plus, les restaurations manuelles ont tendance à ne pas être planifiées, ce qui signifie que vous travaillerez contre la montre dans une situation qui peut déjà être très stressante. Examinons un processus de restauration manuelle étape par étape.

  • Pour commencer, vous devrez identifier le système à installer (physique, virtuel ou en nuage). Gardez à l'esprit que s'il s'agit d'un système virtuel ou en nuage, vous devrez créer manuellement la VM, installer manuellement le système d'exploitation et exécuter les mises à jour des correctifs, avant de localiser les supports d'installation des applications. 
  • Vous devrez ensuite vérifier que ces versions d'applications fonctionnent avec la version du système d'exploitation installée, avant de passer à l'installation du logiciel de récupération et d'autres programmes et applications. Enfin, vous pouvez commencer à restaurer vos données.
  • Ensuite, les informations relatives au nom de la machine et à l'adresse IP devront être modifiées avant qu'elle ne soit à nouveau opérationnelle, mais rien ne garantit que vous n'aurez pas d'autres problèmes par la suite.

Ai-je besoin d'un produit d'automatisation ou d'orchestration ?

Une restauration manuelle est une opération complexe et longue ; comparez-la aux 10 à 15 minutes nécessaires pour une restauration avec un logiciel de restauration de machine nue dédié qui fournit une automatisation et une orchestration de la restauration et vous conviendrez que la réponse est un "oui" retentissant.

7. Est-ce que cela fonctionne

"Selon Storage Magazine, plus de 34 % des entreprises ne testent pas leurs sauvegardes et 77 % d'entre elles ont constaté que les sauvegardes sur bande ne permettaient pas de restaurer les données. Selon Microsoft, 42 % des tentatives de restauration à partir de sauvegardes sur bande au cours de l'année écoulée ont échoué. Une étude réalisée par la National Archives & Records Administration de Washington a conclu que 93 % des entreprises qui ont perdu leur centre de données pendant 10 jours ou plus en raison d'un sinistre ont déposé le bilan dans l'année qui a suivi le sinistre. Si vous ne testez pas correctement votre jeu de sauvegarde, les résultats peuvent être dévastateurs pour votre organisation en cas de catastrophe.

Il est essentiel de tester régulièrement la récupération de vos sauvegardes pour trois raisons : premièrement, pour identifier les problèmes à l'avance, deuxièmement, pour les résoudre et, enfin, pour renforcer la confiance dans vos sauvegardes afin que, lorsque vous en aurez réellement besoin, vous puissiez les récupérer rapidement et efficacement pour respecter vos RPO et RTO. Le pire moment pour découvrir un problème avec vos sauvegardes ou votre processus de récupération est lorsque vous êtes au milieu d'un désastre réel, et que vous comptez sur elles pour remettre votre entreprise en marche. Tout problème qui survient au cours d'un sinistre peut non seulement retarder votre reprise, mais aussi rendre vos systèmes totalement irrécupérables. Malheureusement, tester régulièrement vos serveurs manuellement est une tâche qui prend du temps, surtout si vous voulez tester l'ensemble de votre centre de données. C'est pourquoi Cristie Software inclut une fonctionnalité de test de récupération automatisée pour tous nos clients de récupération de système dans le cadre de leurs licences.

Dois-je automatiser mes tests ?

Si vous envisagez de procéder à des tests de récupération manuels, nous vous conseillons de bien réfléchir. Souvent, les tests manuels signifient que vous ne pouvez tester efficacement que vos systèmes les plus critiques. Vous utilisez un logiciel tiers ? Nous avons parlé à de nombreux clients qui ont utilisé des logiciels tiers pour effectuer leurs tests. Parfois, seul un échantillon des systèmes est testé, et cet échantillon peut être aussi faible que 10-20%. Cet échantillon est ensuite utilisé pour construire une image généralisée de la santé de votre sauvegarde, ce qui ne reflète pas nécessairement la réalité. Lorsque vous utilisez Cristie Software pour vos tests de récupération, le processus est automatisé et planifié. Il a permis à nos clients de tester l'intégralité de leur parc de serveurs et d'être sûrs de pouvoir récupérer n'importe lequel de leurs systèmes après un sinistre.

Orchestration des DR (automatisation des tâches, évitant les interventions manuelles)

L'orchestration DR peut aider à la récupération ordonnée de votre environnement de serveur pendant une panne, en s'assurant que vos serveurs, applications et données critiques reviennent en ligne sans incident et de manière automatisée. L'orchestration DR de Cristie va un peu plus loin que les récupérations automatisées en vous donnant la possibilité de planifier et de configurer à l'avance toutes les étapes nécessaires à la remise en service de vos systèmes critiques après un sinistre. L'orchestration DR est incluse comme l'une des fonctions à valeur ajoutée de l'appliance virtuelle (VA) Cristie. La VA et l'orchestration DR sont gratuites pour tous nos clients de récupération et de réplication de systèmes.

Comment fonctionne l'orchestration

Chaque tâche d'orchestration passe par une série d'étapes et, à chaque étape, nous pouvons exécuter autant de tâches différentes que nous le souhaitons en parallèle. Par exemple, nous pouvons exécuter des tâches de réplication ou de récupération (avec des récupérations directement à partir de votre serveur de sauvegarde IBM Spectrum Protect, Dell Networker/Avamar ou Cohesity), des redémarrages, des scripts et des tâches de rapport qui vous donnent un résumé détaillé de la tâche d'orchestration. Nous pouvons même ajouter des tâches manuelles, qui arrêteront l'automatisation pendant l'exécution de cette tâche (comme le chargement d'un lecteur de bande), avant de reprendre l'orchestration une fois la tâche terminée.

Utilisation de l'automatisation pour gagner du temps et améliorer vos tests DR

Tout cela est conçu pour utiliser l'automatisation afin de vous faire gagner du temps au moment le plus important, en minimisant l'interaction humaine et le risque d'erreur humaine dans ce qui a toujours été un processus très manuel. L'orchestration de la reprise après sinistre peut également être utilisée pour améliorer votre régime de test de la reprise après sinistre, car vous pouvez non seulement tester les restaurations, mais aussi les processus environnants nécessaires pour remettre votre entreprise en état de marche. En étant capable de tester les processus environnants, comme le redémarrage du système, l'intégration inter-applications ou les scripts post-démarrage, vous pouvez repérer et corriger tout problème à l'avance sur l'ensemble du processus avant d'en avoir besoin dans un scénario réel de DR. En d'autres termes, si vous devez effectuer une reprise réelle, vous pouvez avoir confiance dans votre capacité à restaurer vos systèmes critiques rapidement et facilement.

Planifiez à l'avance vos tâches d'orchestration de la DR

Comme pour notre fonction de test de reprise, les tâches d'orchestration de la reprise peuvent être configurées et programmées des mois à l'avance, avec un rapport complet par e-mail sur les succès et les échecs, qui peut être utilisé à des fins d'audit, de conformité, de réglementation sectorielle ou, si vous êtes un fournisseur de services, dans le cadre de votre rapport SLA à votre client.

Récupération DR : Scénarios d'échec courants

Le processus de test de reprise après sinistre fait apparaître de nombreux scénarios d'échec qui sont certainement beaucoup plus faciles à gérer pendant la phase de test que sous la pression d'une urgence réelle. Une variété de défaillances d'inspiration technique et humaine se présentent pendant les tests, les suivantes étant parmi les plus fréquemment signalées par notre logiciel et/ou expérimentées par nos clients.

  • Fichier(s) de sauvegarde défectueux : on détecte souvent un fichier de sauvegarde corrompu qui doit être rectifié et remplacé.
  • Travail de sauvegarde incomplet : Une sélection incomplète de fichiers/dossiers lors de la configuration de la tâche de sauvegarde est une autre raison courante d'échec. Il peut s'agir d'un simple oubli administratif ou, dans certains cas, d'une mauvaise communication interne entre les départements. Par exemple, une unité commerciale peut demander ou installer une nouvelle application, mais la responsabilité de sa sauvegarde peut être omise en raison d'hypothèses incorrectes entre l'unité commerciale et l'équipe de support informatique.
  • Matériel incompatible : Il s'agit d'un scénario courant lorsqu'une organisation a demandé à ce que des cibles DR bare metal soient fournies par le fournisseur de colocation ou de centre de données qui nécessite des pilotes de niveau système différents ou supplémentaires pour que le système de récupération puisse démarrer. C'est un scénario que le logiciel Cristie Recovery peut surmonter dans de nombreux cas en utilisant notre technologie automatisée de matériel dissemblable.
  • Configuration du réseau : Les erreurs de configuration générale du réseau sont fréquentes, notamment lors du passage d'une cible physique à une cible virtuelle.

Tests et rapports pour assurer la conformité

En plus de renforcer la confiance en matière de sauvegarde en interne, les tests de récupération de Cristie peuvent également vous aider à respecter les mesures d'audit et de conformité gouvernementales ou industrielles qui sont courantes dans des secteurs tels que les soins de santé et les services financiers (par exemple, les réglementations HIPPA et FSA). Tous nos tests de récupération automatisés peuvent être suivis d'un rapport détaillé par e-mail sur les succès, les échecs, le temps nécessaire à la restauration et les problèmes rencontrés, afin de vous fournir un enregistrement complet des résultats de vos tests. En plus de ces rapports, nous pouvons également assurer le suivi des tests avec des configurations supplémentaires, telles que la suppression des tests réussis pour libérer de l'espace disque et le maintien en place des restaurations qui ont échoué pendant que vous enquêtez sur les raisons de cet échec.

8. Ressources utiles

Liens vers des outils de planification et des sites d'information utiles

Gouvernement des États-Unis. Lancée en février 2003, Ready est une campagne nationale de service public destinée à éduquer le peuple américain et à lui donner les moyens de se préparer, de répondre et d'atténuer les urgences, y compris les catastrophes naturelles et d'origine humaine. L'objectif de la campagne est de promouvoir la préparation par la participation du public.

Plan de reprise après sinistre informatique https://www.ready.gov/it-disaster-recovery-plan

Université de l'Indiana - Ressources pour les professionnels de l'informatique Planification de la reprise après sinistre https://informationsecurity.iu.edu/resources-professionals/disaster-recovery-planning.html

ExempleIBM: Plan de reprise après sinistre https://www.ibm.com/docs/en/i/7.1?topic=system-example-disaster-recovery-plan

Calculateur de coût des temps d'arrêtEATON https://powerquality.eaton.com/Products-services/Help-Me-Choose/DowntimeCostCalculator/Default.asp

9. Conclusions

Il est clair que la planification de la reprise après sinistre et le processus de reprise après sinistre lui-même sont des tâches extrêmement importantes et, sans surprise, intimidantes pour de nombreuses organisations. Le coût de la mise en place de systèmes de sauvegarde et de redondance n'est pas négligeable. Cependant, pour beaucoup, ce coût devient minuscule lorsqu'il est comparé au coût d'un temps d'arrêt ou, pire encore, à la portée considérable d'une attaque par ransomware. Contrairement à la plupart des décisions prises dans le cadre de la conception des processus métier, la planification de la reprise après sinistre implique de nombreux compromis fondés sur l'analyse des risques et le niveau de service exigé par vos clients, fournisseurs et employés. Nous espérons que ce guide a montré que la sauvegarde et la réplication ont toutes deux un rôle important à jouer dans toute stratégie de reprise d'activité robuste et que, dans de nombreux cas, il est peu probable que l'une ou l'autre soit utilisée isolément. Grâce aux progrès du cloud computing, les entreprises disposent désormais d'un large éventail de choix de cibles de sauvegarde et de réplication en termes d'emplacement et de type : physique, virtuel et cloud. La mobilité de la sauvegarde et de la réplication est également une caractéristique clé qui devrait être intégrée dans tout DRP afin d'éviter le verrouillage des fournisseurs ou la possibilité de points de défaillance uniques dans votre plan de redondance. Pour plus d'informations sur la récupération, la réplication et la migration des systèmes, contactez l'équipe de Cristie Software qui est toujours prête à répondre à vos questions.

10. Références

1. [en ligne], consulté le 9 février 2022, https://www.ccn.com/facebooks-blackout-90-million-lost-revenue/.

2. [en ligne], consulté le 9 février 2022, https://money.cnn.com/2016/09/07/technology/delta-computer-outage-cost.

3. [en ligne], consulté le 9 février 2022, https://blogs.gartner.com/andrew-lerner/2014/07/16/the-cost-of-downtime/.

4. [en ligne], consulté le 9 février 2022, https://www.usenix.org/conference/fast16/technical-sessions/presentation/schroeder.

5. [en ligne], consulté le 9 février 2022, https://purplesec.us/resources/cyber-security-statistics/.

6. [en ligne], consulté le 9 février 2022, https://en.wikipedia.org/wiki/2021_Texas_power_crisis.

Nous contacter

Merci de nous avoir contactés. Nous avons bien reçu votre demande.