Buscar en
Cerrar este cuadro de búsqueda.

Recuperación en caso de catástrofe

Cristie Software Guide to Disaster Recovery Planning and System Recovery Processes (Guía de software para la planificación de la recuperación en caso de catástrofe y los procesos de recuperación de sistemas)

1. Introducción

Una situación de catástrofe puede venir de cualquier parte, ya sea una tormenta que inunda la sede, una pandemia que obliga al personal a trabajar a distancia o un ciberataque que deja los sistemas comprometidos, es importante en situaciones como éstas tener planes preparados para garantizar que su personal y su empresa puedan seguir funcionando. Aunque no sea a pleno rendimiento, es vital para la supervivencia de su empresa alcanzar una posición en la que pueda atender a sus clientes con un nivel aceptable de experiencia de servicio lo antes posible. El acto de desarrollar estrategias para mitigar los riesgos de sucesos inesperados es el núcleo de la gestión de la continuidad empresarial y un proceso vital que todas las empresas deberían emprender. Desgraciadamente, los estudios demuestran que tan sólo el 35% de las pequeñas empresas cuentan con planes de recuperación adecuados y que sólo el 10% de las que no tienen ningún proceso de recuperación sobrevivirán a un incidente grave. Un Plan de Recuperación de Desastres (DRP) del sistema es un subconjunto del plan general de continuidad de negocio, y el proceso de recuperación del sistema es el tema en el que nos centraremos aquí. El plan de RD es un planteamiento documentado con instrucciones sobre cómo responder a incidentes imprevistos que implica restaurar sistemas de apoyo vitales, como instalaciones de servidores, activos informáticos y otros sistemas y datos de infraestructuras críticas. El objetivo de un plan de recuperación ante desastres es minimizar el tiempo de inactividad de la empresa y los servicios y restablecer el funcionamiento normal de las operaciones técnicas en el plazo más breve posible. Al igual que en muchas áreas de la estrategia y la planificación empresarial, a la hora de crear un plan de recuperación en caso de catástrofe hay que sopesar los riesgos y los costes del tiempo de inactividad de los elementos clave de las operaciones de la empresa.

¿Cuáles son los costes del tiempo de inactividad?

El tiempo de inactividad de los sistemas informáticos críticos afectará de algún modo al flujo normal de los procesos empresariales y, en casi todos los casos, supondrá una pérdida de ingresos. El coste exacto del tiempo de inactividad es, por supuesto, una cantidad muy difícil de medir. Entran en juego muchos factores, como el tamaño de la empresa, el sector, la duración real de la interrupción, el número de personas afectadas y la hora del día. Normalmente, las pérdidas son significativamente mayores por hora para las empresas que se basan en transacciones de datos de alto nivel, como los bancos y las tiendas minoristas en línea. Ha habido muchos ejemplos de alto perfil, incluido el apagón de 14 horas en 2019 que le costó a Facebook un estimado de 90 millones de dólares y en 20161, un apagón de cinco horas en un centro de operaciones de Delta Airlines causó 2,000 vuelos cancelados y una pérdida estimada de 150 millones de dólares2. Por supuesto, estos son líderes de la industria con enormes márgenes operativos y millones en el banco, pueden capear una tormenta financiera de un día mucho mejor que la mayoría. Las empresas más pequeñas pueden sufrir pérdidas menores durante un incidente grave; sin embargo, el impacto global puede ser mucho más perjudicial, incluso hasta el punto de llegar a la quiebra. La firma analista del sector Gartner realizó una encuesta sobre el coste del tiempo de inactividad en 2014 que determinó que el coste medio del tiempo de inactividad de TI era de 5.600 dólares por minuto. El informe mostró que, debido a las grandes diferencias en la forma en que operan las empresas, el tiempo de inactividad, en el extremo inferior, puede ser de hasta 140.000 dólares por hora, 300.000 dólares por hora en promedio y hasta 540.000 dólares por hora en el extremo superior3. Por supuesto, de aquí a 2022 estas cifras serán sin duda mucho más elevadas. Una forma elemental de determinar el coste del tiempo de inactividad para las secciones de su empresa es determinar cuántos empleados se han visto afectados, calcular su salario medio por hora y, a continuación, decidir el impacto del tiempo de inactividad en su productividad. Por ejemplo, si toda su línea de producción está parada, el impacto en su departamento de fabricación sería del 100%, entonces aplique la fórmula Coste del tiempo de inactividad = (número de empleados afectados) x (impacto en la productividad) x (salario medio por hora)Además, hay varios costes menos tangibles del tiempo de inactividad, como el impacto en la moral de los empleados, su reputación, la marca y la lealtad de los clientes, que deben tenerse en cuenta. Más allá del valor para la planificación de la recuperación ante desastres y la creación de resistencia operativa, el análisis del coste del tiempo de inactividad puede ayudarle a pensar estratégicamente sobre su modelo de negocio y le permite comprender mejor su empresa desde un punto de vista táctico.

¿Cuáles son los RTO y RPO aceptables para sus funciones empresariales?

Para cada función empresarial es importante determinar los objetivos de tiempo de recuperación (RTO) y los objetivos de punto de recuperación (RPO) aceptables. En algunos casos, estos parámetros vendrán determinados por los Acuerdos de Nivel de Servicio específicos que se puedan tener con los clientes o incluso dentro de la organización. Como su nombre indica, el RTO define el tiempo máximo aceptable que se debe tardar en recuperar completamente un sistema a su estado de funcionamiento anterior al escenario de interrupción. RPO se define como la cantidad máxima de datos, medida en tiempo, que pueden perderse tras una recuperación de un desastre o evento comparable antes de que la pérdida de datos supere lo aceptable para la organización. Es importante que estos parámetros se calculen asumiendo el peor escenario posible. Muy a menudo, los cálculos de RTO se basan en estimaciones para una recuperación manual de un único sistema sin tener en cuenta la infraestructura subyacente. En muchas situaciones, como un ciberataque o una catástrofe natural, la realidad será que habrá que recuperar varios sistemas, lo que aumentará significativamente el RTO real y reforzará el hecho de que la recuperación manual de sistemas no es práctica. La recuperación de múltiples sistemas debe tenerse en cuenta para establecer una estimación real del RTO, y la automatización de la recuperación debe desempeñar un papel vital en el proceso de restauración. Acortar el RTO o reducir el RPO suele implicar mayores costes, de ahí la necesidad de realizar una evaluación de riesgos y un cálculo del coste del tiempo de inactividad para cada sistema que se desee proteger antes de establecer estos parámetros.

2. Identificación de riesgos

Realizar una evaluación de riesgos

Antes de implantar un DRP, debe realizarse una evaluación de los riesgos y de todas las vulnerabilidades potenciales a las que puede ser propensa su empresa. La evaluación de riesgos de RD determina los riesgos potenciales para el funcionamiento de una organización derivados de catástrofes tanto naturales como provocadas por el hombre, con una estimación de la probabilidad de que se produzca cada escenario. A continuación, los resultados de estas estimaciones deben multiplicarse por el coste del tiempo de inactividad de cada escenario. El valor determinado define el nivel de protección que su organización debe considerar frente a una amenaza determinada. Sin embargo, en ciertos casos puede haber penalizaciones a más largo plazo que considerar, especialmente cuando la pérdida de datos podría significar contravenir las normativas de cumplimiento de la industria. Por ejemplo, si usted es una organización del sector sanitario que se rige por la normativa HIPPA para la protección de la información sanitaria electrónica protegida (ePHI), que exige específicamente una copia de seguridad segura de "copias exactas recuperables de la información sanitaria electrónica protegida", y una inundación acaba con todos sus datos, los problemas de cumplimiento derivados de la destrucción de los registros persistirán durante meses o incluso años si no disponía de un sitio seguro de copia de seguridad. Independientemente de que la catástrofe sea natural o provocada por el hombre, también es importante identificar y planificar las situaciones en las que, además de la pérdida de sistemas, es posible que no tenga acceso a los recursos y el personal a los que está acostumbrado durante las operaciones comerciales normales.

Tipos de riesgo y características

Catástrofe natural

Una catástrofe natural suele afectar al acceso a los edificios y a las infraestructuras de apoyo, por lo que debe considerarse la posibilidad de replicar todo el emplazamiento si la evaluación de riesgos indica que la probabilidad de que se produzca un suceso de este tipo es suficiente. La ubicación del sitio de replicación deberá tenerse en cuenta si se encuentra en una zona propensa a los fenómenos naturales. Por ejemplo, considere una empresa financiera situada en San Francisco, California. Las finanzas son un sector estrictamente regulado y las empresas deben mantener registros de una manera muy específica. Además, como la empresa está en California, existe un elevado riesgo de terremotos. Teniendo en cuenta estas limitaciones, deben asegurarse de que los centros de datos tienen copias de seguridad para evitar multas si se destruye un centro de datos, y que los sitios de replicación están en otros lugares que son menos susceptibles a los terremotos. Del mismo modo, si se encuentra en una llanura inundable, la replicación local in situ probablemente no sea la opción más segura.

Error humano

La forma más común de error humano es el borrado accidental de archivos o carpetas. Para mitigar estas situaciones, deben programarse copias de seguridad periódicas de los volúmenes de datos importantes, de modo que los elementos eliminados puedan restaurarse a partir de una copia puntual adecuada. Por supuesto, los humanos pueden ir mucho más allá del borrado accidental de archivos y realizar tareas no deseadas como el apagado accidental del sistema, la desconexión de cables de red, la introducción incorrecta de datos y, por desgracia, son su mayor riesgo a la hora de facilitar la ciberdelincuencia. El 98% de los ciberataques se basan en la ingeniería social5 para obtener datos de inicio de sesión y personales, o para distribuir una carga de malware a través del personal que abre archivos adjuntos maliciosos. Aparte de los riesgos cibernéticos que presentan los humanos, que son un tema digno de mucho más debate del que se puede tratar aquí, los errores como los cierres accidentales y los borrados de archivos se pueden reducir limitando el acceso físico al sistema al personal necesario y, del mismo modo, limitando el acceso de inicio de sesión sólo al personal esencial para sus sistemas más críticos.

Corte de electricidad

Los cortes de energía imprevistos provocarán un apagado imprevisto de los sistemas, lo que puede ocasionar la pérdida de transacciones o la corrupción de archivos de datos. Como mínimo, los sistemas críticos deben contar con una fuente de alimentación ininterrumpida (SAI) que proporcione energía de emergencia cuando falle la fuente de alimentación de entrada o la red eléctrica. El SAI será capaz de suministrar energía durante un tiempo limitado para facilitar un apagado suave, o para permitir que se aplique energía alternativa procedente de generadores de reserva, si están disponibles. La replicación en la nube o en un emplazamiento físico independiente puede proporcionar una conmutación por error en caso de fallo de la alimentación eléctrica; sin embargo, el acceso a la red y los sistemas de comunicación también pueden verse afectados por el apagón, por lo que deben tenerse en cuenta en el DRP métodos alternativos de acceso a la red.

Fallo de hardware

Los fallos del sistema debidos al hardware subyacente pueden ser progresivos o instantáneos y catastróficos. Las unidades de disco duro (HDD), debido a sus piezas mecánicas móviles, presentan muy a menudo un patrón de fallo progresivo que puede mitigarse aplicando mecanismos de protección de datos como los distintos niveles de RAID disponibles. Del mismo modo, aunque no tienen partes móviles, el almacenamiento basado en flash y las unidades SSD tienen una vida útil finita, además de características de desgaste que limitan su capacidad utilizable con el tiempo. Las SSD son relativamente nuevas en el mercado, por lo que los fabricantes aún están tratando de determinar su vida útil. Las estimaciones actuales hablan de un límite de 10 años para las SSD, aunque en la práctica la vida media de estas unidades parece ser más corta. Los investigadores de un estudio conjunto de Google y la Universidad de Toronto probaron las SSD durante varios años y descubrieron que se sustituían aproximadamente un 25% menos que los discos duros4. Del mismo modo, la memoria del sistema puede presentar fallos progresivos; sin embargo, debido al hecho de que la memoria del sistema suele contener instrucciones de código de aplicación y datos operativos, la mayoría de los fallos de memoria provocarán un bloqueo de la aplicación o del sistema operativo. Los fallos a nivel de placa del sistema suelen ser catastróficos y obligan a sustituir la placa afectada o a recuperar una imagen completa del sistema en una máquina física de sustitución. A menos que el hardware de la máquina de reemplazo sea idéntico al original, el proceso de recuperación puede encontrar problemas debido a diferencias en los controladores críticos de arranque, lo que resulta en una larga intervención de los equipos de soporte de TI. En la sección 3 se describe una solución para recuperar sin problemas sistemas en hardware distinto.

Error de actualización

Error humanoLa forma más común de error humano es el borrado accidental de archivos o carpetas. Para mitigar estas situaciones, deben programarse copias de seguridad periódicas de los volúmenes de datos importantes, de modo que los elementos eliminados puedan restaurarse a partir de una copia puntual adecuada. Por supuesto, los humanos pueden ir mucho más allá del borrado accidental de archivos y realizar tareas no deseadas como el apagado accidental del sistema, la desconexión de cables de red, la introducción incorrecta de datos y, por desgracia, son su mayor riesgo a la hora de facilitar la ciberdelincuencia. El 98% de los ciberataques se basan en la ingeniería social5 para obtener datos de inicio de sesión y personales, o para distribuir una carga de malware a través del personal que abre archivos adjuntos maliciosos. Aparte de los riesgos cibernéticos que presentan los seres humanos, que son un tema digno de mucho más debate del que se puede tratar aquí, los errores como los apagados accidentales y los borrados de archivos se pueden reducir limitando el acceso físico al sistema al personal necesario, y limitando igualmente el acceso de inicio de sesión sólo al personal esencial para sus sistemas más críticos.Error de actualizaciónLa mayoría de los elementos de una infraestructura de TI requieren actualizaciones regulares de software o firmware para proporcionar correcciones de errores, nuevas funciones y, lo que es más importante, el cierre de cualquier vulnerabilidad de ciberataque que pueda haber sido descubierta por los fabricantes de equipos. Por lo tanto, las actualizaciones periódicas suelen ser algo positivo y muy recomendable en la lucha contra la ciberdelincuencia. Las actualizaciones pueden causar problemas cuando se ve afectada la compatibilidad entre aplicaciones. Esto puede tener que remediarse actualizando las aplicaciones asociadas en la secuencia correcta o, en algunos casos, una vuelta a una versión anterior puede ser la única opción para mantener la compatibilidad entre aplicaciones. La mayoría de las actualizaciones de parches tienen una función de retroceso o desinstalación. Si este no es el caso, la restauración a una versión anterior desde una copia de seguridad puntual puede ser la única opción. Del mismo modo, no es extraño que los archivos de parches contengan errores que provoquen el fallo de la actualización y obliguen a revertirla. Muchas aplicaciones de software, sistemas operativos y dispositivos de red ofrecen actualizaciones automáticas que pueden presentar problemas de actualización inesperados y tiempos de inactividad no programados, por lo que la gestión de parches es una tarea importante que requiere una planificación y un enfoque específicos para evitar tiempos de inactividad no deseados.

Soporte de sistemas heredados

Aunque la transición de muchas aplicaciones empresariales a la nube y el modelo as-a-service de entrega de plataformas están cada vez más extendidos, hay muchas empresas que responden a aplicaciones heredadas específicas de un sector que no tienen un plan de migración a la nube a corto plazo. A su vez, algunas aplicaciones heredadas requerirán el uso prolongado de un sistema operativo heredado que puede haber pasado el "fin de soporte", lo que significa que el desarrollador del sistema operativo ya no proporcionará soporte técnico y, lo que es más importante, ya no proporcionará actualizaciones del sistema operativo. Esto puede presentar una vulnerabilidad de seguridad que puede requerir una atención específica para garantizar que los datos vitales están protegidos y/o que ciertos sistemas están aislados de la red principal. Las aplicaciones heredadas pueden presentar retos adicionales en un escenario de RD, ya que la reconstrucción del sistema puede depender de la disponibilidad de los soportes originales de la aplicación, como CD/DVD de instalación, además de los archivos de parches necesarios para actualizar la aplicación a su versión más reciente. Lo mismo ocurrirá con el sistema operativo heredado subyacente. Por estas razones, el uso de software de recuperación de sistemas y/o replicación de sistemas puede ser de vital importancia para garantizar la recuperación de los sistemas heredados tras un desastre. Cristie El software simplifica la protección de las aplicaciones heredadas gracias a nuestra amplia matriz de soporte para sistemas operativos heredados, incluidos muchos que actualmente se encuentran en estado de fin de soporte. Las herramientas de software de copia de seguridad modernas suelen lanzarse con compatibilidad para las versiones de SO más actuales, añadiéndose posteriormente compatibilidad para versiones anteriores, en función de la demanda de los clientes, por lo que es importante comprobar las matrices de compatibilidad de SO de todas las herramientas de protección de datos que tenga previsto utilizar cuando se trate de aplicaciones heredadas.

Virus informáticos

Los virus informáticos son casi siempre invisibles. Sin un software antivirus instalado en sus sistemas y dispositivos de punto final, es posible que no sepa que tiene uno. El daño causado por los virus puede variar, pero los menos dañinos suelen poder eliminarse o ponerse en cuarentena con el software antivirus que haya elegido. El proceso suele seguir la secuencia de pasos que se indica a continuación.

  • Desconecte el sistema de todas las redes
  • Reinicie el sistema en "Modo seguro" siguiendo las instrucciones del sistema operativo.
  • Eliminar los archivos temporales
  • Ejecutar un antivirus
  • Eliminar o poner en cuarentena los archivos detectados
  • Volver a escanear el sistema para comprobar si existen más amenazas.
  • Reinicie el sistema en condiciones normales de funcionamiento
  • Cambiar todas las contraseñas
  • Asegúrese de que todos los sistemas operativos, aplicaciones, navegadores y elementos de red disponen de las últimas actualizaciones de software.
  • Vuelva a conectar el sistema a la red

Un punto clave que hay que entender es que los sistemas tradicionales de protección contra el malware, incluidos los cortafuegos y el software antivirus, utilizan una técnica de protección conocida como lista negra. Se trata de una técnica eficaz, pero que requiere mucho tiempo, tanto para las empresas de software de seguridad, que deben mantener constantemente archivos de definiciones para detectar y aislar todos los códigos maliciosos conocidos, como para el personal informático, que debe asegurarse de que todos los parches del sistema y los archivos de definiciones se mantienen actualizados. Las cargas útiles de los programas maliciosos y los virus están diseñadas para explotar las vulnerabilidades que se han encontrado en la pila tecnológica, ya sea en un sistema operativo, en la infraestructura de red, en una aplicación o en cualquier otro punto intermedio. Aquí radica el principal fallo del enfoque de las listas negras: se están parcheando constantemente agujeros de seguridad que ya se conocen y están siendo explotados; de ahí que los equipos de seguridad informática estén siempre a la zaga de la ciberdelincuencia.El enfoque tradicional de las listas negras es reactivo y permite que códigos de malware nuevos y desconocidos se infiltren y propaguen sin ser detectados antes de causar estragos. Estas nuevas vulnerabilidades se conocen como exploits de "día cero". Hasta que se mitiguen estas vulnerabilidades, los piratas informáticos pueden seguir explotándolas para afectar negativamente a las aplicaciones del sistema, los datos de la empresa y otros ordenadores de la red.

Ciberataque

Un ciberataque es un ataque orquestado contra la red, los sistemas, la infraestructura y los datos de una empresa que cuenta con la intervención manual de un individuo o un equipo de hackers. Los objetivos del atacante suelen ser paralizar sistemas empresariales vitales bloqueando y/o cifrando los sistemas y datos que necesitan para funcionar. A continuación, se pide un rescate bajo la premisa de que se proporcionará una clave de descifrado previo pago. Una tendencia de ataque más reciente es la exfiltración adicional de información confidencial de la empresa e información de identificación personal (PII) bajo la amenaza de filtrar esta información públicamente, o para su venta a través de la web oscura. Muy a menudo, un ciberataque se inicia mediante la entrega de un virus informático (código malicioso), como se ha descrito anteriormente. Por lo general, el virus se envía a través de un correo electrónico de phishing que engaña al destinatario para que descargue un archivo adjunto que contiene el código malicioso en su ordenador o dispositivo. El código malicioso establece entonces una puerta trasera en la red informática e informa a los piratas informáticos de que se ha creado una vía de entrada. Otra posibilidad es que los piratas informáticos intenten explotar vulnerabilidades desconocidas (de día cero) en elementos de una red corporativa, como conmutadores y enrutadores, sistemas operativos informáticos o, de hecho, cualquier dispositivo conectado a la red que pueda proporcionar una puerta de entrada no detectada.

Corte de comunicaciones

Algunas empresas siguen respondiendo con una PBX (centralita privada), mientras que muchas han optado por la VoIP (voz sobre protocolo de Internet) basada en Internet o una plataforma de comunicaciones unificadas como servicio (UCaaS) basada en la nube. Está claro que los cortes de electricidad y de red pueden afectar a los sistemas de comunicaciones, pero no es raro que un ciberataque deje inoperativa la infraestructura de comunicaciones de una empresa. Las empresas que han dejado atrás la centralita tradicional y han optado por una centralita basada en la nube se encuentran en una posición mucho mejor en términos de disponibilidad de las comunicaciones debido a la redundancia integrada que ofrecen estos sistemas. No obstante, es importante que las empresas dispongan de plataformas de comunicaciones alternativas para, al menos, comunicarse internamente en caso de desastre. Existen numerosas opciones a tener en cuenta, muchas de las cuales son muy populares en las comunicaciones empresariales cotidianas, como Microsoft Teams, Skype, Zoom e incluso plataformas sociales como WhatsApp y Meta Platforms Messenger (antes Facebook). Como mínimo, los datos de contacto alternativos del personal clave deben documentarse en la sección de la cadena de mando de su DRP.

"En febrero de 2021, el estado de Texas sufrió una grave crisis eléctrica como consecuencia de tres fuertes tormentas invernales que azotaron Estados Unidos y cuyos daños se estimaron en al menos 195.000 millones de dólares, probablemente la catástrofe más cara de la historia del estado6. "

3. Creación de un documento de plan de RD

¿Qué es un plan de RD?

Un plan de recuperación ante desastres documenta los procedimientos y recursos que una organización utiliza para recuperarse de una interrupción importante de su infraestructura informática. La planificación de la recuperación en caso de catástrofe puede utilizar diversas herramientas en función de los activos existentes y los objetivos de recuperación de la organización. Los planes de RD suelen incluir los siguientes parámetros:

  • Auditoría de sistemas y aplicaciones críticos
  • Objetivos de Punto de Recuperación (OPR) para cada proceso de negocio.
  • Objetivos de tiempo de recuperación (RTO) para cada proceso de negocio.
  • Ubicación de las copias de seguridad de datos y del sitio de réplica. La creación de una copia de seguridad externa secundaria o una réplica de sus sistemas y datos más importantes es una parte fundamental de cualquier solución de recuperación ante desastres.
  • Cadena de mando / organigrama. Una lista de las personas responsables de poner en práctica el plan de recuperación en caso de catástrofe. Contar con funciones y responsabilidades asignadas facilitará el seguimiento y la aplicación de un plan de forma rápida y coherente.
  • Plan de pruebas de RD. Los planes de RD requieren pruebas frecuentes para garantizar que los procedimientos de recuperación funcionan y que los RTO, RPO y SLA pueden cumplirse en una emergencia real.

Pasos típicos en la preparación de un plan de RD

Los pasos que se indican a continuación describen a grandes rasgos las tareas que normalmente deberá realizar para desarrollar un plan de RD sólido.

Paso 1: Realizar una auditoría de los recursos informáticos

Debe realizarse una auditoría de todos los sistemas críticos para la empresa, incluyendo el mayor detalle posible. La información debe incluir elementos como las especificaciones de la máquina y la capacidad de almacenamiento, las versiones del sistema operativo, las aplicaciones y versiones instaladas y la ubicación de la máquina. Además de los servidores, es importante no descuidar los componentes de la red corporativa, incluyendo diagramas de su topología y detalles de los parámetros de configuración vitales. También deben incluirse los dispositivos de punto final corporativos, como los dispositivos móviles y portátiles de los empleados. Al crear un inventario de todos los recursos informáticos de la red y de las aplicaciones y datos que contiene cada recurso, se puede empezar a consolidar y racionalizar todo para facilitar las copias de seguridad y la recuperación en el futuro.

Paso 2: Determinar una jerarquía de sistemas de misión crítica

La planificación de la DR ofrece una buena oportunidad para examinar en detalle sus procesos empresariales y determinar realmente qué elementos son cruciales para mantener las operaciones. Es probable que su empresa procese y almacene muchos más datos de los que esperaba, incluidos muchos datos redundantes que no son cruciales para mantener las operaciones comerciales. Durante su auditoría de recursos de TI, probablemente descubrirá varios conjuntos de datos que no son importantes y, por lo tanto, no merecen consumir recursos de copia de seguridad. Determinar qué sistemas y aplicaciones son de misión crítica requerirá un análisis del coste del tiempo de inactividad, que a su vez determinará qué método de RTO/RPO y de protección de datos deberá emplear.

Etapa 3: Establecer funciones y responsabilidades

Todos los empleados de la organización deben tener un papel que desempeñar en su plan de recuperación en caso de catástrofe. Algo tan sencillo como informar de una vulnerabilidad de ciberseguridad a alguien con más antigüedad o conocimientos para poner en marcha el plan de RD puede resultar crítico. Contar con una lista claramente documentada de funciones y responsabilidades hará que su plan de recuperación ante desastres sea mucho más eficaz.

Paso 4: Defina sus objetivos de recuperación

Puede ser muy fácil caer en la trampa de determinar objetivos de recuperación para sus sistemas más críticos y luego aplicar esta medida como mínimo común denominador para todos sus objetivos de recuperación. Establecer objetivos RTO/RPO demasiado ambiciosos en el sistema ejercerá una presión innecesaria sobre su equipo interno, lo que puede resultar perjudicial para el proceso de recuperación general. Examinaremos el análisis de riesgos y la elección adecuada del tipo de recuperación y los objetivos de recuperación en las secciones 4 y 5.

Paso 5: Seleccionar y documentar las ubicaciones de copia de seguridad y replicación

Existe una gran variedad de opciones a la hora de elegir una ubicación para las copias de seguridad de los datos y las réplicas del sistema. Si se realizan fuera de las instalaciones o son gestionadas por terceros, el plan debe incluir información detallada sobre su ubicación y los puntos de contacto clave. Además, debe planificarse y documentarse el proceso de adquisición de hardware de sustitución. Si se recurre a un tercero para el suministro de sistemas de recuperación, habrá que preguntarse por los plazos de entrega de los equipos y la prioridad de asignación a los clientes en caso de que un suceso que afecte a todo el estado afecte a muchas empresas. En concreto, si dispondrán de suficiente hardware y si la asignación se hará por orden de llegada o en función de otra estructura de niveles de clientes.

Paso 6: Desarrollar y documentar un plan de pruebas de RD

"Creer en las copias de seguridad es una cosa. Otra es tener que utilizarlas. Si no has probado tus recuperaciones, no tienes realmente copias de seguridad". Nunca se insistirá lo suficiente en la importancia de probar realmente los procedimientos de recuperación de desastres. Las pruebas sin automatización son una tarea difícil y lenta, y una de las principales razones por las que muchas empresas no prueban sus procedimientos de recuperación con regularidad, si es que lo hacen. En las secciones 6 y 7 analizamos con más detalle las pruebas de RD.

4. Selección de opciones de recuperación

Se requerirá una estrategia de recuperación adecuada para cada uno de los tipos de riesgo identificados como relevantes y significativos para su organización. El RPO es un factor clave para determinar la frecuencia de las copias de seguridad necesarias para recuperar datos críticos en caso de desastre. Los sistemas en los que la integridad transaccional es de vital importancia a menudo requerirán sistemas replicados con Protección Continua de Datos (CDP) que funcionen como un par failover-failback, o como parte de una configuración de clúster multinodo. Por lo tanto, para cada sistema dentro de su arquitectura de procesos de negocio, su DRP debe especificar si la recuperación del sistema se llevará a cabo mediante la restauración de archivos de una copia de seguridad reciente, o mediante la transferencia de servicios a un sistema replicado que se ejecuta dentro de un entorno de DR en vivo. En el caso de que la recuperación del sistema implique la restauración a partir de una copia de seguridad, habrá que decidir si se repara y reconstruye el sistema original o se restaura el sistema operativo, las aplicaciones y los datos en una plataforma distinta. Esta última opción presenta retos específicos adicionales que abordaremos más adelante en esta sección.

Copia de seguridad frente a replicación: principales diferencias y escenarios de uso

Puede haber cierta confusión en torno a los términos copia de seguridad y replicación. A menudo se consideran términos intercambiables, o bien como un enfoque alternativo dentro de un DRP. La copia de seguridad, la recuperación y la replicación son partes cruciales de un plan completo de recuperación ante desastres. Cada una desempeña su papel en la protección de los sistemas, pero sus funciones son diferentes. En primer lugar, examinemos el papel de las copias de seguridad como parte de la planificación de la recuperación de desastres.

La importancia de las copias de seguridad

Las copias de seguridad están diseñadas para proporcionarle una copia de seguridad consistente y a largo plazo de sus datos. Las copias de seguridad pueden utilizarse para recuperar la copia de seguridad más reciente tras un fallo del servidor o para recuperar de forma granular un único archivo borrado accidentalmente. Las copias de seguridad también pueden desplegarse a más largo plazo para cumplir los objetivos de conformidad. Esencialmente, las copias de seguridad son su última línea de defensa, y se centran en un equilibrio entre sus puntos de recuperación y el tiempo de recuperación. Además, las copias de seguridad pueden aislarse de su entorno de producción para proteger aún más sus sistemas frente al software malicioso. Los ciberdelincuentes son conscientes de la importancia de las copias de seguridad en su defensa contra el ransomware, por lo que a menudo atacan y comprometen primero las copias de seguridad antes de emitir sus demandas. Por lo tanto, las copias de seguridad aisladas que también son inmutables se están convirtiendo en una parte clave de muchas estrategias de ciberseguridad. Un punto clave para recordar sus aplicaciones de negocio, no contienen el sistema operativo completo y la información de la infraestructura de almacenamiento en disco necesaria para reconstruir completamente y volver a aprovisionar un sistema comprometido.

Introducción a la replicación

Aunque el software de copia de seguridad y recuperación normalmente puede recuperar sus sistemas y datos con rapidez, el RTO será normalmente más lento en comparación con el uso de la replicación como parte del proceso. Esto se debe a que primero habrá que aprovisionar los sistemas antes de restaurar las aplicaciones y los datos, lo que lleva mucho tiempo.

Software de replicación

El software de replicación crea una copia en vivo de sus sistemas críticos para la empresa, que puede incluir la configuración completa del sistema, y sincroniza periódicamente estos datos entre su sistema primario de producción y la copia secundaria de ese sistema. Si se produce un desastre, puede transferir rápidamente su negocio de la copia primaria a la copia secundaria, un proceso conocido como conmutación por error. Esto minimiza el tiempo de inactividad de la empresa (RTO) y la posible pérdida de datos, ya que las sincronizaciones entre los dos sistemas son mucho más frecuentes que las copias de seguridad completas, conocidas como RPO. La conmutación por error y la recuperación del sistema pueden automatizarse para reducir aún más el tiempo de inactividad del sistema y, en muchos casos, puede alcanzarse un RTO cercano a cero, de forma que cualquier interrupción no sea perceptible para los usuarios del sistema. Cristie El software de recuperación puede detectar fallos y proporcionar automatización de failover/failback a través de la configuración del software Cristie Virtual Appliance (VA). Esencialmente, la replicación se centra más en la continuidad de su negocio y en minimizar el impacto de un desastre en su empresa, mientras recupera sus sistemas secundarios a partir de sus copias de seguridad.

Cristie Software CloneManager

Cristie El software CloneManager crea copias sincronizadas y replicadas de los equipos críticos de su empresa para mantener su negocio en funcionamiento con un tiempo de inactividad y un impacto mínimos para su empresa durante un escenario de DR. Las sincronizaciones pueden configurarse según un calendario definido por el usuario para reducir los RPO, o la pérdida de datos entre los dos sistemas, a minutos. CloneManager también incluye funciones como Automated Failover y Failback para automatizar el proceso de conmutación por error y reducir aún más los RTO y el tiempo de inactividad de la empresa. Las pruebas mejoradas permiten probar las copias replicadas fuera del entorno de producción sin que ello afecte al proceso de sincronización, lo que le proporciona una confianza total en su plan de recuperación ante desastres.

Mantener la movilidad de la replicación para evitar la dependencia del proveedor

La llegada de la tecnología de virtualización y la computación en nube ha proporcionado a las organizaciones una amplia gama de opciones a la hora de seleccionar una plataforma de destino para la replicación de sistemas. Los sistemas físicos ya no deben replicarse en sistemas físicos similares que se ejecuten en una ubicación de DR. En los casos en los que se requiere una informática de alto rendimiento, la replicación de sistemas físicos similares puede ser esencial. Sin embargo, en muchos casos, la replicación de máquinas físicas a objetivos virtuales o en la nube con fines de recuperación ante desastres es ahora una opción muy viable, y para muchas organizaciones se está convirtiendo en una práctica estándar. La tarea de configurar un objetivo de replicación virtual o basado en la nube y luego gestionar los trabajos de replicación para múltiples máquinas puede parecer una tarea desalentadora. Muchos proveedores de servicios de copia de seguridad y replicación en la nube ofrecen herramientas gratuitas de migración y replicación para ayudar a los clientes con el proceso de incorporación de sistemas de replicación a un entorno de nube virtual. A primera vista, puede parecer una facilidad muy valiosa. El inconveniente es que las herramientas proporcionadas suelen estar diseñadas para replicar sistemas únicamente en el entorno de nube específico del proveedor, por lo que, en el sentido de la movilidad de la replicación, muchas de estas herramientas son unidireccionales. Por supuesto, desde la perspectiva de los proveedores, su interés radica en atraer y mantener clientes, lo que tiene el inconveniente potencial de crear un escenario de dependencia del proveedor para el cliente. Para garantizar la máxima protección y libertad de elección del proveedor de la nube, su DRP debe esforzarse por lograr una movilidad de replicación total, lo que significa que su infraestructura de DR debe ser capaz de replicar sistemas vitales en cualquier dirección, desde y hacia destinos físicos, virtuales y en la nube, con total independencia de la elección del proveedor de la nube. Cristie VA proporciona esta capacidad, lo que permite una libertad total para mover sus sistemas de DR entre proveedores y tipos de plataforma.

Selección de destino de replicación en las instalaciones, en la nube, en coubicación o híbrido

En las instalaciones

Probablemente, la mayor ventaja de la replicación de sistemas in situ es la protección de datos. Como los datos se almacenan localmente en sus instalaciones, usted tiene pleno control sobre ellos y su seguridad. Los datos sensibles no tienen por qué salir de la empresa, lo que puede ser una ventaja decisiva, especialmente cuando se trata de cuestiones de cumplimiento y de garantizar la soberanía de los datos. Otra ventaja clave es el rendimiento. Con cualquier solución de replicación externa, el rendimiento de la recuperación se regirá por la conexión a Internet, SD-WAN o MPLS que tenga con su proveedor de colocación o nube, que en algunos casos puede ser muy inferior al de la replicación local. Como los datos se almacenan localmente en sus instalaciones, tiene pleno control sobre ellos y su seguridad. Los datos sensibles no tienen por qué salir de la empresa, lo que puede ser una ventaja decisiva, especialmente cuando se trata de cuestiones de cumplimiento y de garantizar la soberanía de los datos. Otra ventaja clave es el rendimiento. Con cualquier solución de replicación externa, su rendimiento de recuperación se regirá por la conexión a Internet, SD-WAN o MPLS que tenga con su proveedor de colocación o nube, que en algunos casos puede ser muy inferior al rendimiento disponible dentro de su red interna. Además, su red interna debe ser accesible en cualquier momento, garantizando que los sistemas se replican independientemente del estado de su conexión a Internet. Además, si su empresa no depende de Internet o de servicios basados en la nube para las copias de seguridad y la replicación, es posible que no tenga que pagar por una conexión de alta velocidad, lo que reducirá los costes mensuales de Internet. Como se ha comentado anteriormente, los riesgos de la proximidad a su sistema de producción en caso de un desastre local o natural deben tenerse muy en cuenta a la hora de elegir una solución de recuperación ante desastres local.

Pros

  • Facilidad de acceso y flexibilidad de despliegue
  • Control total de la seguridad y la soberanía de los datos
  • Ventajas de rendimiento del sistema y la red
  • Reducción potencial de los costes de Internet

Contras

  • Costes de inversión
  • Gastos generales de administración
  • Gastos de mantenimiento
  • Susceptibles de sufrir catástrofes naturales u otras catástrofes locales

Colocación

que se ha construido específicamente para garantizar la fiabilidad del tiempo de actividad de varios clientes. Los centros de datos de colocación alquilan espacio, donde residen jaulas seguras y suites privadas en un entorno informático ideal para mantener los activos informáticos físicos de las empresas. Encontrar el proveedor de colocación adecuado puede ofrecer enormes ventajas en términos de conectividad de red de operador neutro, incorporación a la nube para conectividad híbrida y conectividad multi-nube a través de una sólida infraestructura de red. En la mayoría de los casos, los centros de datos de colocación pueden ofrecer a sus clientes una solución de TI superior a un coste total inferior y con menos desventajas que las soluciones locales, aunque los costes de configuración iniciales suelen ser más elevados. Cada cliente utiliza sistemas propios, lo que conlleva ciertas ventajas e inconvenientes. Al no ser el propietario del centro de datos, es posible que tenga que seguir ciertas normativas aplicadas a su arrendamiento que pueden restringir el acceso en determinados periodos de tiempo. Realizar el mantenimiento de los equipos requerirá un viaje a la ubicación de su centro de datos de colocación, por lo que es importante comprender las normas de acceso y asegurarse de que estos requisitos satisfacen las necesidades de su empresa. En muchos casos, los inquilinos pueden utilizar los servicios de conserjería y los expertos en TI de las instalaciones de colocación para tareas de mantenimiento y operativas, evitando así desplazamientos innecesarios al centro de datos. En general, para las empresas medianas y grandes, las ventajas de la colocación deberían superar los costes iniciales de instalación para ofrecer una buena combinación de rendimiento y asequibilidad. Esto es especialmente cierto cuando el socio que elija puede proporcionar un servicio de atención al cliente de alto nivel para resolver cualquier problema con su implantación.

Pros

  • Ahorro de tiempo y costes. 
  • No se necesitan servidores ni infraestructuras adicionales
  • Reducción del coste global de la gestión informática
  • Evitar problemas de capacidad energética
  • Amplia conectividad
  • Flexibilidad
  • Mayor seguridad física y cibernética

Contras

  • Los costes iniciales son más elevados
  • Costes de inversión
  • Potencial de menor control
  • Restricciones de mantenimiento en cuanto a tiempo o recursos
  • Encontrar el proveedor adecuado en cuanto a proximidad, precios y servicios

Híbrido

La computación en nube está muy consolidada, pero muchas empresas siguen teniendo miedo a migrar sus sistemas y datos a este entorno. Entre las preocupaciones más frecuentes figuran la confidencialidad de la información, la calidad de los servicios y el rendimiento que tendrán las aplicaciones empresariales tras la migración. El desarrollo de una infraestructura de TI híbrida puede servir de puente para aliviar algunas de estas preocupaciones con una solución "lo mejor de ambos mundos", que permita a las empresas elegir qué quieren trasladar a la nube pública, qué mantener en las instalaciones, y decidir qué servicios de copia de seguridad y replicación en la nube utilizar y para qué. Además, las empresas pueden incluir una nube privada dentro de esta arquitectura, que es un entorno interno de computación en nube que ofrece toda la escalabilidad de los servicios de nube pública, pero dedicado exclusivamente a la empresa y accesible sólo por ella. Tanto la infraestructura local como la de nube pública y privada pueden funcionar de forma independiente o conectarse según las necesidades. Por ejemplo, se puede optar por replicar una carga de trabajo crítica, con fuertes requisitos de seguridad o cumplimiento a la nube privada, con procesos menos críticos aprovechando los servicios de la nube pública. Esto proporciona a la empresa un control total sobre la infraestructura y la pila de aplicaciones de DR.

Pros

  • Flexibilidad
  • Escalabilidad e implantación
  •  Mayor movilidad
  • Mayor seguridad de los datos

Contras

  • Difícil de aplicar
  • Más caro que la nube pública
  • Compatibilidad de archivos entre plataformas privadas y públicas
  • Posibilidad de perder visibilidad de su información

Tipos de destino de replicación

Máquinas físicas

Los sistemas operativos que se ejecutan en máquinas físicas están estrechamente vinculados al hardware subyacente a través de controladores específicos para los periféricos utilizados en la placa del sistema. Algunos ejemplos son los controladores de almacenamiento, los adaptadores gráficos y los adaptadores de red. Si una máquina física de destino de replicación no es idéntica al sistema de origen original, la imagen de replicación del sistema puede no arrancar en la máquina de destino debido a la falta de coincidencia de uno o más controladores de nivel de sistema críticos para el arranque. Esta es una situación con la que muchos administradores de sistemas de TI estarán familiarizados y que implica una cierta cantidad de dificultad y tiempo para aprovisionar el sistema de destino en un estado listo para el arranque antes de que se pueda acceder a las aplicaciones y los datos.

Superar los quebraderos de cabeza de la recuperación en hardware diferente

Por el contrario, el software Cristie Recovery proporciona una herramienta fácil de usar para recuperar todo el sistema en cualquier plataforma de hardware, virtual o en la nube. Nuestro software crea un archivo de configuración de la máquina que se guarda con la copia de seguridad. Este archivo de configuración contiene toda la información necesaria para preparar la recuperación en cualquier destino comparable. Los sistemas se pueden recuperar como un clon del sistema original de una sola vez, incluida una recuperación puntual. Esto significa que no se pierde tiempo buscando software, ya que la copia de seguridad contiene todo lo necesario. Si va a realizar la recuperación en un hardware diferente, nos encargaremos de inyectar automáticamente los nuevos controladores antes del arranque inicial del sistema de recuperación de destino. Del mismo modo, si realiza la recuperación en un entorno virtual o en la nube, podemos automatizar por completo la creación de la máquina virtual con la misma CPU, RAM y disco disponibles en la máquina física original.

Ejecución de máquinas virtuales (VM)

Las máquinas virtuales (VM) suelen referirse a instalaciones independientes de sistemas operativos (SO) que se ejecutan en un único ordenador, asignando a cada SO una parte de los recursos del sistema del ordenador. Por ejemplo, una máquina virtual Linux puede instalarse sobre un ordenador Windows. Múltiples instalaciones de SO pueden coexistir en la misma máquina física al mismo tiempo, siempre y cuando la máquina tenga un hardware lo suficientemente potente. Esto convierte a las máquinas virtuales en una forma cómoda de ampliar los entornos de escritorio y servidor. Otras ventajas de las máquinas virtuales son su aprovisionamiento sencillo y rápido, su alta disponibilidad y su gran escalabilidad. Desde el punto de vista de la DR, son el rápido aprovisionamiento y la escalabilidad los que hacen de las máquinas virtuales un objetivo de replicación tan atractivo. A través de Cristie Virtual Appliance (VA) es posible replicar o recuperar sistemas desde fuentes físicas o en la nube a máquinas virtuales con la opción de escalar los recursos de las máquinas virtuales para igualar el sistema de origen o modificar recursos específicos hacia arriba o hacia abajo durante el aprovisionamiento. Por ejemplo, es posible que desee replicar a una máquina virtual en ejecución con recursos de sistema inferiores a los de la máquina de origen con fines de recuperación ante desastres sobre la base de que puede aceptar un rendimiento ligeramente inferior durante una conmutación por error del sistema para ahorrar costes, ya que se tratará de una situación temporal hasta que las operaciones puedan volver al entorno de producción normal.

Archivos de imagen de disco virtual

Hasta ahora, hemos hablado de objetivos de replicación que se denominan objetivos "en línea", ya que son máquinas en funcionamiento listas para tomar el relevo del sistema primario en caso de fallo del sistema o de desastre. La ventaja de los objetivos de replicación "en línea" es que están listos para ejecutarse y pueden asumir las operaciones muy rápidamente. El inconveniente es que consumen continuamente recursos informáticos físicos o virtuales mientras esperan a que se produzca un incidente. Para superar esta sobrecarga de mantener en funcionamiento máquinas en espera existe una alternativa en forma de archivos de imagen de disco virtual. Las máquinas virtuales pueden capturarse como una imagen completa del mismo modo que una unidad de sistema de una máquina física puede capturarse como una imagen de disco única. El archivo de imagen contiene todo, incluida la configuración del sistema operativo, las aplicaciones y todos los datos. La replicación del sistema puede realizarse en un archivo de imagen de disco virtual almacenado en un entorno de nube privada o pública en lugar de en una máquina en funcionamiento. Esto tiene una ventaja de coste significativa, ya que sólo se requiere el coste de almacenamiento en la nube para mantener estos archivos de imagen en lugar de almacenamiento más recursos informáticos. La desventaja es que son más lentos de poner en línea que una máquina en funcionamiento, pero para muchos escenarios de DR el RTO que proporcionan es suficiente. Las soluciones de replicación de Cristie proporcionan capacidades de replicación en línea y fuera de línea con soporte para todos los estándares comunes de imagen de sistema, incluidos los formatos de archivo .vhdx, .qcow2 y .vmdk a través de Cristie VA.

5. Identificar la prioridad de recuperación de las aplicaciones

Prioridades de recuperación (servicios compartidos e infraestructuras)

Un DRP sólido no debe descuidar la importancia de la red corporativa subyacente. Una organización no puede funcionar correctamente sin que los servicios de red estén disponibles para mover datos dentro de la infraestructura. Por lo tanto, no se puede subestimar la importancia de los servicios de red; un DRP sólido también debe incluir la planificación de la recuperación ante desastres de la red y cubrir las formas de reducir el riesgo de fallo de la red. A medida que la infraestructura de TI sigue alejándose de una topología fija centrada en el hardware para acercarse a arquitecturas definidas por software, los perfiles de red pueden formar parte más fácilmente de su conjunto de copias de seguridad habituales para incluir archivos de configuración de red, incluidos los parámetros y ajustes iniciales para configurar los dispositivos de red tras cualquier desastre de la infraestructura.

Prioridad de los grupos de aplicaciones que deben recuperarse

Una parte clave de cualquier DRP será la lista de prioridades de recuperación de las aplicaciones de procesos empresariales. Adoptando un enfoque escalonado, los planificadores de la recuperación en caso de catástrofe pueden estructurar el proceso de recuperación para reducir el tiempo de inactividad y proteger los sistemas de alta prioridad. Conceptualmente, los objetivos de punto de recuperación (RPO) y de tiempo de recuperación (RTO) calculados durante la fase de análisis del "coste del tiempo de inactividad" pueden servir de buen punto de partida para determinar las prioridades de recuperación de las aplicaciones.

Orden de los sistemas que deben recuperarse dentro de los grupos de aplicaciones

Evidentemente, muchas aplicaciones dependerán de otras, por lo que la lista de prioridades de recuperación contendrá probablemente grupos de aplicaciones que deban recuperarse y ponerse en línea en una secuencia específica para garantizar que las operaciones de los procesos empresariales puedan fluir sin problemas y sin cuellos de botella. Lo más probable es que el primer grupo de sistemas y aplicaciones que haya que restaurar contenga servidores de infraestructura fundamentales, como el controlador de dominio, necesario al principio para responder a las solicitudes de autenticación de seguridad y verificar a los usuarios en cada dominio de una red informática. Este controlador es el guardián que permite el acceso del host a todos los recursos del dominio.

6. ¿Recuperación manual o automática?

¿Debo recuperar manualmente?

Si dispone de un sólido DRP, estupendo. Pero si está pensando en recuperar sus sistemas manualmente, el proceso puede ser mucho más complejo de lo que cree. Aunque no es imposible recuperar los sistemas manualmente, necesitará conocimientos específicos de gestión de sistemas operativos, aplicaciones, redes y almacenamiento, así como mucho tiempo. Normalmente, la reconstrucción manual completa de un servidor con aplicaciones puede llevar entre dos y ocho horas, además del tiempo necesario para restaurar los datos. Además, las recuperaciones manuales no suelen estar planificadas, lo que significa que se trabaja a contrarreloj en una situación que puede ser muy estresante. Veamos un proceso de restauración manual paso a paso.

  • Para empezar, tendrás que identificar el sistema en el que realizar la instalación (físico, virtual o en la nube). Ten en cuenta que, si es virtual o en la nube, tendrás que crear manualmente la máquina virtual, instalar manualmente el sistema operativo y ejecutar las actualizaciones de parches, antes de pasar a buscar los medios de instalación de las aplicaciones. 
  • A continuación, deberá comprobar que estas versiones de las aplicaciones funcionan con la versión del sistema operativo instalada, antes de pasar a instalar el software de recuperación y otros programas y aplicaciones. Por último, podrás empezar a restaurar tus datos.
  • A continuación, habrá que cambiar el nombre de la máquina y la información de la dirección IP antes de que vuelva a funcionar, pero no hay garantías de que no vaya a tener más problemas después de eso.

¿Necesito un producto de automatización u orquestación?

Una recuperación manual es una operación compleja y lenta; compárela con los 10 a 15 minutos necesarios para una recuperación con un software dedicado de Bare Machine Recovery que proporciona automatización y orquestación de la recuperación y, con suerte, estará de acuerdo en que la respuesta es un rotundo "sí".

7. Funciona

"Según la revista Storage Magazine, más del 34% de las empresas no comprueban sus copias de seguridad y, de las que las comprueban, el 77% no consiguen restaurarlas. Según Microsoft, el 42% de los intentos de recuperación de copias de seguridad en cinta del año pasado fracasaron. Un estudio realizado por la National Archives & Records Administration de Washington concluyó que "el 93% de las empresas que perdieron su centro de datos durante 10 días o más debido a un desastre se declararon en quiebra en el plazo de un año tras el desastre". Sin una comprobación adecuada de su conjunto de copias de seguridad, los resultados pueden ser devastadores para su organización en caso de que se produzca un desastre.

Probar regularmente la recuperación de las copias de seguridad es crucial por tres razones: en primer lugar, para identificar cualquier problema con antelación; en segundo lugar, para resolverlo y, por último, para generar confianza en las copias de seguridad, de modo que, cuando las necesite de verdad, pueda recuperarlas rápida y eficazmente para cumplir sus RPO y RTO. El peor momento para descubrir un problema con las copias de seguridad o el proceso de recuperación es cuando se está en medio de una catástrofe real y se depende de ellas para volver a poner en marcha la empresa. Cualquier problema que surja durante un desastre no sólo puede retrasar su recuperación, sino que puede hacer que sus sistemas sean totalmente irrecuperables. Desgraciadamente, probar manualmente sus servidores con regularidad es una tarea que lleva mucho tiempo, especialmente si desea realizar pruebas en todo su centro de datos. Por ello, Cristie Software incluye la funcionalidad de pruebas de recuperación automatizadas para todos nuestros clientes de recuperación de sistemas como parte de sus licencias.

¿Debo automatizar mis pruebas?

Si está pensando en realizar pruebas manuales de recuperación, le decimos que se lo piense detenidamente. A menudo, las pruebas manuales implican que sólo puede probar eficazmente sus sistemas más críticos. ¿Utiliza software de terceros? Hemos hablado con muchos clientes que han utilizado software de terceros para realizar sus pruebas. A veces, sólo se prueba una muestra de los sistemas y, a menudo, esa muestra puede ser tan baja como el 10-20%. Esta muestra se utiliza para construir una imagen generalizada de la salud de su copia de seguridad, que no refleja necesariamente la realidad. Cuando se utiliza Cristie Software para las pruebas de recuperación, el proceso está automatizado y programado. Esto ha permitido a nuestros clientes probar la totalidad de sus servidores y confiar en que pueden recuperar cualquiera de sus sistemas tras un desastre.

Orquestación de DR (automatización de tareas, evitando la intervención manual)

La orquestación de DR puede ayudar a la recuperación ordenada de su entorno de servidores durante una interrupción, asegurándose de que sus servidores, aplicaciones y datos críticos vuelvan a estar en línea sin incidentes y de forma automatizada. Cristie La orquestación de DR va un paso más allá de las recuperaciones automatizadas, ya que le ofrece la posibilidad de planificar y configurar de antemano todas las etapas necesarias para que sus sistemas críticos para la empresa vuelvan a funcionar después de un desastre de servidor. La orquestación de DR se incluye como una de las funciones de valor añadido de Cristie Virtual Appliance (VA). Tanto el VA como la orquestación de DR son de uso gratuito para todos nuestros clientes de recuperación y replicación de sistemas.

Cómo funciona la orquestación

Cada trabajo de orquestación se ejecuta a través de una serie de etapas; y dentro de cada etapa podemos ejecutar tantas tareas diferentes como queramos en paralelo. Por ejemplo, podemos ejecutar tareas de replicación o recuperación (con recuperaciones directamente desde su servidor de copia de seguridad IBM Spectrum Protect, Dell Networker/Avamar o Cohesity), reinicios, scripts y tareas de generación de informes que le ofrecen un resumen detallado del trabajo de orquestación. Incluso podemos hacer cosas como añadir tareas manuales, que detendrán la automatización mientras se realiza esa tarea (como cargar una unidad de cinta), antes de continuar la orquestación una vez que se haya completado la tarea.

Uso de la automatización para ahorrar tiempo y mejorar las pruebas de RD

Todo ello está diseñado para utilizar la automatización para ahorrarle tiempo cuando más importa, minimizando la interacción humana y la posibilidad de error humano en lo que históricamente ha sido un proceso muy manual. La orquestación de la recuperación ante desastres también puede utilizarse para mejorar su régimen de pruebas de recuperación ante desastres, ya que no sólo puede probar las recuperaciones, sino también los procesos circundantes necesarios para que su empresa vuelva a funcionar. Al poder probar los procesos circundantes, como el reinicio del sistema, la integración entre aplicaciones o cualquier script posterior al arranque, podrá detectar y solucionar cualquier problema de antemano en todo el proceso antes de que lo necesite en un escenario de recuperación ante desastres real. Esto significa que, en caso de que tenga que realizar una recuperación real, puede confiar en su capacidad para recuperar los sistemas críticos de su empresa de forma rápida y sencilla.

Programe sus tareas de orquestación de DR con antelación

Al igual que con nuestra función de pruebas de recuperación, los trabajos de orquestación de DR se pueden configurar y programar con meses de antelación, con informes completos por correo electrónico sobre los éxitos y los fracasos que se pueden utilizar para auditorías, cumplimiento, normativas del sector o, si es un proveedor de servicios, como parte de los informes de SLA a su cliente.

Recuperación DR: Escenarios comunes de fallo

En el proceso de pruebas de recuperación de desastres se presentan muchas situaciones de fallo que, sin duda, son mucho más cómodas de tratar durante la fase de pruebas que bajo la presión de una emergencia real. Durante las pruebas se producen una serie de fallos de origen técnico y humano, entre los que se incluyen los que con más frecuencia se registran en nuestro software o los que experimentan nuestros clientes.

  • Archivo(s) de copia de seguridad defectuoso(s):A menudo se detecta un archivo de copia de seguridad dañado que es necesario rectificar y sustituir.
  • Trabajo de copia de seguridad incompleto: La selección incompleta de archivos/carpetas durante la configuración del trabajo de copia de seguridad es otra razón común de fracaso. Puede tratarse simplemente de un descuido administrativo o, en algunos casos, de una mala comunicación interna entre departamentos. Por ejemplo, una unidad de negocio puede solicitar o instalar una nueva aplicación, sin embargo, la responsabilidad de su copia de seguridad puede perderse debido a suposiciones incorrectas entre la unidad de negocio y el equipo de soporte de TI.
  • Hardware incompatible: Este es un escenario común cuando una organización ha solicitado objetivos de DR de metal desnudo para ser proporcionados por el proveedor de colocación o centro de datos que requieren controladores de nivel de sistema diferentes o adicionales para que el sistema de recuperación arranque. Este es un escenario que el software Cristie Recovery puede superar en muchos casos utilizando nuestra tecnología automatizada de hardware diferente.
  • Configuración de red: Los errores generales de configuración de red son comunes especialmente cuando se mueve entre objetivos físicos y virtuales.

Pruebas e informes para cumplir la normativa

Además de fomentar la confianza en las copias de seguridad a nivel interno, las pruebas de recuperación de Cristietambién pueden ayudarle a cumplir las medidas de auditoría y cumplimiento normativo gubernamentales o sectoriales que son habituales en sectores como la sanidad y los servicios financieros (por ejemplo, las normativas HIPPA y FSA). Todas nuestras pruebas automatizadas de recuperación pueden ir seguidas de informes detallados por correo electrónico sobre los éxitos, los fracasos, el tiempo que se tarda en restaurar y los problemas encontrados para ofrecerle un registro completo de los resultados de sus pruebas. Además de estos informes, también podemos realizar un seguimiento de las pruebas con configuraciones adicionales, como eliminar las pruebas satisfactorias para liberar espacio en disco y dejar las recuperaciones fallidas en su lugar mientras investiga por qué falló la recuperación.

8. Recursos útiles

Enlaces a herramientas de planificación y sitios de información útiles

Gobierno de los Estados Unidos. Lanzada en febrero de 2003, Ready es una campaña nacional de servicio público diseñada para educar y capacitar al pueblo estadounidense para prepararse, responder y mitigar las emergencias, incluidas las catástrofes naturales y las provocadas por el hombre. El objetivo de la campaña es promover la preparación a través de la participación pública.

Plan informático de recuperación en caso de catástrofe https://www.ready.gov/it-disaster-recovery-plan

Universidad de Indiana - Recursos para profesionales de TI Planificación de la recuperación en caso de catástrofe https://informationsecurity.iu.edu/resources-professionals/disaster-recovery-planning.html

Ejemplo IBM: Plan de recuperación en caso de catástrofe https://www.ibm.com/docs/en/i/7.1?topic=system-example-disaster-recovery-plan

Calculadora de costes de inactividad de EATON https://powerquality.eaton.com/Products-services/Help-Me-Choose/DowntimeCostCalculator/Default.asp

9. Conclusiones

Está claro que la planificación de la recuperación ante desastres y el propio proceso de recuperación ante desastres son tareas de enorme importancia y, como es lógico, desalentadoras para muchas organizaciones. El coste de aprovisionar sistemas de copia de seguridad y redundancia no es insignificante, sin embargo, para muchos este coste se convierte en minúsculo cuando se compara con el coste del tiempo de inactividad, o incluso peor, las demandas de largo alcance de un ataque de ransomware. A diferencia de la mayoría de las decisiones en el diseño de procesos empresariales, la planificación de la recuperación ante desastres implica muchas concesiones basadas en el análisis de riesgos y el nivel de servicio que requieren sus clientes, proveedores y empleados. Esperamos que esta guía haya ilustrado que tanto la copia de seguridad como la replicación tienen un papel importante que desempeñar en cualquier estrategia sólida de recuperación ante desastres y, en muchos casos, es poco probable que se utilice alguna de ellas de forma aislada. Gracias a los avances en la computación en nube, las organizaciones disponen ahora de una amplia gama de opciones de objetivos de copia de seguridad y replicación en términos de ubicación y tipo: físicos, virtuales y en la nube. La movilidad de la copia de seguridad y la replicación también es una característica clave que debe incluirse en cualquier DRP para evitar la dependencia de un solo proveedor o la posibilidad de puntos únicos de fallo en el plan de redundancia. Para obtener más información sobre la recuperación, replicación y migración de sistemas, hable con el equipo de Cristie Software, que siempre está a su disposición para responder a cualquier pregunta.

10. Referencias

1. [en línea] consultado el 9 de febrero de 2022, https://www.ccn.com/facebooks-blackout-90-million-lost-revenue/

2. [en línea] consultado el 9 de febrero de 2022, https://money.cnn.com/2016/09/07/technology/delta-computer-outage-cost

3. [en línea] consultado el 9 de febrero de 2022, https://blogs.gartner.com/andrew-lerner/2014/07/16/the-cost-of-downtime/

4. [en línea] consultado el 9 de febrero de 2022, https://www.usenix.org/conference/fast16/technical-sessions/presentation/schroeder

5. [en línea] consultado el 9 de febrero de 2022, https://purplesec.us/resources/cyber-security-statistics/

6. [en línea] consultado el 9 de febrero de 2022, https://en.wikipedia.org/wiki/2021_Texas_power_crisis

Póngase en contacto con nosotros

Gracias por ponerse en contacto con nosotros. Hemos recibido su solicitud.