Historias de Linux: cuando las copias de seguridad salvaron el día

Este artículo es una historia de mi pasado. Antes, trabajé como administrador de sistemas para una empresa que tenía una tienda en línea que vendía hardware y software para ordenadores.

En la parte de atrás, decenas de empleados usaban un servidor de terminales para trabajar con el software ERP que administraba todas las mercancías y el comercio. Los servidores de terminales y las bases de datos eran fundamentales para el proceso comercial de venta de nuestros productos. Cuando uno de estos sistemas fallaba, decenas de empleados ya no podían hacer su trabajo y los clientes ya no podían comprar nada.

Cuánto tiempo tenemos?

Así que nos sentamos con el propietario del proceso comercial y le preguntamos: "Bueno, piense en una situación en la que el sistema está inactivo y ya no se puede usar. ¿Cuánto tiempo tiene que recuperar hasta que el daño al negocio sea devastador?" El gerente piensa por un momento y dice: "¡Dos horas, máximo!"

Nos sentamos con los muchachos que ejecutan la aplicación ERP y les preguntamos: "¿Cuánto tiempo llevaría reinstalar la aplicación y configurar el servidor terminal si tuviéramos que recuperarnos de una falla fatal del sistema?" La respuesta fue: "¡Dos días, mínimo!" Supongo que puedes ver la brecha aquí.

Para mí, la primera prioridad era reducir el tiempo de recuperación de dos días a menos de dos horas. Reinstalar el sistema operativo, las aplicaciones y restaurar las copias de seguridad de los datos no era una opción, ya que lleva demasiado tiempo. Elegí una aplicación de copia de seguridad de imagen que puede realizar una copia de seguridad completa del sistema, es decir, el sistema operativo, las aplicaciones instaladas, las bibliotecas y los datos. Al usar este software, podría restaurar el sistema sin realizar ninguna tarea de instalación manual.

¿Qué necesitamos?

Una configuración típica es ejecutar la copia de seguridad por la noche cuando nadie está trabajando. Si eso falla, tendremos que restaurar la imagen de anoche o tal vez una versión aún más antigua. En este escenario, una prueba mostró que tardamos cinco horas en realizar una restauración completa. Es mejor que dos días, pero todavía no es suficiente. Y hay otro problema oculto en este enfoque. Si el sistema falla por la noche y necesitamos restaurar desde la copia de seguridad de la noche anterior, perderemos todos los cambios realizados para el día actual. Esto no era aceptable para nuestra tienda en línea. Bueno, nuestro primer pensamiento fue ejecutar una copia de seguridad incremental cada hora. En este caso, solo perderíamos la última hora de datos. Pero, ¿qué sucede cuando el problema que rompe nuestro sistema ya está en la imagen de respaldo cuando descubrimos el problema? Bueno, esto es lo que hicimos.

Nos sentamos nuevamente y discutimos cuánto tiempo lleva descubrir un problema devastador que conduciría a la recuperación del sistema. Acordamos un plazo de cuatro horas. En resumen, queríamos desperdiciar la menor cantidad de trabajo posible, restaurar en dos horas o menos y asegurarnos de que el problema no estuviera ya en la copia de seguridad cuando lo descubrimos. Con esta información, implementé un enfoque de copia de seguridad que los proveedores de software denominan restauración instantánea, restauración en la sombra, restauración preventiva o un término similar. Ejecutamos trabajos de copia de seguridad incrementales cada hora y restauramos copias de seguridad en segundo plano en una máquina virtual nueva. Cada hora completa teníamos un sistema listo que tenía cuatro horas de retraso y solo faltaba terminarlo. Entonces, si elijo restaurar el incremento de hace una hora, tomará menos tiempo que una restauración completa del sistema porque solo es necesario restaurar pequeños incrementos en la VM casi lista.

Y el esfuerzo dio sus frutos

Un día estaba de vacaciones, tomando una parrillada y una cerveza, cuando recibí una llamada de mi colega diciéndome que el servidor de la terminal con la aplicación ERP estaba caído debido a una actualización. una instantánea primero.

Lo único que tenía que decirle a mi colega era que apagara la máquina bloqueada, buscara la interfaz de usuario de nuestro sistema de respaldo/restauración y luego identificara la tarea de restauración. Finalmente, le dije cómo elegir la marca de tiempo de las últimas cuatro horas cuando debería completarse la restauración. La restauración se completó 30 minutos más tarde y el sistema estaba listo para usarse nuevamente. Regresamos a la acción después de un total de 30 minutos, ¡y solo se perdió el trabajo de las últimas dos horas! ¡Impresionante! Ahora de vuelta a las vacaciones.

Conclusión

Por lo tanto, tenga en cuenta que el tiempo y el dinero necesarios para una solución de copia de seguridad y recuperación bien adaptada están bien invertidos cuando se trata de una recuperación de emergencia.

Artículos de interés

Subir