Cuando fallan las copias de seguridad: una advertencia del administrador del sistema

Fue a fines del verano de 2000, cuando las cosas dieron un giro terrible para mi nuevo trabajo en EDS. Las copias de seguridad que necesitábamos habían fallado. Rastreé la causa raíz de la falla hasta los números 4 y 7 en mi artículo, 10 cosas que desearía haber sabido antes de convertirme en administrador de sistemas Linux. Descubrí que no hemos tenido una buena copia de seguridad de los sistemas en cuestión durante al menos tres años. Discutí esta falla con el líder del equipo de respaldo y restauración (BUR), y su opinión y la de mi gerente fueron las mismas: fue mi culpa que los respaldos fueran malos. Aquí está la parte interesante de la historia: solo había estado en esta posición por menos de cuatro meses.

Había otras personas en el grupo con diferentes niveles de experiencia técnica, pero una persona fue elogiada como un "gurú" y, para mi pesar, nadie la llamó por no verificar las copias de seguridad con errores. De hecho, mi gerente me dijo que debería haber revisado estas copias de seguridad y que era mi responsabilidad hacerlo. Había asumido erróneamente que el equipo de BUR verificaría las copias de seguridad.

"Mi mejor consejo para cualquier administrador de sistemas es verificar las copias de seguridad de cada sistema que toque..."

Y sí, mencioné el hecho de que las copias de seguridad no habían funcionado durante tres años y que esos tres años eran tan antiguos como las copias de seguridad. Entonces, básicamente, es probable que nunca haya habido buenas copias de seguridad de estos sistemas.

Asumí la responsabilidad, aunque bajo protesta, y luego también asumí la acción de hacer que las copias de seguridad funcionaran en los veinte o más sistemas que monitoreaban nuestra infraestructura. Me tomó algunas semanas poner en marcha todo, probar y verificar que las copias de seguridad funcionaran. Y aunque consideré importante esta tarea, nunca escuché un "buen trabajo" o un "gracias" por mi trabajo. Supongo que mi falta de elogios por una implementación exitosa de la copia de seguridad se debió a que se consideró mi culpa que las copias de seguridad nunca funcionaron.

Mi mejor consejo para todos los administradores de sistemas es que verifiquen las copias de seguridad de cada sistema que toquen o que puedan tener una responsabilidad adyacente, ya que lo más probable es que alguien tenga que señalarlo con el dedo, y ese podría ser usted.

Así es como verifico las copias de seguridad para asegurarme de que funcionan en mis sistemas:

  • Para crear un restaurar_prueba.txt archivo para cada sistema enterrado profundamente en el sistema de archivos.
  • Cree un script para extraer los registros de copia de seguridad de su restaurar_prueba.txt archivar.
  • Seleccione un sistema aleatorio una vez a la semana y restáurelo restaurar_prueba.txt archivar.
  • Para crear un backup_restore_log.txt archivar y guardar su progreso semanal.
  • Prepárate para compartir la backup_restore_log.txt archivo con su gerente en caso de avería, pérdida, accidente o negligencia.

Ojalá su ambiente de trabajo no sea tan disfuncional como el mío. Pero, solo si algo sale mal, sea proactivo revisando las copias de seguridad y asegurándose de que puede restaurar un archivo desde sus copias de seguridad. Es una tarea demasiado importante para dejarla al azar. Ya sea que tenga la responsabilidad oficial o no, asegúrese de que se realicen las copias de seguridad y que funcionen según lo previsto.

Artículos de interés

Subir