Historias del administrador del sistema: cómo mantener la calma y no entrar en pánico cuando todo va bien

Índice

Era una tarde oscura y tormentosa de verano en Denver...

Estaba trabajando en varios proyectos simultáneamente para una pequeña empresa que se había separado de una más grande que quebró. La empresa más pequeña había heredado parte de la infraestructura de la empresa más grande, y todos los dolores de cabeza que venían con ella. Ese día tuve algunos consultores más trabajando conmigo en un proyecto para migrar el servicio de correo electrónico de un gran clúster propietario en las instalaciones a un proveedor de la nube, mientras también trabajaba en la reconfiguración de una gran variedad de almacenamiento.

En un momento, hice clic en el botón equivocado.

De repente, comencé a recibir llamadas. El COI y los consultores estaban parados frente a mi escritorio. Los servidores de correo estaban completamente fuera de línea: respondieron, pero no pudieron acceder al almacenamiento de respaldo. Todavía no lo sabía, pero había eliminado el grupo de almacenamiento de los servidores de correo activos.

Mi visión se nubló en un túnel y mi estómago cayó en un pozo sin fondo. Tuve problemas para respirar. Hice lo mejor que pude para mantener una cara seria mientras los ejecutivos y consultores miraban con impaciencia. Escaneé los registros y mensajes en busca de pistas. Probé todos los componentes para encontrar el origen del problema y no encontré nada. Los datos parecían haber desaparecido y el pánico estaba en el establecimiento.

Me alejé de la oficina y me disculpé por usar el baño. Cerrando y bloqueando la puerta detrás de mí, contemplé mi destino por un momento, luego salpiqué agua fría en mi cara y respiré profundamente. Entonces me di cuenta: antes había configurado un espejo activo de este grupo de almacenamiento. Los datos estaban todos allí; Solo necesitaba volver a conectarlo.

Regresé a mi escritorio y no pude evitar sonreír. Unos cuantos comandos, unos cuantos clics y un sorbo de café. Unos cinco minutos de prueba, y pude decir: "Lo siento, muchachos. Ya deberían estar bien". Todo sucedió en unos 30 minutos.

Todos hemos estado allí

Todo el mundo comete errores, incluso los ingenieros y administradores de sistemas más veteranos y venerables. Todos somos humanos. Resulta que como administrador del sistema, un pequeño error en el momento puede causar algunos problemas muy notables y PÁNICO. Esto es de esperar, sin embargo. Lo que separa al héroe de los desempleados en este punto pueden ser solo algunas cosas simples.

Cuando ocurre un incidente, puede ser tentador concentrarse en la falla; La culpa es algo que sabemos cómo hacer y podemos hacer algo sobre algo, e incluso puede ofrecer alivio si podemos decirnos a nosotros mismos que no es culpa nuestra. Pero, de hecho, culpar no premia nada y puede ser contraproducente en un momento de crisis: puede distraernos de encontrar una solución al problema y crear aún más estrés.

Copias de seguridad, copias de seguridad, copias de seguridad

Esta es solo una de las veces que tener una copia de seguridad me salvó el día a mí y a un cliente. Todos los administradores de sistemas con los que he trabajado le dirán lo mismo: siempre tenga una copia de seguridad. Realice copias de seguridad periódicas. Realice copias de seguridad de las configuraciones en las que está trabajando. Acostúmbrese a crear una copia de seguridad como primer paso en cualquier proyecto. Hay algunos artículos excelentes aquí sobre Habilitar Sysadmin sobre las diferentes cosas que puede hacer para protegerse.

Otra buena práctica es nunca trabajar en sistemas de producción hasta que haya probado el cambio. Es posible que esto no siempre sea posible, pero si lo es, el esfuerzo y el tiempo adicionales valdrán la pena en las raras ocasiones en que tenga un resultado inesperado, por lo que puede evitar el pánico de preguntarse dónde puede haber guardado su CV más reciente. . Tener un plan y estar preparado puede ayudar mucho a evitar estas situaciones tan estresantes.

Inhala exhala

La reacción de pánico en los humanos está relacionada con el reflejo de "lucha o huida", que tan bien sirvió a nuestros antepasados. Es un recurso muy útil para evitar tigres dientes de sable (y CFO enojados), pero no tanto para comprender y resolver problemas técnicos complejos. Al darnos cuenta de que esto es normal pero no realmente útil, podemos reconocerlo y encontrar una manera de superarlo en el momento.

La forma más fácil de dominar el impulso de desmayarse y huir es respirar profundamente (o varias veces). Los estudios han demostrado que los ejercicios de respiración y la meditación simples pueden mejorar nuestra visión general y nuestra capacidad para concentrarnos en una tarea específica. También hay algunas pruebas de que los cambios de temperatura pueden marcar la diferencia; Algo tan simple como un chorro de agua en la cara o una bebida helada puede calmar el pánico. Estas cosas funcionan para mí.

Siga el camino hacia la solución de problemas, un paso a la vez

Una vez que nos hayamos convencido de que el mundo no se va a acabar inmediatamente, podemos centrarnos en solucionar el problema. Tome la situación de un elemento, un paso a la vez para descubrir qué está mal, luego tome eso y aplique la(s) solución(es) de manera consistente. Una vez más, es importante concentrarse en el problema y la solución que tiene frente a usted en lugar de preocuparse por las cosas que no puede hacer ahora o lo que podría suceder más adelante. Recuerde que culpar no ayuda, y eso incluye culparse a sí mismo.

La mayoría de las veces, cuando me enfoco en el problema, me olvido de entrar en pánico y puedo trabajar en la solución aún mejor. Muchas veces he encontrado soluciones que no hubiera visto o considerado de otra manera en este estado.

quinta toma

Otra cosa que es fácil de olvidar es que cuando estás trabajando en un problema es importante darte un respiro. Bebe un poco de agua. Tome un paseo corto. Descansa tu cerebro por unos minutos. El hambre, la sed y la fatiga pueden conducir a un pensamiento menos claro y, lo adivinaste, al pánico.

Es hora de enfrentar la música.

Mi último consejo, pero de ninguna manera el menos importante, es que si usted es responsable de un incidente, sea honesto sobre lo que sucedió. Esto te beneficiará a corto y largo plazo.

Durante los primeros años del programa espacial, los directores e ingenieros de la NASA establecieron una rutina de reunirse y ver qué estaba mal y qué y cómo mejorar para la próxima vez. Lo mismo está ocurriendo en los campos militar, de manejo de emergencias y de salud. Esto también se considera una práctica recomendada de Agile/DevOps. Algunos de los ingenieros, administradores y gerentes más inteligentes y tensos que he conocido y con los que he trabajado (personas con millones de dólares y miles de vidas en sus áreas de responsabilidad) han insistido en la importancia de aprender de los errores e incidentes. Es la marca de un verdadero profesional reconocer los errores y trabajar para mejorar.

Es difícil perder la cara, pero no solo tus compañeros de trabajo apreciarán que asumas la responsabilidad y trabajes para mejorar el equipo, sino que te prometo que descansarás mejor y podrás enfrentar mejor el próximo problema si consideras estas situaciones como oportunidades de aprendizaje.

Los accidentes y los errores nunca se pueden evitar por completo, pero espero que algunos de estos consejos le resulten útiles la próxima vez que se enfrente a un desafío inesperado.

Artículos de interés

Subir