Carreras de administrador de sistemas: cómo mi equipo divide el trabajo durante las vacaciones, las noches y los fines de semana

Bueno, pensé que sería un tema interesante para explorar porque trabajo en un equipo con el que la mayoría de los administradores de sistemas probablemente sueñan: no trabajamos en días festivos, noches ni fines de semana. Nuestro modus operandi requiere que todos trabajen ocho horas al día de lunes a viernes. El horario de oficina es de 6:45 a. m. a 8:00 p. m., pero la mayoría de nosotros se apega al horario típico de trabajo de 8:00 a. m. a 5:00 p. m. con una hora para el almuerzo.

Esto significa que ningún equipo de operaciones está presente en el sitio o incluso de guardia durante las noches, los fines de semana y los días festivos. (Divulgación completa: pasamos una hora extra aquí y allá, pero solo para algunas de las migraciones más grandes, por ejemplo, una nueva SAN se conecta, o migramos todo el sistema de mensajería, incluidos los buzones y los calendarios. Algunas personas se registrarán brevemente en noche o durante el fin de semana para ver si las tareas siguen ejecutándose, pero, por regla general, otras tareas típicas de mantenimiento, como las actualizaciones de versión, se realizan durante el horario comercial habitual).

Suena genial, ¿no? Desafortunadamente, no estamos reclutando en este momento.

Cuando le digo a la gente que no tenemos que trabajar los fines de semana y días festivos y que no necesitamos estar de guardia por la noche, por lo general me preguntan, "¿pero qué haces cuando algo se rompe? "

Así que trabajamos 8x5, pero nuestros clientes necesitan que nuestros servicios estén disponibles 24x7. Para que esto sea posible, hay algunas cosas importantes a considerar cuando se trata de la selección de productos y el diseño de servicios.

Índice

    El hardware fallará

    Sí, incluso el tuyo. Es solo cuestión de tiempo. Podría ser un corte de energía, una inundación, un robo, un incendio u otra destrucción del sitio de su centro de datos, o incluso una simple falla de hardware, que le sucede a todos. Hay muchas razones que pueden conducir y conducirán a la falla del sistema. Por lo tanto, cuando diseñe un nuevo servicio, asegúrese de considerar cómo mantener ese servicio operativo en caso de que un centro de datos completo no esté disponible. Te doy algunos ejemplos de cómo conseguirlo.

    Ubicación, ubicación, ubicación

    Cuando su centro de datos está en una ubicación y esa ubicación deja de estar disponible por alguna razón, es posible que desee considerar expandir su centro de datos a dos ubicaciones. Y eso es lo que hemos hecho.

    Higo. 1

    Nuestra plataforma de virtualización consta de varios clústeres ampliados. Por ejemplo, si un clúster tiene ocho hosts de hipervisor, cuatro se ubican en la ranura 1 y los otros cuatro se ubican en la ranura 2. Solo usamos hasta el 50 % de los recursos generales del clúster. Entonces, si perdemos una ubicación, los mecanismos de alta disponibilidad se activan y recuperan las máquinas virtuales perdidas en la segunda ubicación. Es posible que tenga un poco de tiempo de inactividad, y por lo tanto un impacto en el servicio, aquí, pero se recuperará automáticamente sin interacción humana.

    A menudo, varias máquinas virtuales (VM) brindan un servicio. En el caso de que haya dos o más máquinas virtuales para un servicio, las distribuimos a las diferentes ubicaciones. Por lo tanto, en caso de que un sitio deje de estar disponible y se deba reiniciar una VM en la segunda ubicación, el servicio permanece disponible en la otra VM.

    Para que esto sea posible, respaldamos nuestra plataforma de virtualización con una SAN con replicación de bloques síncrona. Entonces, si perdemos la mitad de nuestra plataforma de virtualización y la mitad de nuestros subsistemas de almacenamiento, aún podremos operar sin o con un impacto mínimo en el servicio.

    Dos son mejor que uno

    Si solo hay un dispositivo de firewall, un solo balanceador de carga o un solo conmutador, ese dispositivo se convierte en un único punto de falla. Si esto falla, todos los dispositivos y servicios conectados también fallarán (ver Fig. 2).

    2

    Así que estamos tratando de reunir casi todo y expandirlo a nuestras dos ubicaciones. De esta forma, podríamos perder un sitio completo con un impacto mínimo en el servicio. Entonces, la arquitectura lógica sigue siendo la misma que en la Figura 2, pero el diseño físico se parece más a la Figura 3.

    3

    Si un dispositivo o aplicación no puede ejecutarse en modo de clúster ampliado, tratamos de evitarlo por completo. Cuando una persona o departamento insiste en comprar una aplicación de este tipo, es posible que deba aceptar un tiempo de inactividad más prolongado. Porque, cuando se estropea el viernes por la noche, no se repararía hasta el lunes por la mañana.

    ¿Qué viene con eso?

    Por lo general, una organización tiene que gastar mucho dinero en horas extra para realizar el trabajo en días festivos, noches y fines de semana, y necesitaría contratos de servicio las 24 horas del día, los 7 días de la semana para obtener ayuda de un proveedor durante estos períodos.

    Está viniendo. Si no trabaja durante estos tiempos infelices, su jefe no tiene que pagar por ello, y podría ser bueno con contratos de servicio que solo cubran 8x5 (horario de oficina local) y ahorrar mucho dinero allí, bajo.

    Por supuesto, para nosotros hay un momento especial durante el año en el que tenemos un tiempo de inactividad incorporado: el descanso semestral. Cuando la mayoría de los estudiantes se han ido, no hay tanta carga en nuestros sistemas, por lo que usamos este tiempo para actualizar, parchear y renovar nuestros sistemas con un impacto mínimo para nuestros usuarios.

    Sé que soy afortunado como administrador del sistema por tener un horario de trabajo normal. Tengo que decir que me encanta este trabajo por muchas razones, pero el equilibrio entre el trabajo y la vida personal que conlleva es definitivamente uno de los más importantes.

    Artículos de interés

    Subir