Cómo abordar los incidentes de red del enrutador (y otros)

Cuando ocurre un incidente en la red, el enfoque correcto puede significar la diferencia entre el caos y una rápida resolución del problema. Ahora que sabe que el problema está en el enrutador, veamos cómo abordar su problema de red para que pueda comenzar a trabajar rápidamente.

Basado en la experiencia en los pasillos de TI de los equipos de redes corporativas, este artículo es el segundo de una serie que se enfoca en los desafíos del enrutador de red que enfrentan la mayoría de los administradores de sistemas. Esta guía asume que está familiarizado con los comandos y la interfaz para el tipo de enrutador que está utilizando. Por lo tanto, la atención se centra en las formas de pensar y actuar cuando se trata de encontrar y resolver problemas.

Índice

    No te asustes

    Su peor enemigo en cualquier incidente de alto impacto es el pánico, ya que inhibe el pensamiento lógico y la acción racional, lo que resulta en un flujo salvaje de actividad descoordinada. Los usuarios molestos que siguen llamando o gritando y los gerentes que "exigen" una resolución inmediata pueden escalar fácilmente la situación. Lo mismo ocurre con los compañeros de equipo bien intencionados que "arreglan" algo que acaba de cambiar o invocan cambios no coordinados en otros componentes de la red con la esperanza de solucionar el problema rápidamente. Cuando ocurre este caos, es posible que pronto se encuentre en una situación mucho más complicada con problemas completamente nuevos.

    Encuentre una fuente de referencia confiable

    Suelo utilizar los servicios de sunet.se, que es la red universitaria sueca. Han estado en funcionamiento desde principios de la década de 1980. Su servidor, ping.sunet.se (192.36.125.18), se puede usar para verificar de manera confiable la conectividad de la red hacia y desde Internet usando dos de las herramientas descritas en el artículo anterior, ping: Mientras que la utilidad 'ping' usa el Protocolo de mensajes de control de Internet (ICMP) para enviar mensajes de solicitud y respuesta de eco en el puerto 7, la utilidad 'traceroute' envía, de manera predeterminada, una secuencia de paquetes usando el Protocolo de datagramas de usuario (UDP) en puertos 33434 a 33534.

    Linux incluye una opción para usar paquetes de solicitud de eco ICMP (-I) o cualquier protocolo arbitrario (-P), como UDP, TCP utilizando TCP SYN o paquetes ICMP. De esta manera puedes ingresar el comando:

    # traceroute -p22 104.44.104.0 
    

    para verificar si el puerto 22 está disponible en el enrutador, lo que permite iniciar una conexión SSH.

    Nuevamente, recomiendo leer el artículo de Anthony Critelli, donde explora los comandos funcionales que mencioné, así como varios otros.

    Comunicar y documentar

    Usted y su equipo deben estar perfectamente sincronizados durante un incidente de alto impacto. Comparte, discute y comunica. Asegúrese de tener canales de comunicación alternativos como Slack o WhatsApp que le permitan mantenerse conectado durante el incidente y comunicar quién está haciendo qué.

    Use sus teléfonos celulares o computadora portátil para chatear, o lo que sea que funcione. Esta capacidad es una gran ventaja, ya que es probable que no esté en la misma habitación, o tal vez ni siquiera en el mismo lugar, lo que permite diferentes puntos de vista, especialmente cuando se trata de resolver problemas de red.

    Necesitas lo que has hecho. Esto lo ayudará a realizar una solución de problemas estructurada y le permitirá retroceder si es necesario. Más importante aún, si necesita involucrar a otros técnicos más experimentados, puede responder a su primera solicitud: "Dime qué hiciste".

    Los registros de chat también se pueden usar como parte de la documentación, así que acuerde de antemano quién guardará el historial de la sala de chat (o hágalo usted mismo para evitar la pérdida de información).

    Usar informes visuales

    Si puede explicarle algo a un colega menos técnico (p. ej., su gerente), es probable que obtenga apoyo que le evitará tener que enviar informes innecesarios a otros niveles de gerentes.

    Pídale a su gerente local que maneje las comunicaciones con otras unidades y la alta gerencia. Aquí es donde los gráficos y los resultados de las trazas en color resultan útiles.

    tener un plan

    Si puede mostrar un plan de acción, hace que todos se sientan más cómodos, incluso si es rudimentario o si la audiencia no entiende todos los pasos. Siempre es mejor si la comunidad afectada recibe un mensaje que dice: "Estamos trabajando en ello".

    Tener un plan y explicárselo a alguien menos técnico también significa que se desafía a sí mismo a revisar el incidente y la resolución planificada en términos más simples. Puede ser un catalizador para encontrar una solución. Siempre es mejor que la comunidad afectada reciba mensajes que describan un plan de acción básico que muestre el progreso al indicar qué pasos se han tomado, en lugar del cántico bastante elevado y recurrente "estamos trabajando en ello".

    Aplicar medidas preventivas

    Y finalmente, antes de que suceda algo, prepare a su organización sobre cómo actuar durante un incidente crítico. Acuerde quién será el comunicador y comparta periódicamente esta información con el resto de la organización. Esto le permitirá concentrarse en lo que usted y su equipo deben hacer durante un incidente. Todo el mundo debe tener su objetivo y conocimientos, y cuándo, para comunicarse. Control de cambios mejorado a través de la documentación y una herramienta de automatización como Ansible es esencial.

    La razón por la que Ansible debe considerarse una herramienta esencial de control de cambios es que Ansible puede controlar todas las implementaciones de software en el firmware del enrutador. Lo mismo se aplica a todas las configuraciones y cambios de configuración posteriores. Ansible creará automáticamente una versión y hará un seguimiento de lo que se implementó, cuándo, dónde y quién lo hizo. De esta manera, es fácil responder a la pregunta "ha cambiado algo" y la pregunta de seguimiento "qué ha cambiado". Ansible Tower es el servidor central que puede albergar todos estos scripts para facilitar el acceso y una buena seguridad.

    Descripción general

    Así que repasemos. Mantén la calma y no entres en pánico. Asegúrese de estar conectado con su propio equipo y otros equipos relevantes. Colabora y comparte de forma estructurada. Asegúrese de que la persona de comunicaciones designada esté lista y pueda protegerlos a todos de un frenesí de informes. Encuentre un punto de referencia de confianza como un proveedor de servicios de Internet. Ten un plan y documenta lo que hiciste.

    En un artículo futuro, veremos cómo solucionar los problemas del enrutador.

    ¿Quieres aprender más sobre temas de Redes? Cheque Hoja de referencia de redes Linux.

    Artículos de interés

    Deja una respuesta

    Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

    Subir

    Si continuas utilizando este sitio aceptas el uso de cookies. Más información