3 tipos de monitoreo y algunas herramientas de código abierto para comenzar

La mayoría de los administradores de sistemas experimentaron algún tipo de falla tecnológica repentina y desconocida y querían una forma de predecir (y posiblemente prevenir) que sucedieran este tipo de problemas, especialmente cuando de lo contrario podrían significar llamadas nocturnas, documentos que explican fallas y planes de remediación complicados.

La capacidad de ver el estado general de todo un sistema o flota puede ser la diferencia entre reaccionar constantemente a los problemas y prepararse de manera proactiva para los problemas antes de que se salgan de control. También puede proporcionar información valiosa sobre patrones o tendencias históricas que pueden influir en la planificación de futuras actualizaciones o cambios en la arquitectura.

Cuando comienza a buscar opciones para crear este tipo de visibilidad en sus entornos, las opciones pueden ser abrumadoras. Cubriré algunas de las opciones más populares cuando se trata de soluciones de monitoreo y por qué podría estar interesado en una sobre la otra.

Si toma una vista de 10,000 pies de lo que significa monitorear la infraestructura, puede ver algunos componentes principales que se unen para crear un sistema funcional.

Índice

    Qué ver

    En primer lugar, necesitas algo para observar. La mayoría de sus necesidades de monitoreo se centrarán en la infraestructura de la que es responsable, pero puede ser muy útil monitorear cosas fuera de su infraestructura para ayudar a agregar información a su colección general.

    Específicamente, puede ser útil verificar regularmente la conectividad hacia o desde su infraestructura y el mundo exterior. Por ejemplo, es posible que todos sus sistemas internos funcionen bien, pero los usuarios se quejan de que no pueden acceder a un sitio web interno importante. Puede ser algo tan simple como una configuración incorrecta del firewall, que se puede probar ejecutando comprobaciones de conectividad entrante desde un proveedor de la nube o desde una conexión a Internet doméstica. O tal vez los desarrolladores están atascados porque no pueden obtener copias de las bibliotecas específicas que necesitan.

    Su red puede estar bien, pero monitorear los proyectos por adelantado para ver al menos cuándo surgen problemas puede marcar la diferencia entre pasar unos momentos comprobando que está fuera de su red u horas averiguando por qué nadie puede acceder a un sitio web de terceros que se cerró de repente.

    Su infraestructura depende de gran parte del mundo exterior que funciona normalmente, por lo que saber cuándo estos servicios tienen problemas puede ser muy útil.

    Monitoreo de conectividad

    Un buen ejemplo de un pequeño paso en el monitoreo es verificar la conectividad con el mundo exterior a través de enlaces ascendentes de red. Ser capaz de determinar el estado general de su conectividad entrante y saliente puede ahorrarle mucho tiempo de resolución de problemas cuando enfrenta una interrupción o un problema confuso.

    fumando es una herramienta de código abierto diseñada solo para este tipo de pruebas. Comprueba periódicamente la capacidad de llegar a una lista configurable de sitios e informa la latencia de cada uno. Puede probar usando el Protocolo de mensajes de control de Internet (ICMP) silbido, pero también DNS, SSH, círculo, y más. Esto significa que puede crear múltiples pruebas que lleguen al mismo destino usando diferentes protocolos para ayudar a obtener una imagen general del estado de múltiples servicios que se ejecutan en un solo host.

    [ Download the network automation for everyone eBook to plan your path to modern network management. ]

    SmokePing también genera gráficos de la latencia que registra para estos objetivos y los presenta en una interfaz de usuario (IU) web intuitiva.

    (Steve Newsted, CC BY-SA 4.0)

    Configurar SmokePing para obtener una vista básica de la conectividad general de un sitio o red puede ser una solución rápida y fácil para aumentar sus capacidades de monitoreo. Incluso hay imágenes de contenedores predefinidas que puede modificar a través de sus archivos de configuración según sus necesidades.

    Monitoreo de red

    Más allá de solo monitorear la conectividad, las cosas pueden parecer un poco intimidantes. La decisión de agregar más herramientas (o cambiar SmokePing por algo más robusto) depende completamente de su infraestructura y organización. Muchas herramientas de monitoreo tienen un propósito particular, incluso cuando pueden proporcionar visibilidad de otros aspectos de la infraestructura. Por ejemplo, muchas herramientas de monitoreo están orientadas a la red o la infraestructura del servidor, pero generalmente pueden hacer ambas cosas.

    Herramientas como Cactus puede ser una excelente opción para aumentar el conocimiento de las redes que conectan su infraestructura. Es similar a SmokePing en que llega a la red para recopilar información de salud, pero está diseñado para ser más granular. En lugar de simplemente "¿está ahí y qué tan rápido respondió?" Puede consultar las máquinas de destino para obtener detalles como estadísticas de tráfico de red, carga o uso de varios recursos. Cacti se centra en la infraestructura de red más que en los servidores y utiliza principalmente SNMP para monitorear cosas y recopilar datos.

    Monitoreo de infraestructura

    Más allá de aumentar la visibilidad de la conectividad general entre los diferentes componentes de la infraestructura, puede ser invaluable obtener información sobre el estado y otros aspectos de los servicios, el hardware o la miríada de servicios y otras cosas que realiza. Es útil saber que una máquina está respondiendo a una solicitud de ping o SNMP. El gráfico de latencia de disco, número de usuarios conectados, uso de memoria u otros detalles proporciona datos mucho más útiles para ayudarlo a tomar decisiones sobre el estado de un sistema o un conjunto de sistemas conectados.

    Grafana es una de las herramientas más populares para presentar este tipo de datos en un medio visual.

    (Steve Newsted, CC BY-SA 4.0)

    Grafana es infinitamente personalizable. Tiene mucho control sobre qué datos recopilar y cómo presentarlos. Los usuarios individuales pueden crear paneles para obtener la información importante para su función.

    Una cosa que no hace es recopilar y almacenar estos puntos de datos. Para esto querrás algo como Prometeo.

    [ Time to say goodbye? Learn how to decommission a system: 3 keys to success. ]

    Puede configurar Prometheus como backend para Grafana, y tiene muchas capacidades para recibir y recuperar datos de puntos finales. Prometheus también proporciona una forma muy robusta de consultar los datos que almacena, además de usar una herramienta de visualización como Grafana. Su PromQL El lenguaje de consulta le permite crear sus propias consultas en vivo y guardarlas para encontrar patrones o problemas antes de que se conviertan en problemas serios.

    Una vez que haya recopilado algunos datos y pueda resolverlos con la ayuda de gráficos útiles, el siguiente paso en su viaje debería ser implementar algo que lo avise cuando las condiciones requieran su atención. Herramientas como Administrador de alertas (como parte de Prometheus) puede cerrar la brecha entre "Puedo ver mi infraestructura" y "Sé cuándo hay un problema sin tener que tomarme el tiempo de revisar gráficos, estadísticas o mensajes".

    Pensamientos de despedida

    En última instancia, no existe una respuesta única sobre cómo iniciar (o mejorar) el monitoreo y la observabilidad de la infraestructura. Su mejor opción es probar herramientas como SmokePing, Cacti, Grafana, Prometheus y Alertmanager para ver cómo encajan en su entorno. También puede tener más sentido ejecutar varias herramientas para diferentes casos de uso, según su entorno.

    Artículos de interés

    Deja una respuesta

    Tu dirección de correo electrónico no será publicada.

    Subir