Crear una estrategia de alerta eficaz

libreto-efectivamente-alertas

El mundo puede estar trabajando en el café, pero es un despertador que nos despierta. Opera en un umbral simple. Establece un tiempo que es importante para usted y recibe una advertencia si esta variable es verdadera.

Al igual que su reloj de alarma, las herramientas modernas para alertar a los servicios web a menudo funcionan en umbrales simples, pero a diferencia de su reloj, existe una amplia gama de indicadores, y no tan claros, que deberían activar una alerta. Hasta que tengamos algo mejor que los umbrales, los ingenieros deben sopesar cuidadosamente qué métricas se pueden usar, cómo se miden y qué umbrales son relevantes para los problemas del mundo real.

Índice

    Mide lo que te preocupa

    En la práctica, este, podría decirse, simple proceso de pensar sobre lo que controlas y cómo lo controlas rara vez se lleva a cabo. La mayoría de las veces, nuestras elecciones de métricas y umbrales se guían por nuestras herramientas preexistentes. Por lo tanto, si nuestros instrumentos no pueden medir el retraso, no advertimos del retraso. Esta práctica de permitir que nuestras herramientas controlen nuestro contenido de telemetría es una antiplantilla que conduce a una detección y prevención de problemas poco confiables.

    La notificación efectiva requiere un desempeño confiable. Debe comenzar por pensar en la aplicación y/o infraestructura que desea monitorear. Solo entonces puede seleccionar e implementar herramientas de recopilación que le proporcionen las métricas que realmente le interesan, como el tamaño de la cola, el tiempo de acceso a la base de datos y la demora entre servicios.

    Una señal confiable

    Se necesita una señal de telemetría única y confiable para una alerta efectiva, a la que cada colector puede contribuir. Desarrollar y proporcionar una señal confiable puede ser difícil, pero mucho más fácil que construir múltiples sistemas de monitoreo dispares e intentar que sean consistentes entre sí: tantas tiendas, como alertas de un solo sistema como Nagios, y eliminar problemas con otro. como Ganglia.

    Probablemente, es imposible forzar a varios sistemas erróneos a estar de acuerdo entre sí en cada caso. Normalmente pueden estar de acuerdo, pero cada falso positivo o falso negativo socava la credibilidad de ambos sistemas. Además, los sistemas múltiples rara vez se mejoran porque, por lo general, es imposible saber qué sistema tiene la culpa si no están de acuerdo. ¿El sistema de alerta envió una alerta falsa o hay un problema con los datos en el sistema de visualización? Si los falsos positivos provienen de un solo sistema de telemetría, simplemente realice una iteración y mejore ese sistema.

    Destinatario de la alerta = / = Creador de la alerta

    Crear alertas efectivas implica saber cómo funcionan sus sistemas. Cada advertencia debe evocar en la mente de su destinatario un modelo cognitivo eficaz que describa cómo se ve amenazado el entorno de producción. ¿Cómo afecta a la aplicación la parte individual de la infraestructura que lanzó esta alerta? ¿Por qué esta alerta es un problema?

    Solo los ingenieros que entienden los sistemas y las aplicaciones que nos interesan tienen el conocimiento para crear alertas que describan las amenazas actuales a esos sistemas y aplicaciones. Por lo tanto, una alerta efectiva requiere que los destinatarios de la alerta puedan crear estas alertas.

    Notificaciones push como último recurso

    Las emergencias cambian de contexto. Interrumpen el flujo de trabajo y pierden productividad. Se necesitan muchos anuncios, pero muy pocos deben considerarse extraordinarios. En Librato, la mayoría de nuestras alertas se envían al chat grupal. Creemos que este es un medio de comunicación oportuno que no interfiere con el desempeño. Además, el chat grupal permite que todos respondan a una alerta juntos, en un contexto grupal, en lugar de individualmente desde un buzón de correo electrónico o un buscapersonas. Esto nos ayuda a evitar esfuerzos innecesarios de solución de problemas y a mantener a todos sincronizados al solucionar problemas.

    La notificación efectiva requiere un sistema de escalamiento que pueda informar problemas de una manera que sea independiente de las interrupciones. Hay muchos ejemplos en otras áreas, como el sistema de salud y seguridad, donde cuando cada alerta se debe a una interrupción, las personas rápidamente comienzan a ignorar las alertas. Las notificaciones push deben ser el último recurso.

    Las alertas son difíciles

    La alerta efectiva es un problema engañosamente complejo, que es uno de los mayores desafíos que enfrentan los ingenieros de operadores modernos. Es necesario lograr un cuidadoso equilibrio entre las necesidades de los sistemas y las necesidades de las personas que cuidan de esos sistemas. Regístrese para una prueba gratuita si está listo para tomar el control de sus alertas.

    Artículos de interés

    Subir