Si trabaja en tecnología de infraestructura, es probable que pase mucho tiempo colaborando con los equipos de operaciones de TI. Los han visto esforzarse mucho para cumplir con las expectativas de la empresa, pero han tenido un éxito limitado. La empresa acusa constantemente a TI de brindar un servicio deficiente, mientras que TI se esfuerza por cumplir expectativas aparentemente vagas con recursos limitados. El principal problema aquí es la desconexión fundamental entre cómo TI y el negocio miden el éxito.
TI es responsable de compartir recursos limitados (por ejemplo, CPU, memoria y disco) entre las funciones comerciales y, por lo tanto, medir el consumo. Luego, TI usa estas métricas para identificar cuándo un recurso está a punto de agotarse, evitando problemas y manteniendo los costos bajos. Por otro lado, la empresa necesita servicios receptivos y sin errores, por lo que el éxito se mide por la velocidad y la calidad. La desconexión es que dos equipos tienen definiciones de éxito muy diferentes, lo que crea mucha tensión entre TI y el negocio.
Si desea una práctica de observabilidad más simple y con mayor capacidad de respuesta, una mayor alineación con el negocio y caminos más rápidos hacia la mejora, debe centrarse en las métricas de nivel de servicio. En este artículo, presentaré dos métricas que deberían ser importantes para su práctica de observabilidad: Indicadores de nivel de servicio (SLI) y Objetivos de nivel de servicio (SLO), y le mostraré cómo configurar sus SLO.
Indicadores de nivel de servicio
A SLI es un indicador cuantitativo cuidadosamente definido de algún aspecto del nivel de servicio prestado. En otras palabras, un SLI es una métrica que mide el rendimiento de su servicio de TI. Un SLI debe ser relevante para el servicio prestado y debe ser simple y fácil de entender. En otras palabras, si falla un SLI, debe haber un impacto en el negocio, como una interrupción o una mala experiencia del usuario. Recuerde que la empresa espera rapidez y calidad. Por lo tanto, debe elegir SLI (métricas) que midan estas cosas, como:
- Latencia/Tiempo de respuesta
- tasa de error/calidad
- Disponibilidad
- tiempo de actividad
Sí, existe una diferencia entre el tiempo de actividad (confiabilidad) y la disponibilidad (pérdida de tiempo). Y aquí hay algunas opciones potenciales de SLI que no debe usar porque no se relacionan directamente con el impacto comercial:
- Uso de CPU, disco y memoria
- proporción de aciertos de caché
- tiempo de recogida de basura
Una vez más, la diferencia clave entre un SLI bueno y uno malo es la relevancia de la métrica para la prestación del servicio. Una alta tasa de error o un tiempo de respuesta lento afecta la prestación del servicio. La alta utilización de la CPU puede afectar la prestación del servicio, pero la relación entre la CPU y el servicio es más difícil de establecer. Debido a esto, los equipos de TI que miden el consumo de recursos luchan.
La clave aquí es elegir una métrica para su SLI que tenga una relación clara e inequívoca con la prestación de servicios y que sea simple y fácil de transmitir a personas sin conocimientos técnicos. Esto elimina la interrupción y facilita el trabajo para todos los involucrados.
Objetivos de nivel de servicio
Un SLO es simplemente un objetivo que establece para sus SLI. Primero, identifique sus SLI. A continuación, crea sus SLO estableciendo umbrales para cada SLI.
Los SLO deben ser fáciles de entender incluso para las partes interesadas no técnicas. Métricas independientes de consumo de recursos, como Los datos como la utilización de la CPU no indican si algo funciona bien o no; requieren la interpretación de una PYME. Identificar SLI relevantes para el negocio, establecer SLO y presentarlos correctamente significa que los consumidores de esos SLO no tienen que preguntar si el número es bueno o malo. La interpretación es intuitiva: la respuesta es «buena» o «no buena». Como beneficio adicional, es fácil usar SLO para medir la mejora.
Establezca sus SLO
Si la administración comercial o de TI ya ha establecido SLO para usted, debe usarlos. Si no, recomiendo usar un enfoque iterativo como este:
- Identifique el servicio para el que desea establecer SLO.
- Identificar las principales transacciones del servicio. Muchos servicios tienen transacciones, como B. Comprobaciones de estado que no deberían contribuir a los SLO de rendimiento.
- Identifique los SLI de servicios y transacciones.
- Para cada SLI, cree un SLO de referencia utilizando el percentil 95. No use promedios ya que estos ocultan los valores atípicos y terminará con alertas ruidosas.
- Establezca alertas de violación de SLO.
- Revise regularmente los KPI de alerta y el rendimiento del servicio para garantizar que sus SLO sean relevantes y contribuyan a la mejora.
Establecer SLI y SLO da como resultado una práctica de observabilidad más simple y con mayor capacidad de respuesta, una alineación más cercana con el negocio y un camino más rápido hacia la mejora. Comenzar es fácil: practique esto en un servicio y vea qué tan bien funciona.
Sobre el Autor
Jemiah Sius, director, gestión de productos, New Relic
Regístrese para recibir el boletín gratuito insideBIGDATA.
Únase a nosotros en Twitter: https://twitter.com/InsideBigData1
Únase a nosotros en LinkedIn: https://www.linkedin.com/company/insidebigdata/
Visítenos en Facebook: https://www.facebook.com/insideBIGDATANOW