Política Interna de SLA y SLO
Gestión de Incidentes y Niveles de Criticidad
1. Introducción
La presente política establece el marco interno de Service Level Agreement (SLA) y Service Level Objectives (SLO) para la gestión de incidentes tecnológicos, con el propósito de asegurar la estabilidad operativa, minimizar el impacto al negocio y estandarizar la respuesta del equipo técnico ante eventos adversos.
Este documento define criterios objetivos de criticidad, tiempos de atención y resolución, responsabilidades, canales de comunicación y métricas de seguimiento.
2. Objetivos
- Garantizar la continuidad de los servicios críticos.
- Priorizar incidentes según impacto técnico, operativo y de negocio.
- Establecer compromisos claros de respuesta y resolución.
- Reducir tiempos de indisponibilidad y recurrencia de incidentes.
- Facilitar la medición y mejora continua del desempeño operativo.
3. Alcance
Esta política aplica a todos los sistemas, servicios e infraestructuras bajo responsabilidad del equipo, incluyendo pero no limitándose a:
- APIs y backend
- POS, Pass y Delivery
- Sistemas de identificación
- Pylon
- Redis y servicios de soporte
- Infraestructura y componentes asociados
4. Definiciones
SLA (Service Level Agreement)
Compromiso interno que define los tiempos máximos aceptables de atención y resolución de incidentes según su criticidad.
SLO (Service Level Objective)
Objetivos técnicos, medibles y monitoreables que permiten evaluar el cumplimiento del SLA.
MTTR (Mean Time To Resolution)
Tiempo promedio transcurrido desde la detección del incidente hasta su resolución definitiva.
5. Clasificación de Incidentes y SLA
5.1 P1 – Crítico (Impacto Total)
Descripción
Incidentes que generan indisponibilidad total, comprometen la integridad de la información o representan un riesgo crítico de seguridad.
Ejemplos
- Caída total de la plataforma o servicios clave
- API principal inaccesible
- Errores generalizados en login, pagos o dashboard
- Pérdida o corrupción de datos
- Brechas de seguridad activas
SLA
- Inicio de atención: inmediato
- Tiempo máximo de resolución: menor a 1 hora
Lineamientos Operativos
- Escalamiento inmediato a todo el equipo
- Identificación del responsable técnico
- Ejecución de rollback obligatorio si no existe diagnóstico en los primeros 15 minutos
- Implementación de medidas de contención si el rollback no es viable
Canal de Comunicación
- Llamada telefónica, 24/7
5.2 P2 – Alta (Impacto Parcial Grave)
Descripción
Incidentes que afectan funcionalidades críticas de manera parcial o a un subconjunto relevante de usuarios.
Ejemplos
- Bloqueo de despliegues
- Latencia superior a 5 segundos en operaciones críticas
- Errores 500 recurrentes en rutas específicas
- Saturación de recursos (CPU, memoria, disco, conexiones)
SLA
- Inicio de atención: horario laboral
- Tiempo máximo de resolución: menor a 4 horas
Responsables por Dominio
- Órdenes y facturación: Nick
- Sincronización y procesos relacionados: Anthony
- Pass: Nick / Álvaro
Canal de Comunicación
- Slack
- Llamada en horario laboral
5.3 P3 – Media (Degradación Parcial o Intermitente)
Descripción
Incidentes que degradan la experiencia del usuario sin interrumpir los procesos principales del negocio.
Ejemplos
- Lentitud del sistema
- Fallas en reportes, exportaciones o notificaciones
- Inestabilidad en funcionalidades secundarias
SLA
- Atención el mismo día
- Tiempo máximo de resolución: menor a 24 horas
Canal de Comunicación
- Slack
5.4 P4 – Baja (Menor o Mejora)
Descripción
Incidentes sin impacto funcional o solicitudes de mejora no urgentes.
Ejemplos
- Ajustes visuales
- Glitches menores
- Cambios cosméticos o sugerencias de mejora
SLA
- Documentación y planificación futura
- Resolución estimada: días o semanas
Canal de Comunicación
- Slack
6. SLO Internos
Los siguientes objetivos serán monitoreados de manera continua:
- MTTR P1 ≤ 60 minutos
- MTTR P2 ≤ 4 horas
- Disponibilidad mensual de servicios críticos ≥ 99.9%
- Incidentes P1 dentro de umbrales definidos trimestralmente
- Reducción progresiva de incidentes recurrentes
7. Evaluación de Incidentes No Clasificados
Los incidentes que no encajen claramente en una categoría serán evaluados según:
- Impacto financiero
- Impacto comercial
- Riesgo de pérdida de clientes
- Nivel de afectación masiva
El periodo máximo de evaluación será de dos semanas, tras el cual se definirá su clasificación definitiva y acciones asociadas.
8. Mejora Continua
- Revisión periódica de métricas SLA y SLO
- Postmortem obligatorio para incidentes P1
- Identificación de causas raíz
- Definición y seguimiento de acciones preventivas
Este documento es de carácter interno y podrá ser actualizado conforme a la evolución operativa del equipo.