Runbook – Incidente Crítico: Sistema Caído
Objetivo
Restablecer el servicio lo más rápido posible minimizando impacto a clientes.
Definición
- Sistema no responde
- Errores 5xx generalizados
- Frontend / API inaccesible
Pasos Inmediatos
- Verificar alertas en monitoreo
- Confirmar si el problema es:
- Infraestructura
- Base de datos
- Red / proveedor externo
- Ver logs del servicio principal
Acciones Permitidas
- Reinicio controlado de servicios autorizados
- Rollback del último deploy si aplica
Acciones NO Permitidas
- Cambios de arquitectura
- Migraciones
- Ajustes de seguridad
Escalamiento
Escalar si:
- El downtime supera 15 minutos
- Hay riesgo de pérdida de datos
Contacto emergencia: +51940907431
Comunicación
- Avisar estado en canal compartido
- Actualizar cada 15 minutos
Referencias
Servidores: 10.100.128.7 10.100.128.10 10.100.128.11 10.100.128.12 10.100.128.15 Usuario: azure Password: SSH Keys registradas en idbi/public/authorized_keys