14 Agentes IA Eliminaron Nuestro Backlog de Alertas en 8 Semanas: La Arquitectura SOC Multi-Tier

Pasamos de 112 alertas en backlog a cero en 8 semanas. No contratando analistas – construyendo 14 agentes IA especializados organizados en una jerarquía estricta de niveles.

Este post es la guía de arquitectura que me hubiera gustado tener cuando empecé. Cubre el framework multi-tier, las decisiones de diseño clave, el camino de prueba de concepto a producción, y lo que haría diferente.

El Framework Multi-Tier

La mayoría de intentos de automatizar un SOC fracasan porque tratan el problema como un único paso de “auto-triage”. Las operaciones de seguridad reales requieren múltiples fases cognitivas: procesamiento de señales, validación, investigación profunda, contención y gobernanza. Cada fase tiene requisitos de confianza diferentes y modos de fallo diferentes.

Este es el pipeline completo:

┌─────────────────────────────────────────────────────────────────┐
│                    TIER 0: GOBERNANZA                            │
│  [Agente Auto-Auditoría] [Monitor Calidad Decisiones]           │
│  Observa todos los tiers. Detecta drift, sesgo, alucinación.   │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│  ┌──────────────┐    ┌──────────────┐    ┌──────────────┐      │
│  │   TIER 1     │    │   TIER 2     │    │   TIER 3     │      │
│  │  Procesam.   │───▶│  Validación  │───▶│  Investigac. │      │
│  │  Señales     │    │  Independiente│    │  Profunda    │      │
│  │              │    │              │    │              │      │
│  │ - Enriquec.  │    │ - Re-evalua  │    │ - 7 fases    │      │
│  │ - Scoring    │    │   desde      │    │   en         │      │
│  │ - Contexto   │    │   evidencia  │    │   paralelo   │      │
│  │              │    │   cruda      │    │ - Correlación│      │
│  │              │    │ - Captura    │    │   evidencia  │      │
│  │              │    │   errores T1 │    │              │      │
│  └──────────────┘    └──────────────┘    └──────┬───────┘      │
│                                                  │              │
│                                          ┌───────▼───────┐      │
│                                          │  TIER 3.5     │      │
│                                          │  Contencion   │      │
│                                          │               │      │
│                                          │  SAL 1: Log   │      │
│                                          │  SAL 2: Aislar │     │
│                                          │  SAL 3: Bloquear│    │
│                                          │  SAL 4: Nuke   │     │
│                                          └───────┬───────┘      │
│                                                  │              │
│                                          ┌───────▼───────┐      │
│                                          │   TIER 4      │      │
│                                          │   Experto     │      │
│                                          │   Humano      │      │
│                                          │               │      │
│                                          │  - Declaración│      │
│                                          │    incidente  │      │
│                                          │  - Correcciones│     │
│                                          │    sistémicas │      │
│                                          └───────────────┘      │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

Tier 0: Gobernanza

Dos agentes que existen fuera del pipeline operacional:

Agente de Auto-Auditoría – reproduce periódicamente decisiones pasadas y comprueba consistencia, alucinaciones o drift respecto a procedimientos documentados.
Monitor de Calidad de Decisiones – rastrea métricas como tasa de falsos positivos, precisión de escalaciones y tiempo de resolución. Levanta alertas cuando la calidad se degrada.

Estos agentes tienen acceso de lectura a los outputs de todos los tiers pero no pueden modificarlos.

Tier 1+2: Procesamiento de Señales y Validación

Tier 1 toma alertas crudas del SIEM y produce señales enriquecidas y puntuadas. Extrae contexto del proveedor de identidad, inventario de activos y feeds de inteligencia de amenazas. El output es un bundle de evidencia estructurado con score de severidad.

Tier 2 es el diferenciador crítico. Un agente completamente independiente re-evalúa la misma alerta cruda sin ver la conclusión de Tier 1. Extrae su propia evidencia y produce su propio score. Solo cuando ambos tiers coinciden la alerta procede automáticamente. Los desacuerdos disparan revisión humana o escalación a Tier 3.

Esta validación dual captura el mayor riesgo en triage con IA: cierres incorrectos pero con alta confianza.

Tier 3: Investigación

Cuando una alerta requiere análisis profundo, Tier 3 ejecuta una investigación en 7 fases paralelas:

Timeline de identidad (quién hizo qué, cuándo, desde dónde)
Contexto de red (movimiento lateral, conexiones anómalas)
Forense de endpoint (árboles de procesos, modificaciones de archivos)
Actividad cloud (llamadas API, cambios de permisos, creación de recursos)
Correlación de inteligencia de amenazas (IoCs, TTPs, solapamiento de campañas)
Patrón histórico (este usuario/sistema se ha comportado así antes?)
Evaluación de impacto de negocio (qué está en riesgo si esto es real?)

Cada fase se ejecuta como sub-tarea paralela. Los resultados alimentan un motor de correlación que produce un informe unificado con scores de confianza por hallazgo.

Tier 3.5: Contención Automatizada

El tier de contención opera con una escala graduada de severidad (SAL = Severity Action Level):

SAL 1: Log y monitorizar. Sin respuesta activa.
SAL 2: Aislar. Revocar sesiones activas, deshabilitar claves API, cuarentena del endpoint.
SAL 3: Bloquear. Aislamiento de red, suspensión de identidad, congelación de recursos cloud.
SAL 4: Nuke completo. Deshabilitar cuenta, rotación de credenciales, snapshot forense, aislamiento total.

SAL 1-2 son completamente autónomos. SAL 3 requiere una confirmación humana. SAL 4 siempre escala a Tier 4.

Tier 4: Experto Humano

Algunas cosas no deberían automatizarse nunca: declaración de incidentes, decisiones de notificación regulatoria, remediación arquitectural y mejoras sistémicas de detección. Tier 4 no es un modo de fallo – es el techo intencional de la automatización.

Decisiones Clave de Arquitectura

Read-Heavy, Write-Restricted

Cada agente tiene acceso amplio de lectura pero permisos de escritura extremadamente limitados. El agente de enriquecimiento de Tier 1 puede consultar el SIEM, proveedor de identidad y base de datos de activos – pero solo puede escribir en el bundle de evidencia y la cola interna de scoring. El agente de contención puede ejecutar acciones pero solo a través de un CLI hardened con tipos de acción pre-aprobados.

Bundles de Evidencia Tamper-Evident

Cada bundle de evidencia se firma con HMAC en el momento de creación. Si algún campo cambia después de la firma, los agentes downstream lo rechazan. Esto previene que un agente comprometido o alucinante modifique retroactivamente su propio rastro de evidencia.

Confianza Graduada

Ningún agente tiene permisos de “investigar” y “contener” simultáneamente. El tier de investigación produce recomendaciones. Un agente de contención separado evalúa esas recomendaciones contra política antes de ejecutar. Separación de funciones, aplicada a IA.

Auto-Monitorización

La capa de gobernanza vigila:

Inflación de scores (agentes “aburriéndose” y cerrando demasiado agresivamente)
Atajos en investigación (saltándose fases bajo carga)
Drift de contención (niveles SAL subiendo sin justificación)

El Camino: POC a Producción

Semana 1-2: Prueba de Concepto

Empezamos con una plataforma de automatización de workflows e integración con modelo IA. Procesamos 81 alertas estancadas en la primera ejecución. Los resultados fueron prometedores pero desordenados – el modelo alucinaba nombres de herramientas, inventaba entradas de log inexistentes y ocasionalmente se contradecía. Suficiente para probar el concepto, no para confiar en él.

Semana 3-4: Framework de Agentes Estructurado

Migramos de workflows a un SDK de agentes con herramientas CLI estructuradas. Cada herramienta tiene un schema tipado, validación de inputs y formato de output determinista. El modelo ya no escribe texto libre para sus acciones – llama a herramientas definidas con parámetros validados. La tasa de error cayó dramáticamente.

Semana 5-6: Investigación y Contención

Añadimos Tier 3 (investigación paralela) y Tier 3.5 (contención graduada). El modelo de investigación en 7 fases surgió de observar lo que los analistas humanos realmente hacen con una alerta compleja. El framework SAL vino de nuestras definiciones existentes de severidad de incidentes.

Semana 7-8: Gobernanza y Hardening

Construimos la capa de gobernanza, escribimos 1700+ tests, establecimos 4 gates CI (lint, unit, integración, simulación end-to-end). Añadimos firma HMAC a los bundles de evidencia. Ejecutamos un ejercicio de red team donde alimentamos alertas adversariales intencionalmente para testear la resiliencia de los agentes.

Resultados

Después de 8 semanas en producción:

Tiempo de triage por alerta: ~3 minutos (antes 15-30 minutos manual)
Mejora de velocidad: 5-10x en todo el pipeline
Tasa de investigación: 100% (cada alerta recibe al menos procesamiento Tier 1+2)
Tasa de escalación humana: menos del 5%
Backlog de alertas: cero (desde 112 alertas estancadas al inicio)

La mayor victoria no fue la velocidad – fue la cobertura. Antes, las alertas de baja prioridad se quedaban en backlog durante días o semanas. Ahora cada alerta se procesa en minutos desde que se dispara, independientemente de la prioridad.

Lo Que Haría Diferente

Empezar con Tier 2 desde el día uno. Añadimos validación dual en la semana 4. Los cierres falsos de las semanas 1-3 (sin validación independiente) crearon deuda de confianza que tardó semanas en recuperarse con los stakeholders.

Invertir en observabilidad temprano. La capa de gobernanza no debería ser lo último que construyes. Instrumenta cada decisión de agente desde el inicio. No puedes mejorar lo que no puedes medir.

No subestimar el trabajo de schemas de herramientas. El 60% de nuestro tiempo de desarrollo fue construir herramientas CLI fiables y bien tipadas para que los agentes las usen. No es trabajo glamuroso, pero es la base. Un modelo es tan bueno como las herramientas que puede usar.

Testear con inputs adversariales. Las alertas normales son fáciles. Los casos difíciles son alertas que parecen benignas pero no lo son, o alertas que parecen críticas pero son ruido. Construye tu suite de tests alrededor de edge cases, no de happy paths.

Planificar para el desacuerdo entre agentes. Cuando Tier 1 y Tier 2 no coinciden, necesitas un protocolo claro de resolución. Nosotros pasamos una semana resolviéndolo reactivamente. Defínelo desde el principio.

Construir un SOC multi-agente no es reemplazar analistas. Es dar a cada alerta la investigación que merece, y dar a los analistas el tiempo para centrarse en lo que solo los humanos pueden hacer: entender la intención del adversario, mejorar defensas sistémicamente y tomar decisiones de juicio que requieren contexto organizacional.

La arquitectura de 14 agentes no es el estado final. Es un framework que crece a medida que la confianza crece. Empieza con Tier 1, demuestra que funciona, añade validación, demuestra que funciona, y sigue subiendo. El modelo de tiers te da checkpoints naturales para expandir la automatización de forma segura.

Artículos relacionados:

De 8.000 a 3.000 alertas/semana con IA — los resultados medibles de la primera iteración de este sistema.
El IC Score: fórmula con IA para triage de alertas SOC — la fórmula de scoring que usa el Tier 1 para priorizar alertas.
Guardrails para agentes de seguridad IA en producción — cómo asegurar agentes con acceso privilegiado a tu infraestructura.