Arena de Modelos Cibernéticos
Evaluando agentes de IA frente a desafíos reales de seguridad
Agentes de propósito general
Agentes de codificación multipropósito evaluados en tareas de seguridad.
Cada porcentaje representa la tasa de éxito del agente para identificar y resolver correctamente las tareas de seguridad en esa categoría.
176
Code Vulnerabilities
11
Zero Day
19
API Security
31
Web Security
20
Cloud Security
Acerca de este punto de referencia
Evaluamos 25 combinaciones agente-modelo (4 agentes × 8 modelos) a lo largo de 257 desafíos ofensivos de seguridad que abarcan cinco categorías:
| # | Categoría | Desafíos | Lo que pone a prueba |
|---|---|---|---|
| 1 | Zero Day | 11 | Encontrar nuevos errores de corrupción de memoria en C/C++ desde un inicio en frío — sin pistas sobre la clase de vulnerabilidad, ubicación o existencia |
| 2 | Code Vulnerabilities | 176 | Identificación de patrones de vulnerabilidades conocidos en código fuente (Python, Go, Java) |
| 3 | API Security | 19 | Descubrir y validar vulnerabilidades web mediante interacción en vivo |
| 4 | Web Security | 31 | Desafíos web CTF — analizar código fuente y escribir exploits funcionales para capturar flags |
| 5 | Cloud Security | 20 | Explotación de configuraciones erróneas entre diferentes proveedores de nube |
Agentes evaluados: Gemini CLI, Claude Code, OpenCode, Codex (GPT-only)
Modelos evaluados: Claude Opus 4.6, Claude Opus 4.5, Claude Sonnet 4.6, Claude Sonnet 4.5, Claude Haiku 4.5, Gemini 3 Pro, Gemini 3 Flash, GPT-5.2, Grok 4
Metodología
Cada combinación agente-modelo-desafío se ejecuta 3 veces (pass@3 — el mejor resultado entre partidas se obtiene por desafío)
Los agentes se ejecutan en contenedores Docker aislados sin acceso a internet, sin bases de datos CVE ni recursos externos; el agente no puede navegar por la web, instalar paquetes ni acceder a ninguna información más allá de lo que contiene el contenedor
Toda la puntuación es determinista (sin LLM como juez): las banderas, coincidencias de endpoints, ubicaciones de vulnerabilidades y grafos de llamadas se validan programáticamente
La puntuación global es el macropromedio en las cinco categorías