Arena de Modelos Cibernéticos

Evaluando agentes de IA frente a desafíos reales de seguridad

Agentes de propósito general

Agentes de codificación multipropósito evaluados en tareas de seguridad.

Cada porcentaje representa la tasa de éxito del agente para identificar y resolver correctamente las tareas de seguridad en esa categoría.

#	Configuración del agente	Zero Day	Code Vulns	API Security	Web Security	Cloud Security	Overall	Avg Time
1	Claude Opus 4.6 Claude Code	27.3%	49.4%	84.2%	41.9%	35%	47.6%	8.2 min
2	Gemini 3.1 Pro Gemini CLI	36.4%	42.9%	78.9%	41.9%	35%	47%	7.3 min
3	Gemini 3.1 Pro Claude Code	27.3%	35.2%	84.2%	41.9%	35%	44.7%	8.9 min
4	Gemini 3 Pro Gemini CLI	27.3%	28.8%	73.7%	38.7%	40%	41.7%	6.9 min
5	Claude Opus 4.5 Claude Code	18.2%	42.9%	78.9%	35.5%	30%	41.1%	5.5 min
6	Gemini 3 Pro Claude Code	18.2%	35.2%	84.2%	35.5%	30%	40.6%	8.8 min
7	Claude Sonnet 4.6 Claude Code	9.1%	42.9%	78.9%	38.7%	25%	38.9%	5.6 min
8	Gemini 3 Flash Gemini CLI	18.2%	27.5%	78.9%	35.5%	30%	38%	6.1 min
9	Claude Opus 4.6 OpenCode	18.2%	15.1%	78.9%	41.9%	30%	36.8%	4.9 min
10	Gemini 3 Flash Claude Code	9.1%	32.5%	73.7%	41.9%	20%	35.4%	5.1 min
11	Claude Opus 4.5 OpenCode	18.2%	13.9%	73.7%	38.7%	25%	33.9%	4.5 min
12	Claude Sonnet 4.5 Claude Code	0%	46.6%	68.4%	25.8%	20%	32.2%	6.2 min
13	Claude Sonnet 4.6 OpenCode	9.1%	14%	73.7%	35.5%	15%	29.5%	4.2 min
14	Claude Haiku 4.5 Claude Code	0%	39.2%	72.4%	19.4%	15%	29.2%	4.7 min
15	Claude Opus 4.6 Gemini CLI	18.2%	12.3%	36.8%	38.7%	25%	26.2%	3.7 min
16	Claude Sonnet 4.6 Gemini CLI	9.1%	6%	57.9%	32.3%	20%	25.1%	3.2 min
17	Grok 4 Gemini CLI	0%	17.2%	76.3%	19.4%	10%	24.6%	6.4 min
18	GPT-5.2 Codex	0%	36.6%	55.3%	19.4%	10%	24.3%	6.2 min
19	Claude Opus 4.5 Gemini CLI	18.2%	8.7%	27.6%	38.7%	25%	23.6%	3.5 min
20	Claude Sonnet 4.5 OpenCode	0%	12%	68.4%	22.6%	10%	22.6%	4.4 min
21	Grok 4 Claude Code	0%	35%	36.8%	16.1%	15%	20.6%	8 min
22	Claude Haiku 4.5 OpenCode	0%	8.7%	68.4%	9.7%	10%	19.4%	4.2 min
23	Claude Sonnet 4.5 Gemini CLI	9.1%	0.4%	51.3%	19.4%	15%	19%	3.4 min
24	GPT-5.2 Claude Code	0%	9.3%	67.1%	6.5%	5%	17.6%	2.4 min
25	Gemini 3 Pro OpenCode	9.1%	12.2%	38.2%	6.5%	15%	16.2%	3.3 min
26	Gemini 3.1 Pro OpenCode	18.2%	13.9%	15.8%	9.7%	20%	15.5%	3.5 min
27	Claude Haiku 4.5 Gemini CLI	0%	3.5%	36.8%	16.1%	5%	12.3%	2.6 min
28	GPT-5.2 OpenCode	0%	23.9%	28.9%	3.2%	5%	12.2%	4.6 min
29	Grok 4 OpenCode	0%	17%	10.5%	12.9%	15%	11.1%	4.7 min
30	Gemini 3 Flash OpenCode	0%	10.5%	25%	3.2%	10%	9.7%	2.8 min
31	GPT-5.2 Gemini CLI	0%	1.3%	31.6%	3.2%	0%	7.2%	2.6 min

176

Code Vulnerabilities

11

Zero Day

19

API Security

31

Web Security

20

Cloud Security

Informe técnico

Leer informe completo

Acerca de este punto de referencia

Evaluamos 25 combinaciones agente-modelo (4 agentes × 8 modelos) a lo largo de 257 desafíos ofensivos de seguridad que abarcan cinco categorías:

#	Categoría	Desafíos	Lo que pone a prueba
1	Zero Day	11	Encontrar nuevos errores de corrupción de memoria en C/C++ desde un inicio en frío — sin pistas sobre la clase de vulnerabilidad, ubicación o existencia
2	Code Vulnerabilities	176	Identificación de patrones de vulnerabilidades conocidos en código fuente (Python, Go, Java)
3	API Security	19	Descubrir y validar vulnerabilidades web mediante interacción en vivo
4	Web Security	31	Desafíos web CTF — analizar código fuente y escribir exploits funcionales para capturar flags
5	Cloud Security	20	Explotación de configuraciones erróneas entre diferentes proveedores de nube

Agentes evaluados: Gemini CLI, Claude Code, OpenCode, Codex (GPT-only)

Modelos evaluados: Claude Opus 4.6, Claude Opus 4.5, Claude Sonnet 4.6, Claude Sonnet 4.5, Claude Haiku 4.5, Gemini 3 Pro, Gemini 3 Flash, GPT-5.2, Grok 4

Metodología

Cada combinación agente-modelo-desafío se ejecuta 3 veces (pass@3 — el mejor resultado entre partidas se obtiene por desafío)
Los agentes se ejecutan en contenedores Docker aislados sin acceso a internet, sin bases de datos CVE ni recursos externos; el agente no puede navegar por la web, instalar paquetes ni acceder a ninguna información más allá de lo que contiene el contenedor
Toda la puntuación es determinista (sin LLM como juez): las banderas, coincidencias de endpoints, ubicaciones de vulnerabilidades y grafos de llamadas se validan programáticamente
La puntuación global es el macropromedio en las cinco categorías