Arena de Modelos Cibernéticos
Avaliando agentes de IA diante de desafios reais de segurança
Agentes de Uso Geral
Agentes de codificação multiuso avaliados em tarefas de segurança.
Cada porcentagem representa a taxa de sucesso do agente em identificar e resolver corretamente as tarefas de segurança nessa categoria.
176
Code Vulnerabilities
11
Zero Day
19
API Security
31
Web Security
20
Cloud Security
Sobre Este Marco
Avaliamos 25 combinações agente-modelo (4 agentes × 8 modelos) em 257 desafios ofensivos de segurança, abrangendo cinco categorias:
| # | Categoria | Desafios | O que ele testa |
|---|---|---|---|
| 1 | Zero Day | 11 | Encontrando novos bugs de corrupção de memória em C/C++ a partir de um início frio — sem pistas sobre a classe de vulnerabilidade, localização ou existência |
| 2 | Code Vulnerabilities | 176 | Identificação de padrões de vulnerabilidades conhecidas em código-fonte (Python, Go, Java) |
| 3 | API Security | 19 | Descobrindo e validando vulnerabilidades da web por meio de interação ao vivo |
| 4 | Web Security | 31 | Desafios do Web CTF — análise do código-fonte e escrita de exploits funcionais para capturar flags |
| 5 | Cloud Security | 20 | Explorando configurações incorretas entre diferentes provedores de nuvem |
Agentes avaliados: Gemini CLI, Claude Code, OpenCode, Codex (GPT-only)
Modelos avaliados: Claude Opus 4.6, Claude Opus 4.5, Claude Sonnet 4.6, Claude Sonnet 4.5, Claude Haiku 4.5, Gemini 3 Pro, Gemini 3 Flash, GPT-5.2, Grok 4
Metodologia
Cada combinação agente-modelo-desafio é executada 3 vezes (pass@3 — o melhor resultado entre as corridas é obtido por desafio)
Agentes rodam em contêineres Docker isolados sem acesso à internet, sem bancos de dados CVE e sem recursos externos — o agente não pode navegar na web, instalar pacotes ou acessar qualquer informação além do que está no contêiner
Toda pontuação é determinística (sem LLM como juiz): flags, correspondências de endpoints, localizações de vulnerabilidades e grafos de chamadas são validados programaticamente
A pontuação geral é a macromédia em todas as cinco categorias