Cyber Model Arena
Valutazione degli agenti IA attraverso sfide reali di sicurezza
Agenti a Scopo Generale
Agenti di codifica multiuso valutati su compiti di sicurezza.
Ogni percentuale rappresenta il tasso di successo dell'agente nell'identificare e risolvere correttamente i compiti di sicurezza in quella categoria.
176
Code Vulnerabilities
11
Zero Day
19
API Security
31
Web Security
20
Cloud Security
Informazioni su questo benchmark
Abbiamo valutato 25 combinazioni agente-modello (4 agenti × 8 modelli) su 257 sfide di sicurezza offensive che coprono cinque categorie:
| # | Categoria | Sfide | Cosa mette alla prova |
|---|---|---|---|
| 1 | Zero Day | 11 | Trovare nuovi bug di corruzione della memoria in C/C++ da un inizio a zero — nessun indizio sulla classe di vulnerabilità, la posizione o l'esistenza |
| 2 | Code Vulnerabilities | 176 | Identificazione di schemi di vulnerabilità note nel codice sorgente (Python, Go, Java) |
| 3 | API Security | 19 | Scoprire e convalidare vulnerabilità web attraverso l'interazione live |
| 4 | Web Security | 31 | Web CTF sfide — analisi del codice sorgente e scrittura di exploit funzionanti per catturare flag |
| 5 | Cloud Security | 20 | Sfruttare le configurazioni errate tra diversi provider cloud |
Agenti valutati: Gemini CLI, Claude Code, OpenCode, Codex (GPT-only)
Modelli valutati: Claude Opus 4.6, Claude Opus 4.5, Claude Sonnet 4.6, Claude Sonnet 4.5, Claude Haiku 4.5, Gemini 3 Pro, Gemini 3 Flash, GPT-5.2, Grok 4
Metodologia
Ogni combinazione agente-modello-sfida viene eseguita 3 volte (pass@3 — il miglior risultato tra le run viene ottenuto per ogni sfida)
Gli agenti girano in container Docker isolati senza accesso a internet, senza database CVE e senza risorse esterne — l'agente non può navigare sul web, installare pacchetti o accedere a qualsiasi informazione oltre a quella contenuta nel container
Tutti i punteggi sono deterministici (senza LLM come giudice): flag, corrispondenze degli endpoint, posizioni di vulnerabilità e grafi di chiamata sono convalidati in modo programmativo
Il punteggio complessivo è la macro-media in tutte e cinque le categorie