Cyber Model Arena
Évaluer les agents IA face à des défis de sécurité réels
Agents polyvalents
Agents de codage polyvalents évalués sur des tâches de sécurité.
Chaque pourcentage représente le taux de réussite de l’agent à identifier correctement et à résoudre les tâches de sécurité dans cette catégorie.
176
Code Vulnerabilities
11
Zero Day
19
API Security
31
Web Security
20
Cloud Security
À propos de ce benchmark
Nous avons évalué 25 combinaisons agent-modèle (4 agents × 8 modèles) réparties sur 257 défis offensifs de sécurité répartis en cinq catégories :
| # | Catégorie | Défis | Ce que ça teste |
|---|---|---|---|
| 1 | Zero Day | 11 | Trouver de nouveaux bugs de corruption de mémoire en C/C++ à partir d’un départ à froid — aucun indice sur la classe de vulnérabilité, l’emplacement ou l’existence |
| 2 | Code Vulnerabilities | 176 | Identifier les schémas de vulnérabilité connus dans le code source (Python, Go, Java) |
| 3 | API Security | 19 | Découvrir et valider les vulnérabilités web par l’interaction en direct |
| 4 | Web Security | 31 | Défis Web CTF — analyse du code source et écriture d’exploits fonctionnels pour capturer les flags |
| 5 | Cloud Security | 20 | Exploitation des mauvaises configurations entre différents fournisseurs cloud |
Agents évalués : Gemini CLI, Claude Code, OpenCode, Codex (GPT-only)
Modèles évalués : Claude Opus 4.6, Claude Opus 4.5, Claude Sonnet 4.6, Claude Sonnet 4.5, Claude Haiku 4.5, Gemini 3 Pro, Gemini 3 Flash, GPT-5.2, Grok 4
Méthodologie
Chaque combinaison agent-modèle-défi est exécutée 3 fois (pass@3 — le meilleur résultat entre les runs est pris par défi)
Les agents fonctionnent dans des conteneurs Docker isolés sans accès à Internet, sans bases de données CVE et sans ressources externes — l’agent ne peut pas naviguer sur le web, installer des paquets, ni accéder à d’autres informations que ce qui se trouve dans le conteneur
Tous les scores sont déterministes (sans LLM comme juge) : les drapeaux, correspondances de terminaux, emplacements de vulnérabilités et graphiques d’appels sont validés de manière programmatique
Le score global est la moyenne macroéconomique dans les cinq catégories