Cyber Model Arena

Cyber Model Arena

Évaluer les agents IA face à des défis de sécurité réels

Cyber Model ArenaCyber Model Arena
Cyber Model Arena

Agents polyvalents

Agents de codage polyvalents évalués sur des tâches de sécurité.

Chaque pourcentage représente le taux de réussite de l’agent à identifier correctement et à résoudre les tâches de sécurité dans cette catégorie.

#Configuration de l’agentZero DayCode VulnsAPI SecurityWeb SecurityCloud SecurityOverallAvg Time
1
Claude Code
Claude Opus 4.6
Claude Code
27.3%49.4%84.2%41.9%35%47.6%8.2 min
2
Gemini CLI
Gemini 3.1 Pro
Gemini CLI
36.4%42.9%78.9%41.9%35%47%7.3 min
3
Claude Code
Gemini 3.1 Pro
Claude Code
27.3%35.2%84.2%41.9%35%44.7%8.9 min
4
Gemini CLI
Gemini 3 Pro
Gemini CLI
27.3%28.8%73.7%38.7%40%41.7%6.9 min
5
Claude Code
Claude Opus 4.5
Claude Code
18.2%42.9%78.9%35.5%30%41.1%5.5 min
6
Claude Code
Gemini 3 Pro
Claude Code
18.2%35.2%84.2%35.5%30%40.6%8.8 min
7
Claude Code
Claude Sonnet 4.6
Claude Code
9.1%42.9%78.9%38.7%25%38.9%5.6 min
8
Gemini CLI
Gemini 3 Flash
Gemini CLI
18.2%27.5%78.9%35.5%30%38%6.1 min
9
OpenCode
Claude Opus 4.6
OpenCode
18.2%15.1%78.9%41.9%30%36.8%4.9 min
10
Claude Code
Gemini 3 Flash
Claude Code
9.1%32.5%73.7%41.9%20%35.4%5.1 min
11
OpenCode
Claude Opus 4.5
OpenCode
18.2%13.9%73.7%38.7%25%33.9%4.5 min
12
Claude Code
Claude Sonnet 4.5
Claude Code
0%46.6%68.4%25.8%20%32.2%6.2 min
13
OpenCode
Claude Sonnet 4.6
OpenCode
9.1%14%73.7%35.5%15%29.5%4.2 min
14
Claude Code
Claude Haiku 4.5
Claude Code
0%39.2%72.4%19.4%15%29.2%4.7 min
15
Gemini CLI
Claude Opus 4.6
Gemini CLI
18.2%12.3%36.8%38.7%25%26.2%3.7 min
16
Gemini CLI
Claude Sonnet 4.6
Gemini CLI
9.1%6%57.9%32.3%20%25.1%3.2 min
17
Gemini CLI
Grok 4
Gemini CLI
0%17.2%76.3%19.4%10%24.6%6.4 min
18
Codex
GPT-5.2
Codex
0%36.6%55.3%19.4%10%24.3%6.2 min
19
Gemini CLI
Claude Opus 4.5
Gemini CLI
18.2%8.7%27.6%38.7%25%23.6%3.5 min
20
OpenCode
Claude Sonnet 4.5
OpenCode
0%12%68.4%22.6%10%22.6%4.4 min
21
Claude Code
Grok 4
Claude Code
0%35%36.8%16.1%15%20.6%8 min
22
OpenCode
Claude Haiku 4.5
OpenCode
0%8.7%68.4%9.7%10%19.4%4.2 min
23
Gemini CLI
Claude Sonnet 4.5
Gemini CLI
9.1%0.4%51.3%19.4%15%19%3.4 min
24
Claude Code
GPT-5.2
Claude Code
0%9.3%67.1%6.5%5%17.6%2.4 min
25
OpenCode
Gemini 3 Pro
OpenCode
9.1%12.2%38.2%6.5%15%16.2%3.3 min
26
OpenCode
Gemini 3.1 Pro
OpenCode
18.2%13.9%15.8%9.7%20%15.5%3.5 min
27
Gemini CLI
Claude Haiku 4.5
Gemini CLI
0%3.5%36.8%16.1%5%12.3%2.6 min
28
OpenCode
GPT-5.2
OpenCode
0%23.9%28.9%3.2%5%12.2%4.6 min
29
OpenCode
Grok 4
OpenCode
0%17%10.5%12.9%15%11.1%4.7 min
30
OpenCode
Gemini 3 Flash
OpenCode
0%10.5%25%3.2%10%9.7%2.8 min
31
Gemini CLI
GPT-5.2
Gemini CLI
0%1.3%31.6%3.2%0%7.2%2.6 min
Code Vulns

176

Code Vulnerabilities

Code Vulns

11

Zero Day

Code Vulns

19

API Security

Code Vulns

31

Web Security

Code Vulns

20

Cloud Security

Rapport technique

À propos de ce benchmark

Nous avons évalué 25 combinaisons agent-modèle (4 agents × 8 modèles) réparties sur 257 défis offensifs de sécurité répartis en cinq catégories :

#CatégorieDéfisCe que ça teste
1Zero Day11Trouver de nouveaux bugs de corruption de mémoire en C/C++ à partir d’un départ à froid — aucun indice sur la classe de vulnérabilité, l’emplacement ou l’existence
2Code Vulnerabilities176Identifier les schémas de vulnérabilité connus dans le code source (Python, Go, Java)
3API Security19Découvrir et valider les vulnérabilités web par l’interaction en direct
4Web Security31Défis Web CTF — analyse du code source et écriture d’exploits fonctionnels pour capturer les flags
5Cloud Security20Exploitation des mauvaises configurations entre différents fournisseurs cloud

Agents évalués : Gemini CLI, Claude Code, OpenCode, Codex (GPT-only)

Modèles évalués : Claude Opus 4.6, Claude Opus 4.5, Claude Sonnet 4.6, Claude Sonnet 4.5, Claude Haiku 4.5, Gemini 3 Pro, Gemini 3 Flash, GPT-5.2, Grok 4

Méthodologie

  • Chaque combinaison agent-modèle-défi est exécutée 3 fois (pass@3 — le meilleur résultat entre les runs est pris par défi)

  • Les agents fonctionnent dans des conteneurs Docker isolés sans accès à Internet, sans bases de données CVE et sans ressources externes — l’agent ne peut pas naviguer sur le web, installer des paquets, ni accéder à d’autres informations que ce qui se trouve dans le conteneur

  • Tous les scores sont déterministes (sans LLM comme juge) : les drapeaux, correspondances de terminaux, emplacements de vulnérabilités et graphiques d’appels sont validés de manière programmatique

  • Le score global est la moyenne macroéconomique dans les cinq catégories