Cyber Model Arena

Bewertung von KI-Agenten über reale Sicherheitsherausforderungen hinweg

Allgemeinzweckagenten

Vielseitige Codierer, die bei Sicherheitsaufgaben bewertet werden.

Jeder Prozentsatz zeigt die Erfolgsrate des Agenten bei der korrekten Identifizierung und Lösung der Sicherheitsaufgaben in dieser Kategorie.

#	Agentenkonfiguration	Code Vulns	API Security	Web Security	Cloud Security	Overall	Avg Time
1	Claude Opus 4.6 Claude Code	49.4%	84.2%	41.9%	35%	47.6%	8.2 min
2	Gemini 3.1 Pro Gemini CLI	42.9%	78.9%	41.9%	35%	47%	7.3 min
3	Gemini 3.1 Pro Claude Code	35.2%	84.2%	41.9%	35%	44.7%	8.9 min
4	Claude Opus 4.7 Claude Code	43.8%	74%	51.6%	30%	43.8%	9.2 min
5	Gemini 3 Pro Gemini CLI	28.8%	73.7%	38.7%	40%	41.7%	6.9 min
6	Claude Opus 4.5 Claude Code	42.9%	78.9%	35.5%	30%	41.1%	5.5 min
7	Gemini 3 Pro Claude Code	35.2%	84.2%	35.5%	30%	40.6%	8.8 min
8	Claude Opus 4.8 Claude Code	39.2%	90%	51.6%	30%	39.2%	9.1 min
9	Claude Sonnet 4.6 Claude Code	42.9%	78.9%	38.7%	25%	38.9%	5.6 min
10	Gemini 3.5 Flash Claude Code	38.1%	42%	51.6%	20%	38.1%	6.1 min
11	Gemini 3 Flash Gemini CLI	27.5%	78.9%	35.5%	30%	38%	6.1 min
12	Claude Opus 4.6 OpenCode	15.1%	78.9%	41.9%	30%	36.8%	4.9 min
13	Gemini 3 Flash Claude Code	32.5%	73.7%	41.9%	20%	35.4%	5.1 min
14	Claude Opus 4.5 OpenCode	13.9%	73.7%	38.7%	25%	33.9%	4.5 min
15	Claude Sonnet 4.5 Claude Code	46.6%	68.4%	25.8%	20%	32.2%	6.2 min
16	Gemini 3.5 Flash Gemini CLI	29.8%	42%	6.5%	30%	29.8%	6.4 min
17	Claude Sonnet 4.6 OpenCode	14%	73.7%	35.5%	15%	29.5%	4.2 min
18	Claude Haiku 4.5 Claude Code	39.2%	72.4%	19.4%	15%	29.2%	4.7 min
19	Claude Opus 4.6 Gemini CLI	12.3%	36.8%	38.7%	25%	26.2%	3.7 min
20	Claude Sonnet 4.6 Gemini CLI	6%	57.9%	32.3%	20%	25.1%	3.2 min
21	Grok 4 Gemini CLI	17.2%	76.3%	19.4%	10%	24.6%	6.4 min
22	GPT-5.2 Codex	36.6%	55.3%	19.4%	10%	24.3%	6.2 min
23	Claude Opus 4.5 Gemini CLI	8.7%	27.6%	38.7%	25%	23.6%	3.5 min
24	Claude Sonnet 4.5 OpenCode	12%	68.4%	22.6%	10%	22.6%	4.4 min
25	Grok 4 Claude Code	35%	36.8%	16.1%	15%	20.6%	8 min
26	Claude Haiku 4.5 OpenCode	8.7%	68.4%	9.7%	10%	19.4%	4.2 min
27	Claude Sonnet 4.5 Gemini CLI	0.4%	51.3%	19.4%	15%	19%	3.4 min
28	GPT-5.2 Claude Code	9.3%	67.1%	6.5%	5%	17.6%	2.4 min
29	Gemini 3 Pro OpenCode	12.2%	38.2%	6.5%	15%	16.2%	3.3 min
30	Gemini 3.1 Pro OpenCode	13.9%	15.8%	9.7%	20%	15.5%	3.5 min
31	Claude Haiku 4.5 Gemini CLI	3.5%	36.8%	16.1%	5%	12.3%	2.6 min
32	GPT-5.2 OpenCode	23.9%	28.9%	3.2%	5%	12.2%	4.6 min
33	Grok 4 OpenCode	17%	10.5%	12.9%	15%	11.1%	4.7 min
34	Gemini 3 Flash OpenCode	10.5%	25%	3.2%	10%	9.7%	2.8 min
35	GPT-5.2 Gemini CLI	1.3%	31.6%	3.2%	0%	7.2%	2.6 min

176

Code Vulnerabilities

19

API Security

31

Web Security

20

Cloud Security

Technischer Bericht

Lesen Sie den vollständigen Bericht

Über diesen Benchmark

Wir bewerteten 25 Agenten-Modell-Kombinationen (4 Agenten × 8 Modelle) in 257 offensiven Sicherheitsherausforderungen in fünf Kategorien:

#	Kategorie	Herausforderungen	Was es testet
1	Code Vulnerabilities	176	Erkennung bekannter Schwachstellenmuster im Quellcode (Python, Go, Java)
2	API Security	19	Entdeckung und Validierung von Web-Schwachstellen durch Live-Interaktion
3	Web Security	31	Web-CTF-Herausforderungen – Analyse von Quellcode und Schreiben funktionierender Exploits, um Flags zu erfassen
4	Cloud Security	20	Ausnutzung von Fehlkonfigurationen zwischen verschiedenen Cloud-Anbietern

Bewertete Agenten: Gemini CLI, Claude Code, OpenCode, Codex (GPT-only)

Bewertete Modelle: Claude Opus 4.8, Claude Opus 4.7, Claude Opus 4.6, Claude Opus 4.5, Claude Sonnet 4.6, Claude Sonnet 4.5, Claude Haiku 4.5, Gemini 3 Pro, Gemini 3.5 Flash, Gemini 3 Flash, GPT-5.2, Grok 4

Methodik

Jede Kombination aus Agent-Modell-Herausforderung wird dreimal durchgeführt (pass@3 – das beste Ergebnis über alle Durchläufe hinweg wird pro Herausforderung erzielt)
Agenten laufen in isolierten Docker-Containern ohne Internetzugang, ohne CVE-Datenbanken und ohne externe Ressourcen – der Agent kann nicht im Web surfen, Pakete installieren oder auf Informationen über die im Container hinaus Zugriff haben
Alle Bewertungen sind deterministisch (kein LLM als Richter): Flags, Endpunkt-Übereinstimmungen, Schwachstellenstandorte und Aufrufgraphen werden programmatisch validiert
Der Gesamtwert ist der Makrodurchschnitt in allen fünf Kategorien