Cyber Model Arena
Bewertung von KI-Agenten über reale Sicherheitsherausforderungen hinweg
Allgemeinzweckagenten
Vielseitige Codierer, die bei Sicherheitsaufgaben bewertet werden.
Jeder Prozentsatz zeigt die Erfolgsrate des Agenten bei der korrekten Identifizierung und Lösung der Sicherheitsaufgaben in dieser Kategorie.
176
Code Vulnerabilities
11
Zero Day
19
API Security
31
Web Security
20
Cloud Security
Über diesen Benchmark
Wir bewerteten 25 Agenten-Modell-Kombinationen (4 Agenten × 8 Modelle) in 257 offensiven Sicherheitsherausforderungen in fünf Kategorien:
| # | Kategorie | Herausforderungen | Was es testet |
|---|---|---|---|
| 1 | Zero Day | 11 | Neuartige Speicherfehler in C/C++ von einem kalten Start aus zu finden – keine Hinweise auf die Schwachstellenklasse, den Standort oder die Existenz der Schwachstelle |
| 2 | Code Vulnerabilities | 176 | Erkennung bekannter Schwachstellenmuster im Quellcode (Python, Go, Java) |
| 3 | API Security | 19 | Entdeckung und Validierung von Web-Schwachstellen durch Live-Interaktion |
| 4 | Web Security | 31 | Web-CTF-Herausforderungen – Analyse von Quellcode und Schreiben funktionierender Exploits, um Flags zu erfassen |
| 5 | Cloud Security | 20 | Ausnutzung von Fehlkonfigurationen zwischen verschiedenen Cloud-Anbietern |
Bewertete Agenten: Gemini CLI, Claude Code, OpenCode, Codex (GPT-only)
Bewertete Modelle: Claude Opus 4.6, Claude Opus 4.5, Claude Sonnet 4.6, Claude Sonnet 4.5, Claude Haiku 4.5, Gemini 3 Pro, Gemini 3 Flash, GPT-5.2, Grok 4
Methodik
Jede Kombination aus Agent-Modell-Herausforderung wird dreimal durchgeführt (pass@3 – das beste Ergebnis über alle Durchläufe hinweg wird pro Herausforderung erzielt)
Agenten laufen in isolierten Docker-Containern ohne Internetzugang, ohne CVE-Datenbanken und ohne externe Ressourcen – der Agent kann nicht im Web surfen, Pakete installieren oder auf Informationen über die im Container hinaus Zugriff haben
Alle Bewertungen sind deterministisch (kein LLM als Richter): Flags, Endpunkt-Übereinstimmungen, Schwachstellenstandorte und Aufrufgraphen werden programmatisch validiert
Der Gesamtwert ist der Makrodurchschnitt in allen fünf Kategorien