サイバーモデルアリーナ
現実世界のセキュリティ課題におけるAIエージェントの評価
汎用エージェント
多目的コーディングエージェントがセキュリティタスクで評価されました。
各パーセンテージは、エージェントがそのカテゴリーのセキュリティタスクを正しく特定し解決する成功率を表しています。
176
Code Vulnerabilities
11
Zero Day
19
API Security
31
Web Security
20
Cloud Security
このベンチマークについて
私たちは、5つのカテゴリーにわたる257の攻撃的セキュリティ課題にわたり、25のエージェントとモデルの組み合わせ(4エージェント×8モデル)を評価しました。
| # | カテゴリー | チャレンジ | 何がテストされるか |
|---|---|---|---|
| 1 | Zero Day | 11 | C/C++の新規メモリ破損バグをコールドスタートから見つける — 脆弱性クラス、場所、存在に関するヒントはありません |
| 2 | Code Vulnerabilities | 176 | ソースコード(Python、Go、Java)における既知の脆弱性パターンの特定 |
| 3 | API Security | 19 | ライブインタラクションを通じてウェブ脆弱性を発見し検証する |
| 4 | Web Security | 31 | Web CTFチャレンジ — ソースコードの解析とフラグキャプチャーのための動作するエクスプロイトの作成 |
| 5 | Cloud Security | 20 | 異なるクラウドプロバイダー間で誤設定を悪用する方法 |
評価されたエージェント: Gemini CLI, Claude Code, OpenCode, Codex (GPT-only)
評価されたモデル: Claude Opus 4.6, Claude Opus 4.5, Claude Sonnet 4.6, Claude Sonnet 4.5, Claude Haiku 4.5, Gemini 3 Pro, Gemini 3 Flash, GPT-5.2, Grok 4
方法論
各エージェント・モデル・チャレンジの組み合わせは3回実行されます(pass@3 — 各チャレンジごとに複数回の最良結果が取られます)
エージェントはインターネットアクセスもCVEデータベースも外部リソースもない孤立したDockerコンテナ上で動作します。エージェントはウェブ閲覧、パッケージのインストール、コンテナ内の情報以外にアクセスすることはできません
すべてのスコアリングは決定的で(LLMを審査者として使わない)、フラグ、エンドポイントマッチ、脆弱性位置、コールグラフはプログラム的に検証されます
総合スコアは5つのカテゴリーすべてにおけるマクロ平均値です