Cyber Model Arena

사이버 모델 아레나

실제 보안 과제에서 AI 에이전트 평가하기

Cyber Model ArenaCyber Model Arena
Cyber Model Arena

범용 에이전트

다목적 코딩 에이전트가 보안 작업에 대해 평가되었습니다.

각 퍼센트는 해당 범주의 보안 작업을 올바르게 식별하고 해결하는 성공률을 나타냅니다.

#에이전트 구성Zero DayCode VulnsAPI SecurityWeb SecurityCloud SecurityOverallAvg Time
1
Claude Code
Claude Opus 4.6
Claude Code
27.3%49.4%84.2%41.9%35%47.6%8.2 min
2
Gemini CLI
Gemini 3.1 Pro
Gemini CLI
36.4%42.9%78.9%41.9%35%47%7.3 min
3
Claude Code
Gemini 3.1 Pro
Claude Code
27.3%35.2%84.2%41.9%35%44.7%8.9 min
4
Gemini CLI
Gemini 3 Pro
Gemini CLI
27.3%28.8%73.7%38.7%40%41.7%6.9 min
5
Claude Code
Claude Opus 4.5
Claude Code
18.2%42.9%78.9%35.5%30%41.1%5.5 min
6
Claude Code
Gemini 3 Pro
Claude Code
18.2%35.2%84.2%35.5%30%40.6%8.8 min
7
Claude Code
Claude Sonnet 4.6
Claude Code
9.1%42.9%78.9%38.7%25%38.9%5.6 min
8
Gemini CLI
Gemini 3 Flash
Gemini CLI
18.2%27.5%78.9%35.5%30%38%6.1 min
9
OpenCode
Claude Opus 4.6
OpenCode
18.2%15.1%78.9%41.9%30%36.8%4.9 min
10
Claude Code
Gemini 3 Flash
Claude Code
9.1%32.5%73.7%41.9%20%35.4%5.1 min
11
OpenCode
Claude Opus 4.5
OpenCode
18.2%13.9%73.7%38.7%25%33.9%4.5 min
12
Claude Code
Claude Sonnet 4.5
Claude Code
0%46.6%68.4%25.8%20%32.2%6.2 min
13
OpenCode
Claude Sonnet 4.6
OpenCode
9.1%14%73.7%35.5%15%29.5%4.2 min
14
Claude Code
Claude Haiku 4.5
Claude Code
0%39.2%72.4%19.4%15%29.2%4.7 min
15
Gemini CLI
Claude Opus 4.6
Gemini CLI
18.2%12.3%36.8%38.7%25%26.2%3.7 min
16
Gemini CLI
Claude Sonnet 4.6
Gemini CLI
9.1%6%57.9%32.3%20%25.1%3.2 min
17
Gemini CLI
Grok 4
Gemini CLI
0%17.2%76.3%19.4%10%24.6%6.4 min
18
Codex
GPT-5.2
Codex
0%36.6%55.3%19.4%10%24.3%6.2 min
19
Gemini CLI
Claude Opus 4.5
Gemini CLI
18.2%8.7%27.6%38.7%25%23.6%3.5 min
20
OpenCode
Claude Sonnet 4.5
OpenCode
0%12%68.4%22.6%10%22.6%4.4 min
21
Claude Code
Grok 4
Claude Code
0%35%36.8%16.1%15%20.6%8 min
22
OpenCode
Claude Haiku 4.5
OpenCode
0%8.7%68.4%9.7%10%19.4%4.2 min
23
Gemini CLI
Claude Sonnet 4.5
Gemini CLI
9.1%0.4%51.3%19.4%15%19%3.4 min
24
Claude Code
GPT-5.2
Claude Code
0%9.3%67.1%6.5%5%17.6%2.4 min
25
OpenCode
Gemini 3 Pro
OpenCode
9.1%12.2%38.2%6.5%15%16.2%3.3 min
26
OpenCode
Gemini 3.1 Pro
OpenCode
18.2%13.9%15.8%9.7%20%15.5%3.5 min
27
Gemini CLI
Claude Haiku 4.5
Gemini CLI
0%3.5%36.8%16.1%5%12.3%2.6 min
28
OpenCode
GPT-5.2
OpenCode
0%23.9%28.9%3.2%5%12.2%4.6 min
29
OpenCode
Grok 4
OpenCode
0%17%10.5%12.9%15%11.1%4.7 min
30
OpenCode
Gemini 3 Flash
OpenCode
0%10.5%25%3.2%10%9.7%2.8 min
31
Gemini CLI
GPT-5.2
Gemini CLI
0%1.3%31.6%3.2%0%7.2%2.6 min
Code Vulns

176

Code Vulnerabilities

Code Vulns

11

Zero Day

Code Vulns

19

API Security

Code Vulns

31

Web Security

Code Vulns

20

Cloud Security

기술 보고서

이 벤치마크에 대하여

우리는 5개 범주에 걸쳐 257개의 공격적 보안 과제에서 25개의 에이전트-모델 조합(4개 에이전트× 8개 모델)을 평가했습니다:

#범주도전무엇을 시험하는지
1Zero Day11C/C++에서 콜드 스타트에서 새로운 메모리 손상 버그를 찾아내기 — 취약점 클래스, 위치, 존재에 대한 단서는 전혀 없습니다
2Code Vulnerabilities176소스 코드(파이썬, Go, 자바)에서 알려진 취약점 패턴 식별
3API Security19실시간 상호작용을 통한 웹 취약점 발견 및 검증
4Web Security31웹 CTF 도전 과제 — 소스 코드 분석과 플래그를 캡처하기 위한 작동 익스플로잇 작성
5Cloud Security20서로 다른 클라우드 제공업체 간의 잘못된 설정 악용

평가된 에이전트: Gemini CLI, Claude Code, OpenCode, Codex (GPT-only)

평가된 모델: Claude Opus 4.6, Claude Opus 4.5, Claude Sonnet 4.6, Claude Sonnet 4.5, Claude Haiku 4.5, Gemini 3 Pro, Gemini 3 Flash, GPT-5.2, Grok 4

방법론

  • 각 에이전트-모델-챌린지 조합은 3회 실행됩니다(pass@3 — 각 챌린지마다 실행 간 최고 결과가 반영됩니다).

  • 에이전트는 인터넷 접속도, CVE 데이터베이스도, 외부 자원도 없는 격립된 도커 컨테이너에서 실행되며, 에이전트는 웹 탐색, 패키지 설치, 컨테이너 내 정보 외에는 접근할 수 없습니다

  • 모든 점수 산정은 결정적이며(LLM이 판단하는 것은 아님): 플래그, 엔드포인트 매칭, 취약점 위치, 호출 그래프는 프로그래밍적으로 검증됩니다

  • 전체 점수는 다섯 가지 항목 모두에 걸친 거시평균입니다