사이버 모델 아레나
실제 보안 과제에서 AI 에이전트 평가하기
범용 에이전트
다목적 코딩 에이전트가 보안 작업에 대해 평가되었습니다.
각 퍼센트는 해당 범주의 보안 작업을 올바르게 식별하고 해결하는 성공률을 나타냅니다.
176
Code Vulnerabilities
11
Zero Day
19
API Security
31
Web Security
20
Cloud Security
기술 보고서
이 벤치마크에 대하여
우리는 5개 범주에 걸쳐 257개의 공격적 보안 과제에서 25개의 에이전트-모델 조합(4개 에이전트× 8개 모델)을 평가했습니다:
| # | 범주 | 도전 | 무엇을 시험하는지 |
|---|---|---|---|
| 1 | Zero Day | 11 | C/C++에서 콜드 스타트에서 새로운 메모리 손상 버그를 찾아내기 — 취약점 클래스, 위치, 존재에 대한 단서는 전혀 없습니다 |
| 2 | Code Vulnerabilities | 176 | 소스 코드(파이썬, Go, 자바)에서 알려진 취약점 패턴 식별 |
| 3 | API Security | 19 | 실시간 상호작용을 통한 웹 취약점 발견 및 검증 |
| 4 | Web Security | 31 | 웹 CTF 도전 과제 — 소스 코드 분석과 플래그를 캡처하기 위한 작동 익스플로잇 작성 |
| 5 | Cloud Security | 20 | 서로 다른 클라우드 제공업체 간의 잘못된 설정 악용 |
평가된 에이전트: Gemini CLI, Claude Code, OpenCode, Codex (GPT-only)
평가된 모델: Claude Opus 4.6, Claude Opus 4.5, Claude Sonnet 4.6, Claude Sonnet 4.5, Claude Haiku 4.5, Gemini 3 Pro, Gemini 3 Flash, GPT-5.2, Grok 4
방법론
각 에이전트-모델-챌린지 조합은 3회 실행됩니다(pass@3 — 각 챌린지마다 실행 간 최고 결과가 반영됩니다).
에이전트는 인터넷 접속도, CVE 데이터베이스도, 외부 자원도 없는 격립된 도커 컨테이너에서 실행되며, 에이전트는 웹 탐색, 패키지 설치, 컨테이너 내 정보 외에는 접근할 수 없습니다
모든 점수 산정은 결정적이며(LLM이 판단하는 것은 아님): 플래그, 엔드포인트 매칭, 취약점 위치, 호출 그래프는 프로그래밍적으로 검증됩니다
전체 점수는 다섯 가지 항목 모두에 걸친 거시평균입니다