사이버 모델 아레나

실제 보안 과제에서 AI 에이전트 평가하기

범용 에이전트

다목적 코딩 에이전트가 보안 작업에 대해 평가되었습니다.

각 퍼센트는 해당 범주의 보안 작업을 올바르게 식별하고 해결하는 성공률을 나타냅니다.

#	에이전트 구성	Zero Day	Code Vulns	API Security	Web Security	Cloud Security	Overall	Avg Time
1	Claude Opus 4.6 Claude Code	27.3%	49.4%	84.2%	41.9%	35%	47.6%	8.2 min
2	Gemini 3.1 Pro Gemini CLI	36.4%	42.9%	78.9%	41.9%	35%	47%	7.3 min
3	Gemini 3.1 Pro Claude Code	27.3%	35.2%	84.2%	41.9%	35%	44.7%	8.9 min
4	Gemini 3 Pro Gemini CLI	27.3%	28.8%	73.7%	38.7%	40%	41.7%	6.9 min
5	Claude Opus 4.5 Claude Code	18.2%	42.9%	78.9%	35.5%	30%	41.1%	5.5 min
6	Gemini 3 Pro Claude Code	18.2%	35.2%	84.2%	35.5%	30%	40.6%	8.8 min
7	Claude Sonnet 4.6 Claude Code	9.1%	42.9%	78.9%	38.7%	25%	38.9%	5.6 min
8	Gemini 3 Flash Gemini CLI	18.2%	27.5%	78.9%	35.5%	30%	38%	6.1 min
9	Claude Opus 4.6 OpenCode	18.2%	15.1%	78.9%	41.9%	30%	36.8%	4.9 min
10	Gemini 3 Flash Claude Code	9.1%	32.5%	73.7%	41.9%	20%	35.4%	5.1 min
11	Claude Opus 4.5 OpenCode	18.2%	13.9%	73.7%	38.7%	25%	33.9%	4.5 min
12	Claude Sonnet 4.5 Claude Code	0%	46.6%	68.4%	25.8%	20%	32.2%	6.2 min
13	Claude Sonnet 4.6 OpenCode	9.1%	14%	73.7%	35.5%	15%	29.5%	4.2 min
14	Claude Haiku 4.5 Claude Code	0%	39.2%	72.4%	19.4%	15%	29.2%	4.7 min
15	Claude Opus 4.6 Gemini CLI	18.2%	12.3%	36.8%	38.7%	25%	26.2%	3.7 min
16	Claude Sonnet 4.6 Gemini CLI	9.1%	6%	57.9%	32.3%	20%	25.1%	3.2 min
17	Grok 4 Gemini CLI	0%	17.2%	76.3%	19.4%	10%	24.6%	6.4 min
18	GPT-5.2 Codex	0%	36.6%	55.3%	19.4%	10%	24.3%	6.2 min
19	Claude Opus 4.5 Gemini CLI	18.2%	8.7%	27.6%	38.7%	25%	23.6%	3.5 min
20	Claude Sonnet 4.5 OpenCode	0%	12%	68.4%	22.6%	10%	22.6%	4.4 min
21	Grok 4 Claude Code	0%	35%	36.8%	16.1%	15%	20.6%	8 min
22	Claude Haiku 4.5 OpenCode	0%	8.7%	68.4%	9.7%	10%	19.4%	4.2 min
23	Claude Sonnet 4.5 Gemini CLI	9.1%	0.4%	51.3%	19.4%	15%	19%	3.4 min
24	GPT-5.2 Claude Code	0%	9.3%	67.1%	6.5%	5%	17.6%	2.4 min
25	Gemini 3 Pro OpenCode	9.1%	12.2%	38.2%	6.5%	15%	16.2%	3.3 min
26	Gemini 3.1 Pro OpenCode	18.2%	13.9%	15.8%	9.7%	20%	15.5%	3.5 min
27	Claude Haiku 4.5 Gemini CLI	0%	3.5%	36.8%	16.1%	5%	12.3%	2.6 min
28	GPT-5.2 OpenCode	0%	23.9%	28.9%	3.2%	5%	12.2%	4.6 min
29	Grok 4 OpenCode	0%	17%	10.5%	12.9%	15%	11.1%	4.7 min
30	Gemini 3 Flash OpenCode	0%	10.5%	25%	3.2%	10%	9.7%	2.8 min
31	GPT-5.2 Gemini CLI	0%	1.3%	31.6%	3.2%	0%	7.2%	2.6 min

176

Code Vulnerabilities

11

Zero Day

19

API Security

31

Web Security

20

Cloud Security

기술 보고서

전체 보고서 읽기

이 벤치마크에 대하여

우리는 5개 범주에 걸쳐 257개의 공격적 보안 과제에서 25개의 에이전트-모델 조합(4개 에이전트× 8개 모델)을 평가했습니다:

#	범주	도전	무엇을 시험하는지
1	Zero Day	11	C/C++에서 콜드 스타트에서 새로운 메모리 손상 버그를 찾아내기 — 취약점 클래스, 위치, 존재에 대한 단서는 전혀 없습니다
2	Code Vulnerabilities	176	소스 코드(파이썬, Go, 자바)에서 알려진 취약점 패턴 식별
3	API Security	19	실시간 상호작용을 통한 웹 취약점 발견 및 검증
4	Web Security	31	웹 CTF 도전 과제 — 소스 코드 분석과 플래그를 캡처하기 위한 작동 익스플로잇 작성
5	Cloud Security	20	서로 다른 클라우드 제공업체 간의 잘못된 설정 악용

평가된 에이전트: Gemini CLI, Claude Code, OpenCode, Codex (GPT-only)

평가된 모델: Claude Opus 4.6, Claude Opus 4.5, Claude Sonnet 4.6, Claude Sonnet 4.5, Claude Haiku 4.5, Gemini 3 Pro, Gemini 3 Flash, GPT-5.2, Grok 4

방법론

각 에이전트-모델-챌린지 조합은 3회 실행됩니다(pass@3 — 각 챌린지마다 실행 간 최고 결과가 반영됩니다).
에이전트는 인터넷 접속도, CVE 데이터베이스도, 외부 자원도 없는 격립된 도커 컨테이너에서 실행되며, 에이전트는 웹 탐색, 패키지 설치, 컨테이너 내 정보 외에는 접근할 수 없습니다
모든 점수 산정은 결정적이며(LLM이 판단하는 것은 아님): 플래그, 엔드포인트 매칭, 취약점 위치, 호출 그래프는 프로그래밍적으로 검증됩니다
전체 점수는 다섯 가지 항목 모두에 걸친 거시평균입니다