악성 AI 모델은 의도적으로 무기화된 모형 유물 로딩되거나 실행될 때 해로운 행동을 수행하는 것. 우발적인 결함이 있는 취약한 모델과 달리, 악성 모델은 배포된 환경을 침해하도록 설계됩니다.
악성 AI 모델의 특징은 위협이 내재되어 있다는 점입니다 모델 파일 자체 내에서. 많은 경우, 공격자들은 모델 가중치나 로딩 논리 내에 실행 가능한 코드를 숨기기 위해 안전하지 않은 직렬화 형식을 악용합니다. 모델이 가져오거나 직렬 해제될 때, 그 코드는 자동으로 실행되며, 종종 추론이 이루어지기 전에 실행됩니다.
이로 인해 악의적인 AI 모델은 공급망 위협이 됩니다. 이들은 공개 저장소에서 다운로드하거나 팀 내에서 공유된 사전 학습된 모델에 조직이 신뢰를 갖는 것을 악용합니다. 모델 산출물은 전통적인 소스 코드처럼 취급되지 않기 때문에, 코드 검토, 정적 분석, 의존성 스캔과 같은 보안 통제를 자주 우회합니다.
AI 도입이 가속화됨에 따라 사전 학습된 모델은 현대 개발의 기초 단위가 되었습니다. 이러한 편리함 덕분에 모델 산출물은 고부가가치 공격 벡터로 변모했으며, 전통적인 애플리케이션 보안 도구들이 검사하도록 설계되지 않았던 공격 경로가 되었습니다.
25 AI Agents. 257 Real Attacks. Who Wins?
From zero-day discovery to cloud privilege escalation, we tested 25 agent-model combinations on 257 real-world offensive security challenges. The results might surprise you 👀

악의적인 AI 모델이 실제 공급망 위험인 이유
악성 AI 모델은 현대 소프트웨어 개발을 재구성한 동일한 힘들, 즉 재사용, 자동화, 외부 구성 요소에 대한 신뢰에서 비롯됩니다. 사전 학습된 모델은 개발 가속화, 비용 절감, 처음부터 재학습을 피하기 위해 공개 저장소에서 정기적으로 추출됩니다. 많은 조직에서 모델 다운로드와 배포는 라이브러리 설치만큼이나 일상적인 일이 되었습니다.
이 워크플로우는 내부 검토된 코드에서 신뢰를 거의 검사하지 않는 외부 산출물로 옮깁니다. 모델 파일은 종종 불투명한 바이너리로 취급되며, 애플리케이션 코드나 컨테이너 이미지에 대한 검증 없이 저장, 공유, 로드됩니다. 그 결과, 코드 검토, 정적 분석, 의존성 스캔과 같은 기존 보안 통제를 자주 우회합니다.
이 위험이 특히 심각한 이유는 악의적인 모델들이 악용하기 때문입니다 기대되는 행동. 모델 로딩은 AI 파이프라인에서 정상적이고 신뢰할 수 있는 동작입니다. 공격자가 모델 산출물에 실행 가능한 논리를 내장할 때, 그 신뢰가 전달 메커니즘이 됩니다. 익스플로잇 체인이 필요하지 않습니다; 시스템이 설계된 대로 정확히 작동하기 때문에 침해가 발생합니다.
이 때문에 악의적인 AI 모델이 공급망 위협 애플리케이션 버그가 아니라 위험은 모델이 어떻게 사용되는지에서 비롯된 것이 아니라, 어디서 왔고 어떻게 장전되는지. 모델 재사용이 팀과 환경 전반에 걸쳐 계속 확장됨에 따라, 모델의 출처와 동작을 검증할 수 있는 능력은 기본적인 보안 요구사항이 되었습니다.
The risk in malicious AI models: Wiz Research discovers critical vulnerability in AI-as-a-Service provider, Replicate
더 알아보기악의적인 AI 모델이 고수준에서 작동하는 방식
악성 AI 모델은 현대 AI 워크플로우에서 모델이 패키징되고 배포되며 로드되는 방식을 악용합니다. 핵심 위험은 모델의 예측이 아니라 모델 파일이 직렬 해제되거나 초기화될 때 트리거되는 실행 경로.
모델 로딩 시 실행
많은 AI 프레임워크는 모델 로딩 과정의 일부로 실행 가능한 로직을 실행할 수 있는 직렬화 형식을 지원합니다. 특히, 파이썬의 피클-기반 형식은 PyTorch 및 관련 도구에서 흔히 사용되며, 모델이 직렬 해제될 때 임의의 코드를 실행할 수 있습니다. 이러한 행동은 문서화되어 있지만 실제로는 종종 간과됩니다.
악성 모델이 로드되면, 임베디드 코드는 추론이나 평가가 이루어지기 전에 즉시 실행할 수 있습니다. 시스템 관점에서 보면, 이것은 일반적인 모델 가져오기로 보입니다. 공격자의 관점에서 보면, 이는 신뢰할 수 있는 환경 내에서 안정적인 실행 지점입니다.
왜 이런 일이 추론 전에 일어나는가
애플리케이션 코드와 달리, 모델은 데이터로 취급됩니다. 보안 통제는 모델이 어떻게 로드되는지보다는 어떻게 사용되는지에 초점을 맞추는 경향이 있습니다. 그 결과, 가장 위험한 활동은 수명 주기 초기, 즉 로드 시점에 발생하며, 실행 시 모니터링, 접근 제어, 행동 검사가 적용되기 전에 발생합니다.
이것이 전통적인 도구로는 악성 모델을 탐지하기 어려운 이유입니다. 의심스러운 API 호출, 잘못된 입력, 비정상적인 출력이 없을 수 있습니다. 타협은 단순히 모델이 정당하게 받아들여졌기 때문에 이루어졌다.
일반적인 공격자 목표
실행이 완료되면, 공격자들은 일반적으로 다음과 같은 익숙한 목표를 추구합니다:
환경에서 이용 가능한 자격 증명이나 토큰을 훔치기
학습 데이터 또는 하위 데이터 저장소 접근
백도어나 예약된 작업을 통한 지속성 구축
암호화폐 채굴이나 추가 침해를 위해 컴퓨팅 자원을 소모하는 것
이러한 행동은 AI 환경에만 국한된 것이 아니라, 모델들은 종종 권한이 높고 민감한 데이터에 가까운 환경에서 실행되어 그 영향력이 커집니다.
더 안전한 포맷, 더 안전한 기본값
모든 모델 포맷이 같은 위험을 내포하는 것은 아닙니다. 가중치를 실행 가능 논리와 분리하도록 설계된 포맷 – 예를 들어 SafeTensors와 ONNX –모델 로딩 중 코드 실행 가능성을 줄입니다. 이러한 형식은 내장된 실행 경로 없이 모델 데이터를 저장하여 설계상 더 안전합니다.
반면, 실행 가능한 논리를 허용하는 직렬화 메커니즘은 엄격히 통제되지 않으면 위험을 증가시킵니다. 실제로는 호환성과 편리함 때문에 명시적인 보안 기준이 강제되지 않는 한 팀이 안전하지 않은 포맷을 기본적으로 사용하는 경우가 많습니다.
이해 어떻게 따라서 모델 로딩은 악성 AI 모델로부터 방어하는 데 핵심적인 역할을 합니다. 이 위협은 적대적 입력이나 새로운 AI 행동에 의존하지 않고, 일반적인 ML 도구에서 예측 가능하고 신뢰할 수 있는 실행 경로에 의존합니다.
악성 AI 모델에 대한 주요 공격 벡터
악성 AI 모델은 일반적으로 소수의 반복 공격 벡터를 통해 생산 환경에 도달합니다. 이 매크체들은 새로운 AI 행동보다는 모델 산출물에 대한 신뢰와 AI 워크플로우 자동화를 악용합니다.
공개 모델 저장소
공개 저장소는 악성 모델의 가장 일반적인 배포 경로입니다. 공격자들은 무기화된 모델을 인기 있는 플랫폼에 업로드하거나 잘 알려진 프로젝트를 모방하기 위해 타이포스쿼팅을 사용합니다. 시간이 지나면서 악성 버전을 도입하기 전에 무해한 릴리스를 통해 평판을 쌓을 수 있습니다.
사전 학습된 모델은 종종 개발이나 교육 환경에 직접 다운로드되기 때문에, 이러한 산출물은 애플리케이션 코드나 컨테이너 이미지에 적용되는 검토 과정을 우회할 수 있습니다.
모델 로더를 통한 원격 코드 실행
일부 AI 워크플로우는 모델 로딩 시 원격 또는 사용자 지정 코드 실행을 명시적으로 허용합니다. 허용 로더 플래그나 커스텀 모델 클래스와 같은 설정은 실행 논리를 동적으로 가져오고 실행할 수 있게 하여 공격 표면을 확장합니다.
이 경우 위험은 모델 가중치 자체가 아니라 외부 코드를 암묵적으로 신뢰하는 부하 메커니즘에서 옵니다. 이로 인해 로더 구성은 위협 모델에서 중요한 부분이 됩니다.
트로이 목마 모델과 학습된 백도어
모든 악성 모델이 로딩 중 실행에 의존하는 것은 아닙니다. 일부는 생산 중 대부분의 조건에서 정상적으로 작동하도록 설계되어 있습니다 특정 트리거가 존재할 때 악성 출력을 내는. 이러한 '트로이 목마' 모델들은 실행 가능한 코드가 아닌 학습된 가중치에 해로운 행동을 직접 내장합니다.
직렬화 기반 공격과 달리, 트로이 목마 모델은 일반적으로 훈련 또는 미세 조정 과정예를 들어, 중독된 학습 데이터나 조작된 미세 조정 워크플로우를 통해 사용할 수 있습니다. 악의적인 행동이 모델 매개변수에 인코딩되어 있기 때문에, 모델 아티팩트의 정적 스캔은 위협에 대한 가시성을 제한합니다.
이로 인해 트로이 목마 모델은 독특한 위험 범주가 됩니다. 이를 감지하려면 일반적으로 모델 파일만을 검사하는 것이 아니라 적대적 테스트, 행동 분석, 또는 학습 데이터와 계보의 검증이 필요합니다.
의존성 및 내부자 위험
악성 모델은 손상된 의존성이나 신뢰할 수 있는 내부 채널을 통해 환경에도 침투할 수 있습니다. 여기에는 오염된 ML 라이브러리, 보안이 취약한 내부 등록부, 또는 합법적인 접근 권한을 가진 내부자가 도입한 모델이 포함됩니다.
이러한 경로들은 기존의 신뢰 관계에 의존하기 때문에, 광범위한 영향을 미칠 잠재력이 있음에도 불구하고 초기 위협 모델링에서 종종 간과됩니다.
Get an AI-SPM Sample Assessment
Take a peek behind the curtain to see what insights you’ll gain from Wiz AI Security Posture Management (AI-SPM) capabilities.

왜 클라우드 환경이 위험을 증폭시키는지
클라우드 환경은 악성 AI 모델을 만들지는 않지만, 상당히 많이 만듭니다 충격과 속도를 높이세요 소개될 때 타협의 의미를 가진다. 클라우드 플랫폼이 AI에 이상적이라는 자동화, 확장성, 민감한 데이터 접근성 같은 특성들이 공급망 위험을 증폭시키기도 합니다.
AI 워크로드는 종종 권한 상승 상태로 실행됩니다. 학습 작업과 추론 서비스는 종종 대규모 데이터셋, 객체 저장소, 비밀, 하위 서비스에 대한 접근을 필요로 합니다. 악성 모델이 이 컨텍스트 내에서 실행되면 즉시 해당 권한을 상속받아 모델 자체를 넘어 폭발 반경을 확장할 수 있습니다.
자동화는 위험을 더욱 증폭시킵니다. 모델은 일반적으로 CI/CD 파이프라인, 오케스트레이션 프레임워크, 또는 예약된 재교육 워크플로우를 통해 배포됩니다. 악의적인 유물이 이러한 경로 중 하나에 들어오면, 인간의 개입 없이도 환경을 빠르게 전파할 수 있어 수동 검사는 비현실적입니다.
클라우드 인프라는 민감한 데이터에 대한 실행 위치도 변화합니다. 악성 모델은 일반적으로 실행됩니다. 그들이 접근하려는 데이터와 같은 데이터 평면 내에 있습니다인접한 것이 아니라 , 데이터베이스에 도달하기 위해 수평으로 피벗해야 하는 침해된 웹 애플리케이션과 달리, 모델은 이미 학습 데이터, 추론 입력, 또는 하위 시스템에 직접 접근할 수 있는 환경 내에서 실행되는 경우가 많습니다. 이로 인해 처형과 충격 사이의 거리가 줄어듭니다.
마지막으로, AI 워크로드는 복잡한 관리형 서비스, 컨테이너, GPU, 런타임 의존성 스택에 의존합니다. 각 계층은 제어 시스템이 잘못 적용될 경우 공격자가 악용할 수 있는 구성 및 격리의 문제를 도입합니다. 실제로는 악성 모델들이 오늘날 많은 클라우드 침해를 유발하는 동일한 잘못된 설정에서 이익을 얻는다는 뜻입니다.
이 요소들이 결합되어 악성 AI 모델은 국지적 위험에서 시스템 수준의 보안 우려모델 보안은 클라우드 정체성, 데이터 접근, 배포 파이프라인의 맥락에서 평가되어야 하며, 단독으로 평가해서는 안 된다는 점을 강조합니다.
악성 AI 모델에 대한 방어
악의적인 AI 모델에 맞서 방어하려면 모델 행동에서 초점을 전환해야 합니다. 모델 출처, 로딩 경로, 실행 맥락. 위협이 아티팩트나 훈련 과정 자체에 내재되어 있기 때문에, 전통적인 방식입니다 애플리케이션 보안 제어 필요하지만 아렌'그 자체로도 충분히 충분했다.
모델이 생산되기 전에 통제 체계를 확립하세요
가장 효과적인 방어가 작동합니다 모델이 로드되기 전. 여기에는 모델이 어디서 왔는지, 어떻게 패키징되는지, 로딩 시 어떤 코드 경로가 실행되는지 검증하는 것이 포함됩니다. 모델 산출물을 일류 공급망 부품으로 취급하여 검사, 승인, 버전 관리를 거치면 무기화된 모델이 민감한 환경에 도달할 가능성을 줄입니다.
실제로는 동일한 거버넌스를 적용하는 것을 의미합니다 모델 등록부 이미 컨테이너 레지스트리나 유물 저장소에 신청하는 조직들입니다. 컨테이너 이미지가 서명, 스캔, 통제된 파이프라인을 통해 홍보된다면, 모델 산출물도 내부에서 유래했든 공개 출처에서 나왔든 동일한 규율을 따라야 합니다.
가능하다면 팀은 데이터를 실행 논리와 분리하고, 외부 코드를 암묵적으로 신뢰하는 로더 구성을 제한하는 모델 형식을 선호해야 합니다. 이러한 통제가 위험을 완전히 없애지는 못하지만, 공격 표면을 크게 좁혀줍니다.
식별 및 접근 제어를 통한 실행 제한
악성 모델은 광범위한 권한을 상속받을 때 가장 위험합니다. 학습 및 추론 작업량에 적용할 수 있는 식별과 역할을 제한하면 모델이 침해되었을 때 폭발 반경을 줄일 수 있습니다. 여기에는 서비스 계정에 대해 최소 권한 부여, 환경 격리, 파이프라인 간 자격 증명 공유 방지 등이 포함됩니다.
모델이 종종 데이터 평면 내에서 실행되기 때문에, 접근 제어는 2차 안전장치가 아닌 주요 방어선이 됩니다.
행동을 고립된 상태가 아니라 맥락 속에서 모니터링하세요
정적 검사만으로는 모든 악성 모델, 특히 학습된 가중치에 행동을 내장하는 모델을 모두 포착할 수 없습니다. 런타임 가시성은 모델이 시간이 지남에 따라 환경과 어떻게 상호작용하는지 관찰함으로써 그 공백을 메우는 데 도움을 줍니다.
효과적인 모니터링은 다음에 중점을 둡니다 맥락 신호: 예기치 않은 네트워크 접근, 비정상적인 파일 작업, 비정상적인 신원 사용, 또는 기존 실행 패턴에서 벗어난 경우. 이러한 신호들은 클라우드 맥락과 연관될 때 가장 의미가 있습니다 – 모델이 접근할 수 있는 데이터, 사용하는 신원, 그리고 어떻게 배포되었는지.
모델 보안을 클라우드 보안의 일부로 다루세요
궁극적으로 악의적인 AI 모델에 맞서 방어하는 것은 독립적인 학문 분야가 아닙니다. 기존 AI에 특화된 고려사항을 통합해야 합니다 클라우드 보안 관행공급망 거버넌스, 신원 관리, 업무 부하 모니터링을 포함합니다.
모델을 불투명한 블랙박스가 아닌 더 넓은 시스템의 일부로 평가함으로써, 보안 팀은 추측적 탐지나 모델 동작에 대한 가정에 의존하지 않고도 악성 산출물에 대한 노출을 줄일 수 있습니다.
Wiz가 악성 AI 모델 위험을 줄이는 데 어떻게 기여하는지
Wiz는 클라우드 보안 기본 원칙에 기반을 두고 모델 보안을 기반으로 하여 조직이 악성 AI 모델의 위험을 줄일 수 있도록 돕습니다. Wiz는 모델 의도나 행동을 분류하려 하기보다는, 결정하는 통제 체계를 검증하는 데 집중합니다 모델이 어디서 오고, 어떻게 로드되며, 배포 후 무엇을 접근할 수 있는지 등을 알려드립니다.
통과 AI 보안 태세 관리(AI-SPM) 그리고 위즈 보안 그래프, AI 모델, 학습 작업, 추론 서비스, 레지스트리는 일류 클라우드 자산으로 취급됩니다. Wiz는 호스팅된 모델 산출물을 가시화하고, 위험한 직렬화 방법이나 신뢰할 수 없는 소스를 적발하기 위해 포맷 수준의 검사를 수행하며, 소프트웨어 공급망 규율을 AI 모델이 본격적으로 구현되기 전에 확장합니다.
모델 산출물을 신원, 권한, 네트워크 노출, 민감한 데이터 접근과 연관시켜 Wiz는 팀이 위험하거나 잠재적으로 악의적인 모델이 발생할 때 식별할 수 있도록 돕습니다 실제로 악용 가능실제 공격 반경을 이해하고, AI 개발을 지연시키거나 별도의 보안 도구를 도입하지 않으면서 실제 공격 경로에 기반한 우선 대응을 해야 합니다.
Accelerate AI Innovation, Securely
Learn why CISOs at the fastest growing companies choose Wiz to secure their organization's AI infrastructure.
