AI 가드레일: 책임 있는 AI 사용을 위한 안전 통제

AI 가드레일이란 무엇인가요?

AI 가드레일(LLM 가드레일 또는 생성 AI 가드레일이라고도 함)은 예방 안전 제어 정의된 정책 경계 내에서 AI 시스템의 행동을 제한하는 것입니다. 이들은 모델이 볼 수 있는 것, 수행하는 것, 반환할 수 있는 것을 형성하여, 모델 실행 중 해롭거나 편향되거나 정책 위반 산출물 위험을 줄여줍니다.

가드레일은 예방 통제 추론 전과 도중에 적용되었다. 그들은 함께 일합니다 탐정 제어 예를 들어, 기록, 모니터링, 경고 등으로, 위반 발생 후 이를 식별하는 기능, 거버넌스 통제 예를 들어 정책, 문서화, 감사 요구사항 등이 포함됩니다.

실제로는 세 겹의 가드레일이 함께 사용됩니다:

입력 가드레일: 프롬프트가 모델에 도달하기 전에 필터링, 검증, 재구성하세요.
처리 가드레일: 모델이 접근할 수 있는 맥락, 데이터, 도구를 제어하고, 추론 과정에서 비즈니스 규칙을 강제합니다.
출력 가드레일: 모델의 응답을 평가하고 차단, 수정 또는 거부한 후 사용자에게 반환하세요.

이러한 가드레일은 전통적인 애플리케이션 보안과는 다릅니다. 전통적인 컨트롤은 결정적 코드와 폼 필드나 JSON 같은 구조화된 입력을 보호합니다. AI 가드레일은 비결정론적 시스템과 자연어를 관리해야 하며, 같은 요청이 매번 다른 출력을 낼 수 있고, 모델 동작이 임베딩된 맥락이나 프롬프트 인젝션을 통해 영향을 받을 수 있습니다.

기업 중, 특히 규제된 데이터나 고객 대상 워크플로우를 다룰 때는 가드레일이 바로 그 수단입니다 프로토타입을 생산 시스템으로 전환하는 데. 이들은 안전, 보안, 준수 요구사항을 강제하는 동시에 팀이 강력한 기반 모델 위에 구축할 수 있도록 지원합니다.

25 AI Agents. 257 Real Attacks. Who Wins?

From zero-day discovery to cloud privilege escalation, we tested 25 agent-model combinations on 257 real-world offensive security challenges. The results might surprise you 👀

AI 가드레일이 클라우드 보안에 중요한 이유

클라우드에 AI를 배포하면 두 가지 어려운 특성을 결합하게 됩니다: 신뢰할 수 없는 자연어 입력 그리고 민감한 데이터 및 시스템에 대한 접근. 모델은 임의의 텍스트에 영향을 받을 수 있지만, 공유 인프라 위에서 실행되며, 공개 또는 내부 API 뒤에 있으며, 종종 실제 비즈니스 데이터에 접근할 수 있습니다. 이는 전통적인 보안 통제에 대한 많은 가정을 깨뜨립니다.

클라우드 AI 시스템은 개인 정보, 재무 기록, 독점 문서 등 민감한 데이터를 처리합니다. 네트워크 규칙과 방화벽과 같은 전통적인 통제 프롬프트, 컨텍스트 창, 모델 동작을 평가할 수 없습니다즉, 즉 인젝션, 회수 조작, 예기치 않은 도구 사용 같은 공격을 막지 못합니다. 주요 클라우드 제공업체들은 이제 AI 서비스에 안전 통제 기능을 포함하고 있습니다(예: Amazon Bedrock의 Guardrails, Azure OpenAI 콘텐츠 필터, Google Vertex AI 안전 필터). 하지만 이들은 다음과 같이 통합되어야 합니다 조직별 정책, IAM 제어, 런타임 모니터링 효과적이기 위해서.

Sample AI misconfiguration

클라우드 환경에서는 AI 공격 표면 현재 포함:

모델: 호스팅된 LLM, 미세 조정 모델, 맞춤형 임베딩이 포함됩니다.
훈련 및 추론 데이터: 데이터 레이크, 벡터 저장소, 그리고 기밀 내용을 포함할 수 있는 로그.
추론 종료점: 채팅, 검색, 도구 호출을 위한 공개 및 내부 API입니다.
에이전트와 오케스트레이션: 모델이 내부 도구나 외부 서비스를 호출할 수 있도록 하는 코드입니다.
모델 아티팩트: 공급망에서 조작될 수 있는 무게, 검문소, 컨테이너 이미지.

가드레일이 없으면 정상적인 AI 행동이 보안 사고로 변할 수 있습니다: 프롬프트 인젝션 공격이 벡터 저장소에서 민감한 데이터를 가져오거나, 에이전트가 내부 API에 대해 의도치 않은 행동을 실행하거나, 잘못 설정된 엔드포인트가 고객 정보를 노출하는 등의 문제가 있습니다. 이러한 실패는 모델의 출력물이 사용자에게 직접 보이기 때문에 보안 위험과 브랜드 위험을 모두 초래합니다.

규제 산업에 속한 기업들은 이미 배포를 안전하게 유지하기 위해 다층 가드레일을 사용하고 있습니다. 예를 들어, 자동차 제조사들은 엄격한 입력 필터링, 차량 데이터에 대한 통제된 접근, 운전자에게 어떤 응답이 돌아올지 런타임 체크를 하는 클라우드 기반 어시스턴트를 운영합니다. 이를 통해 엄격한 안전 및 준수 경계를 준수하면서도 첨단 모델을 채택할 수 있습니다.

AI 가드레일의 종류

실용적인 가드레일은 파이프라인. 입력은 모델에 도달하기 전에 검사되고, 모델은 통제된 실행 컨텍스트 내에서 실행되며, 출력은 사용자나 하위 시스템에 도달하기 전에 검증됩니다.

1. 입력 가드레일

입력 가드레일은 들어오는 요청을 평가하고 재구성합니다 추론 이전. 이것이 안전하지 않은 행동에 대한 첫 번째 예방 단계입니다.

일반적인 입력 가드레일은 다음과 같습니다:

신속한 인젝션 및 탈옥 감지: 시스템 명령어를 무시하거나 제한된 데이터에 접근하려는 시도를 식별합니다.
민감한 데이터 스캔: 프롬프트 내에서 PII, PHI, 자격 증명 또는 키를 감지하고 삭제할 수 있습니다.
불법 또는 금지된 콘텐츠: 해로운 지시나 금지된 자료를 요구하는 요청은 차단하세요.
통제 남용 및 오용: 속도 제한을 강제하고, 이상 사용을 식별하며, 안전 필터에 대한 무차별 대입 시도를 차단합니다.

실제로 입력 가드레일은 프롬프트를 거부하거나, 명확한 설명을 요청하거나, 입력을 정화하세요 (예: 식별자 마스크) 모델을 전송하기 전에

2. 가공 가드레일

처리 가드레일은 모델이 작동하는 실행 맥락을 형성합니다. 그들은 모델이 프롬프트의 텍스트를 넘어 어떤 접근을 허용하고 어떻게 행동할 수 있는지 결정합니다.

가공 가드레일은 일반적으로 다음을 포함합니다:

컨텍스트 컨트롤: 각 요청마다 모델에 제공할 수 있는 문서, 필드 또는 로그를 제한하세요.
RAG 안전: 검색 파이프라인이 쿼리할 수 있는 컬렉션, 사용할 수 있는 결과 수를 제한하고, 검색된 콘텐츠에 필터링을 적용하세요.
정책 집행: "이 모델은 생산 결제 API에 접근할 수 없다" 또는 "동일 지역에서만 데이터를 반환한다"와 같은 비즈니스 규칙을 인코딩합니다.
신원 및 최소 권한 통제: IAM 정책을 사용하여 모델의 서비스 계정이 무단 데이터 소스나 서비스에 접근하지 못하도록 제한하세요.
도구 및 에이전트 가드레일: AI 에이전트가 호출할 수 있는 도구, 인간의 승인이 필요한 행동, 실행 전 매개변수 검증 방식을 정의하세요.

클라우드 제공업체의 안전 기능(예: Azure OpenAI, Bedrock, Vertex AI의 콘텐츠 필터 또는 주제 필터)은 이 계층을 지원할 수 있지만, 다음에 결합해야 합니다

3. 출력 가드레일

출력 가드레일은 모델의 응답을 평가합니다

일반적인 출력 가드레일은 다음과 같습니다:

독성 및 콘텐츠 안전성: 혐오, 괴롭힘, 자해 콘텐츠 또는 기타 금지된 범주를 감지하세요.
환각 감지: 주장을 신뢰할 수 있는 출처나 검색된 맥락과 비교하여 근거 없는 진술을 식별하세요.
민감한 데이터 유출: 출력에서 PII, PHI, 자격 증명, 비밀 정보를 스캔하고 필요에 따라 제거하거나 차단하세요.
브랜드 및 정책 정렬: 톤을 조정하고, 필수 공시를 포함하며, 규제 분야에서 준수 규칙을 집행합니다.

출력 가드레일은 응답을 차단하거나, 명확한 설명을 요청하거나,

많은 팀이 규칙 기반 검사(허용/거부 패턴, 편집 규칙, 알림 정책)와 머신러닝 기반 분류기(독성 탐지, 탈옥 감지, 개인 정보 탐지)를 결합합니다. 다른 기업들은 중재 API나 오픈소스 가드레일 프레임워크를 사용해 공급업체 간에 일관된 안전 계층으로 벤더 모델을 감싸기도 합니다.

100 Experts Weigh In on AI Security

Learn what leading teams are doing today to reduce AI threats tomorrow.

가드레일이 해결하기 위해 설계된 AI 위험

AI의 가드레일은 특정 유형의 실패를 방지하기 위해 존재합니다. 이러한 위협을 이해하면 데이터와 인프라를 모두 보호할 수 있는 통제 장치를 설계할 수 있습니다.

대부분의 AI 위험은 다음과 같이 속합니다 네 가지 범주:

1. 모델 동작 조작

공격자는 모델 명령어에 영향을 주거나 무시하여 안전하지 않은 행동이나 출력을 생성하려 시도합니다.

즉각적인 주입: 시스템 명령을 덮어쓰고 데이터를 추출하거나 허용되지 않는 행동을 트리거하는 입력을 제작합니다.
간접 즉각 인젝션: 악성 명령어를 문서나 데이터 내에 내장하고, 모델이 나중에 검색이나 컨텍스트를 통해 이를 흡수하는 방식입니다.
탈옥: 롤플레잉, 번역 또는 기타 간접 요청 패턴을 사용하여 모델이 내장된 안전 제약 조건을 무시하도록 강제합니다.
대립적 질문: 악의적으로 보이지 않으면서도 잘못된 출력을 유도하도록 설계된 미묘한 프롬프트 패턴들.

이러한 위험은 주로 다음과 같이 대응됩니다

2. 데이터 및 맥락 조작

적대자들은 모델을 직접 공격하는 대신, 데이터 파이프라인 그 형태 모델이 행동을 보여줍니다.

데이터 중독: 악의적이거나 편향된 데이터를 훈련 세트에 주입하거나 미세 조정하여 모델이 위험한 패턴을 학습하도록 하는 것.
맥락 중독: RAG 시스템이 응답에 영향을 미치기 위해 사용하는 문서 또는 검색 인덱스를 조작하는 것.
헝겊 중독: 어떤 문서를 검색할지 제어하여 모델이 오해를 불러일으키는 정보를 반복하도록 합니다.
미세 조정 하이재킹: 미세 조정 작업을 타협해 백도어를 삽입하는 것.

이러한 위협은 다음을 요구합니다

3. 민감한 정보 및 IP 추출

공격자들은 모델 또는 그 지원 부품에서 데이터를 복구하려고 시도합니다.

모델 추출: 반복 쿼리를 통해 독점 모델의 동작을 재현하는 것.
회원 자격의 추론: 모델 응답을 탐색하여 특정 기록이 학습 데이터의 일부인지 판단하는 것.
민감한 데이터 유출: 모델은 로그, 훈련 데이터, 벡터 저장소에서 암기한 내용을 재현합니다.

이러한 위험은 다음과 같이 완화됩니다

4. 에이전트와 도구를 통한 접근 악용

가장 빠르게 성장하는 위험 범주는 다음과 같은 모델들입니다.

과도한 권한 부여 에이전트: 내부 API, 데이터베이스, 클라우드 서비스에 폭넓게 접근할 수 있는 에이전트들.
도구 남용: 허용된 도구를 예상치 못한 방식으로 사용해 무단 작업이 발생했습니다.
신원 상승: 적절한 격리 없이 특권 서비스 계정으로 작동하는 모델.

이러한 위험은 처리 가드레일(최소 권한 IAM, 도구 허용 목록, 승인 워크플로우)과 예상치 못한 동작을 감지하기 위한 런타임 모니터링을 필요로 합니다.

Sample AI Security Assessment

Get a glimpse into how Wiz surfaces AI risks with AI-BOM visibility, real-world findings from the Wiz Security Graph, and a first look at AI-specific Issues and threat detection rules.

Get Sample Report

AI 가드레일이 실제로 작동하는 방식

실제 시스템에서 가드레일은 마지막에 추가하는 단일 필터가 아닙니다. API 진입점부터 출력 검증까지 요청 경로에 걸쳐 여러 제어 제어가 적용됩니다. 각 계층은 서로 다른 위험 등급을 제거합니다.

공통 가드레일을 이용한 추론 흐름 이렇게 보입니다:

사용자 요청: 사용자가 프롬프트나 API 호출을 보냅니다.
입력 가드레일: 요청은 모델에 도달하기 전에 검증, 정제 또는 거부됩니다.
맥락 구성(RAG): 검색이 적용될 경우, 승인된 데이터 소스와 문서만 불러오고 필터링됩니다.
정책 집행: 비즈니스 규칙과 보안 검사는 모델이 접근할 수 있는 것과 호출할 수 있는 도구를 결정합니다.
모델 추론: 모델은 이러한 제약 조건 내에서 응답을 생성합니다.
도구 실행 (에이전트): 모델이 작업을 요청할 경우, 매개변수는 최소 권한으로 검증 및 실행되며, 인간의 승인이 필요합니다.
출력 가드레일: 응답은 사용자에게 반환하기 전에 안전성, 지원 주장, 민감한 데이터, 준수 여부를 확인합니다.
기록 및 모니터링: 전체 상호작용은 분석, 알림 및 개선을 위해 기록됩니다.

이 패턴은 위험한 행동을 미리 예방하고, 누락된 문제를 감지할 수 있게 해줍니다.

가드레일이 시행되는 곳

가드레일은 아키텍처의 여러 지점에서 통합할 수 있습니다:

API 게이트웨이: 인증, 속도 제한, 거친 콘텐츠 검사.
오케스트레이션 계층: 프롬프트 필터, 컨텍스트 제어, 정책 로직을 구현하는 체인, 미들웨어, 검증기입니다.
클라우드 서비스: 추론 중에 실행되는 제공자 안전 필터(예: 독성 필터나 주제 필터).
정체성 계층: IAM 정책은 모델의 서비스 계정이 접근할 수 있는 데이터 소스, API, 도구를 정의합니다.
도구 경계: 에이전트 행동에 대한 검증 및 승인 흐름.
벡터 스토어: 접근 제어 및 문서 수준 필터링을 통해 컨텍스트 오염이나 데이터 유출을 방지합니다.
출력 필터: 안전하지 않은 답변을 차단하거나 재작성하는 분류 모델이나 규칙들.

각 계층은 서로 다른 위험 등급을 제거하도록 설계되어 있어, 한 계층의 실패가 다른 계층에 의해 포착됩니다.

Wiz가 보안 생애주기 전반에 걸쳐 포괄적인 AI 가드레일을 가능하게 하는 방법

AI security dashboard

위즈 AI-SPM AWS, Azure, GCP 전반에 걸쳐 관리형 AI 서비스와 추론 엔드포인트부터 검색 파이프라인과 그 뒤에 숨겨진 신원까지 AI 자산을 종단 간 가시화할 수 있습니다. Wiz는 Amazon SageMaker, Azure OpenAI, Google Vertex AI 같은 플랫폼에서 민감한 데이터에 접근할 수 있는 공개 엔드포인트나 과도한 권한 하에 운영되는 에이전트 등 가드레일을 우회할 수 있는 잘못된 설정을 감지합니다.

그 위즈 보안 그래프 인프라, 신원, 데이터, AI 워크로드가 어떻게 상호작용하는지 지도화합니다. 이를 통해 환경에 숨겨진 독성 조합을 식별할 수 있습니다. 예를 들어, 노출된 엔드포인트가 민감한 학습 데이터로 가득 찬 벡터 저장소와 통신하며, 에이전트에 연결된 광범위한 서비스 계정을 통해 접근할 수 있습니다. Wiz는 이러한 위험을 표면화하여 가드레일 아래에 있는 우회 경로를 제거할 수 있도록 합니다.

Wiz는 이러한 제어를 개발 및 실행 수명 주기 전반에 걸쳐 확장합니다. 위즈 코드 IaC와 AI 인프라를 정의하는 애플리케이션 코드를 스캔하여 하드코딩된 모델 키, 위험한 네트워크 규칙, 잘못 설정된 AI 서비스 등의 문제를 배치 전에 포착합니다. 위즈 디펜드 런타임에 비정상적인 API 패턴, 무단 데이터 접근, 모델 동작과 연관된 잠재적 유출 시도를 모니터링합니다. 내장형 DSPM 역량은 훈련이나 추론에 사용되는 민감한 데이터를 분류하고, 모델과 엔드포인트로 어떻게 흐르는지 보여주어 현실에 기반한 데이터 중심의 가드레일을 구축할 수 있습니다.

이 모든 맥락이 하나의 플랫폼에 모이기 때문에, 조직은 코드 저장소, CI/CD 파이프라인, 클라우드 자원, 런타임 환경 전반에 걸쳐 통합 AI 보안 정책을 시행할 수 있습니다. 다시 말해, Wiz는 당신의 안전장치를 위한 보호막을 제공합니다 – 모델의 인프라, 데이터 경로, 신원이 적절히 구성되고 모니터링되며 보호되도록 보장합니다.

Develop AI applications securely

Learn why CISOs at the fastest growing organizations choose Wiz to secure their organization's AI infrastructure.

AI 가드레일에 관한 주요 시사점: