Guardabarreras de IA: controles de seguridad para un uso responsable de la IA

¿Qué son las barreras de seguridad de la IA?

Las barreras de seguridad de IA (también llamadas barreras de protección LLM o barreras de seguridad GenAI) son Controles de seguridad preventiva que limitan el comportamiento de un sistema de IA dentro de límites de política definidos. Moldean lo que un modelo puede ver, hacer y devolver, reduciendo el riesgo de resultados perjudiciales, sesgados o que violen políticas durante la ejecución del modelo.

Las barandillas son Controles preventivos aplicado antes y durante la inferencia. Trabajan juntos Controles de detective como el registro, la monitorización y la alerta, que identifican las infracciones una vez ocurridas, y Controles de gobernanza como políticas, documentación y requisitos de auditoría.

En la práctica, se utilizan tres capas de barandillas de protección juntas:

Guardabarreras de entrada: Filtra, valida y remodela los prompts antes de que lleguen al modelo.
Medidas de protección en el procesamiento: Controla qué contexto, datos y herramientas puede acceder al modelo, y aplica las reglas de negocio durante el razonamiento.
Guardas de salida: Evalúa la respuesta del modelo y bloquéalo, modifícalo o rechaza antes de devolverlo al usuario.

Estas barreras difieren de la seguridad tradicional de las aplicaciones. Los controles tradicionales protegen el código determinista y entradas estructuradas como campos de formulario o JSON. Las barreras de seguridad de la IA deben gestionar sistemas no deterministas y lenguaje natural, donde la misma petición puede producir diferentes salidas cada vez y donde el comportamiento del modelo puede verse influenciado mediante la incrustación de contexto o la inyección de prompts.

Para las empresas —especialmente al gestionar datos regulados o flujos de trabajo orientados al cliente— las barreras de seguridad son la forma de actuar convertir un prototipo en un sistema de producción. Hacen cumplir tus requisitos de seguridad, protección y cumplimiento, permitiendo que los equipos construyan sobre potentes modelos de base.

25 AI Agents. 257 Real Attacks. Who Wins?

From zero-day discovery to cloud privilege escalation, we tested 25 agent-model combinations on 257 real-world offensive security challenges. The results might surprise you 👀

Por qué son importantes las barreras de seguridad de la IA para la seguridad en la nube

Cuando despliegas IA en la nube, combinas dos propiedades desafiantes: entradas de lenguaje natural no confiables y Acceso a datos y sistemas sensibles. Un modelo puede verse influenciado por texto arbitrario, pero funciona sobre infraestructura compartida, detrás de APIs públicas o internas, y a menudo con acceso a datos empresariales reales. Eso rompe muchas de las suposiciones detrás de los controles de seguridad tradicionales.

Los sistemas de IA en la nube gestionan datos sensibles como información personal, registros financieros o documentos propietarios. Controles tradicionales como reglas de red y cortafuegos No se pueden evaluar prompts, ventanas de contexto ni el comportamiento del modelo, para que no eviten ataques como la inyección inmediata, la manipulación de recuperación o el uso inesperado de herramientas. Los principales proveedores de nube ahora incluyen controles de seguridad en sus servicios de IA (por ejemplo, Guardrails para Amazon Bedrock, filtros de contenido Azure OpenAI y filtros de seguridad de IA Google Vertex), pero estos deben combinarse con Políticas específicas de la organización, controles IAM y monitorización en tiempo de ejecución para ser efectivo.

Sample AI misconfiguration

En un entorno en la nube, tu Superficie de ataque con IA Ahora incluye:

Modelos: LLMs alojados, modelos ajustados y embeddings personalizados.
Datos de entrenamiento e inferencia: lagos de datos, almacenes vectoriales y registros que pueden contener contenido confidencial.
Extremos de inferencia: APIs públicas e internas para chat, búsqueda o llamadas a herramientas.
Agentes y orquestación: código que permite a los modelos llamar a herramientas internas o servicios externos.
Artefactos de modelos: pesos, puntos de control e imágenes de contenedores que pueden ser manipulados en la cadena de suministro.

Sin barreras de seguridad, el comportamiento normal de la IA puede convertirse en un incidente de seguridad: un ataque de inyección rápida extrae datos sensibles de un almacén vectorial, un agente ejecuta una acción no intencionada contra APIs internas o un endpoint mal configurado expone información del cliente. Estos fallos generan tanto riesgo de seguridad como de marca, porque la salida del modelo es directamente visible para los usuarios.

Las empresas de sectores regulados ya utilizan barreras de seguridad de múltiples capas para mantener los despliegues seguros. Por ejemplo, los fabricantes de automóviles ejecutan asistentes en la nube con un filtrado estricto de entradas, acceso controlado a los datos del vehículo y comprobaciones en tiempo de ejecución sobre qué respuestas pueden devolver a los conductores. Esto les permite adoptar modelos avanzados mientras mantienen estrictas normas de seguridad y cumplimiento.

Tipos de barreras de seguridad de IA

Las barandillas prácticas funcionan como una Oleoducto. Las entradas se comprueban antes de llegar al modelo, el modelo se ejecuta dentro de un contexto de ejecución controlada y las salidas se validan antes de llegar a los usuarios o a los sistemas posteriores.

1. Barandillas de entrada

Las barreras de seguridad de entrada evalúan y reconfiguran las solicitudes entrantes Antes de la inferencia. Esta es la primera capa de prevención contra conductas inseguras.

Las barreras de seguridad de entrada más comunes incluyen:

Inyección rápida y detección de fugas de jail: Identificar intentos de anular instrucciones del sistema o acceder a datos restringidos.
Escaneo de datos sensibles: Detectar y censurar PII, PHI, credenciales o claves dentro de los prompts.
Contenido ilegal o prohibido: Bloquea solicitudes que busquen instrucciones dañinas o material prohibido.
Control de abuso y mal uso: Hacer cumplir los límites de tasa, identificar el uso anómalo y bloquear intentos de fuerza bruta contra filtros de seguridad.

En la práctica, los límites de entrada pueden rechazar un prompt, solicitar aclaración o desinfectar la entrada (por ejemplo, identificadores de enmascaramiento) antes de enviarlo al modelo.

2. Medidas de protección de procesamiento

Las barreras de procesamiento moldean el contexto de ejecución en el que opera el modelo. Determinan a qué se le permite acceder el modelo y cómo puede actuar, más allá del texto del prompt.

Las barreras de procesamiento suelen incluir:

Controles de contexto: Restringir qué documentos, campos o registros pueden proporcionarse al modelo para cada solicitud.
Seguridad RAG: Limita qué colecciones puede consultar una canalización de recuperación, cuántos resultados puede usar y aplica filtrado al contenido recuperado.
Aplicación de la política: Codifica reglas de negocio como "este modelo no puede acceder a APIs de pago de producción" o "solo devuelven datos de la misma región."
Control de identidad y de menor privilegio: Utiliza las políticas de IAM para restringir el acceso de la cuenta de servicio del modelo a fuentes o servicios de datos no autorizados.
Barandillas de herramientas y agentes: Define qué herramientas puede llamar un agente de IA, qué acciones requieren aprobación humana y cómo se validan los parámetros antes de su ejecución.

Las características de seguridad del proveedor de nube (por ejemplo, filtros de contenido o filtros de temas en Azure OpenAI, Bedrock o Vertex AI) pueden soportar esta capa, pero deben combinarse con

3. Guardabarreras de salida

Las barreras de salida evalúan la respuesta del modelo

Las barreras de seguridad de salida más comunes incluyen:

Toxicidad y seguridad de contenidos: Detectar odio, acoso, contenido de autolesiones u otras categorías prohibidas.
Detección de alucinaciones: Compara afirmaciones con fuentes confiables o contexto recuperado para identificar afirmaciones no respaldadas.
Filtración de datos sensibles: Escanea en busca de PII, PHI, credenciales o secretos en las salidas y elimina o bloquea según sea necesario.
Alineación de marca y políticas: Ajustar el tono, incluir las divulgaciones requeridas y hacer cumplir las normas de cumplimiento en los dominios regulados.

Las barreras de salida pueden bloquear la respuesta, solicitar aclaración o

Muchos equipos combinan comprobaciones basadas en reglas (patrones de permiso/denegación, reglas de redacción, políticas de prompt) con clasificadores basados en aprendizaje automático (detección de toxicidad, detección de jailbreak, detección de PII). Otros envuelve los modelos de proveedores con una capa de seguridad consistente entre proveedores utilizando APIs de moderación o frameworks de protección de código abierto.

100 Experts Weigh In on AI Security

Learn what leading teams are doing today to reduce AI threats tomorrow.

Riesgos de IA que las barreras de seguridad están diseñadas para abordar

Existen barreras de seguridad de la IA para evitar clases específicas de fallos. Comprender estas amenazas te ayuda a diseñar controles que protejan tanto tus datos como tu infraestructura.

La mayoría de los riesgos de la IA se encuentran en Cuatro categorías:

1. Manipulación del comportamiento del modelo

Los atacantes intentan influir o anular instrucciones del modelo para producir acciones o salidas inseguras.

Inyección rápida: Crear entradas que anulan instrucciones del sistema y extraen datos o activan acciones no permitidas.
Inyección indirecta de prompt: Incrustar instrucciones maliciosas en documentos o datos que el modelo luego ingiere mediante recuperación o contexto.
Fugas de prisión: Forzar al modelo a ignorar las restricciones de seguridad incorporadas mediante juegos de rol, traducción u otros patrones de peticiones indirectas.
Prompts adversariales: Patrones sutiles de prompts diseñados para causar salidas incorrectas sin parecer maliciosos.

Estos riesgos se abordan principalmente a través de

2. Manipulación de datos y contexto

En lugar de atacar directamente el modelo, los adversarios atacan a la Canalizaciones de datos que modelan el comportamiento del modelo.

Intoxicación de datos: Inyectar datos maliciosos o sesgados en conjuntos de entrenamiento o ajuste fino para que el modelo aprenda patrones inseguros.
Envenenamiento contextual: Manipular los documentos o el índice de recuperación utilizados por los sistemas RAG para influir en las respuestas.
Intoxicación por trapo: Controlar qué documentos se recuperan para que el modelo repita información engañosa.
Secuestro de ajuste fino: Comprometiendo los ajustes finos para insertar puertas traseras.

Estas amenazas requieren

3. Extracción de información sensible e IP

Los atacantes intentan recuperar datos del modelo o de sus componentes de apoyo.

Extracción de modelos: Reproduciendo el comportamiento de un modelo propietario mediante consultas repetidas.
Inferencia de membresía: Determinar si registros específicos formaban parte de los datos de entrenamiento mediante la sondeación de las respuestas del modelo.
Filtración de datos sensibles: El modelo reproduce contenido memorizado de registros, datos de entrenamiento o almacenes vectoriales.

Estos riesgos se mitigan mediante

4. Explotación del acceso a través de agentes y herramientas

La categoría de riesgo de más rápido crecimiento incluye modelos que pueden

Agentes sobreautorizados: Agentes que tienen acceso amplio a APIs internas, bases de datos o servicios en la nube.
Abuso de herramientas: Usar herramientas permitidas de formas inesperadas, lo que llevó a operaciones no autorizadas.
Escalada de identidad: Un modelo que actúa bajo una cuenta de servicio privilegiada sin el aislamiento adecuado.

Estos riesgos requieren

Sample AI Security Assessment

Get a glimpse into how Wiz surfaces AI risks with AI-BOM visibility, real-world findings from the Wiz Security Graph, and a first look at AI-specific Issues and threat detection rules.

Get Sample Report

Cómo funcionan las barreras de seguridad de la IA en la práctica

En un sistema real, las barreras de seguridad no son un filtro único que añades al final. Son múltiples controles aplicados a lo largo de la ruta de la solicitud, desde el punto de entrada de la API hasta la validación de salida. Cada capa elimina una clase diferente de riesgo.

Un común Flujo de inferencia con barandillas de protección Se ve así:

Solicitud del usuario: Un usuario envía un prompt o una llamada a la API.
Guardabarreras de entrada: La solicitud se valida, sanitiza o rechaza antes de llegar al modelo.
Construcción del contexto (RAG): Si se utiliza la recuperación, solo se obtienen y filtran fuentes de datos aprobadas y documentos.
Aplicación de la política: Las reglas de negocio y las comprobaciones de seguridad determinan a qué puede acceder el modelo y a qué herramientas puede utilizar.
Inferencia del modelo: El modelo genera una respuesta dentro de estas restricciones.
Ejecución de herramientas (agentes): Si el modelo solicita acciones, los parámetros se validan y ejecutan bajo el privilegio mínimo, o requieren aprobación humana.
Guardas de salida: La respuesta se comprueba para garantizar la seguridad, las afirmaciones respaldadas, los datos sensibles y el cumplimiento antes de devolverla al usuario.
Registro y monitorización: La interacción completa se registra para análisis, alertas y mejoras.

Este patrón te permite prevenir comportamientos inseguros antes de que ocurran y detectar problemas que se escapan.

Donde se hacen cumplir las barreras de seguridad

Las barreras de seguridad pueden integrarse en varios puntos de tu arquitectura:

Gateway API: Autenticación, limitación de velocidad, comprobaciones de contenido grueso.
Capa de orquestación: Cadenas, middleware y validadores que implementan filtros de prompt, controles de contexto y lógica de políticas.
Servicios en la nube: Filtros de seguridad del proveedor (por ejemplo, filtros de toxicidad o de tema) que se ejecutan durante la inferencia.
Capa de identidad: Políticas IAM que definen a qué fuentes de datos, APIs y herramientas puede acceder la cuenta de servicio del modelo.
Límites de herramientas: Flujos de validación y aprobación para las acciones del agente.
Almacenes vectoriales: Controles de acceso y filtrado a nivel de documento para evitar envenenamiento del contexto o filtraciones de datos.
Filtros de salida: Modelos de clasificación o reglas que bloquean o reescriben respuestas inseguras.

Cada capa está diseñada para eliminar una clase diferente de riesgo, de modo que los fallos en una capa son detectados por otra.

Cómo Wiz permite barreras de seguridad completas en la IA a lo largo del ciclo de vida de la seguridad

AI security dashboard

Wiz AI-SPM Te ofrece una visión completa de tu patrimonio de IA a través de AWS, Azure y GCP, desde servicios de IA gestionados y endpoints de inferencia hasta pipelines de recuperación y las identidades que hay detrás de ellos. Wiz detecta desconfiguraciones en plataformas como Amazon SageMaker, Azure OpenAI y Google Vertex AI que pueden eludir tus barreras de protección, como endpoints públicos con acceso a datos sensibles o agentes que funcionan bajo roles sobreautorizados.

El Grafo de Seguridad Wiz mapea cómo interactúan la infraestructura, las identidades, los datos y las cargas de trabajo de IA. Eso te permite detectar combinaciones tóxicas ocultas en el entorno, por ejemplo, un endpoint expuesto que se comunica con un almacén vectorial lleno de datos de entrenamiento sensibles, accesible a través de una cuenta de servicio amplia vinculada a un agente. Wiz destaca estos riesgos para que puedas eliminar los caminos de circunvalación que hay bajo tus barandillas.

Wiz extiende esos controles a lo largo del ciclo de desarrollo y de ejecución. Código Wiz escanea el código IaC y de la aplicación que define tu infraestructura de IA para detectar problemas como claves de modelo codificadas, reglas de red arriesgadas o servicios de IA mal configurados antes del despliegue. Wiz Defend monitoriza las cargas de trabajo relacionadas con la IA en tiempo de ejecución para detectar patrones inusuales de API, acceso no autorizado a datos o posibles intentos de exfiltración relacionados con el comportamiento del modelo. Empotrado DSPM Las capacidades clasifican los datos sensibles usados en entrenamiento o inferencia y muestran cómo fluyen hacia los modelos y endpoints, para que puedas construir barreras de seguridad centradas en los datos y fundamentadas en la realidad.

Dado que todo este contexto se encuentra en una sola plataforma, las organizaciones pueden aplicar políticas unificadas de seguridad de IA en repositorios de código, pipelines CI/CD, recursos en la nube y entornos de ejecución. En otras palabras, Wiz proporciona barandillas para tus barandillas – Asegurando que la infraestructura, las rutas de datos y las identidades alrededor de tus modelos estén correctamente configuradas, monitorizadas y protegidas.

Develop AI applications securely

Learn why CISOs at the fastest growing organizations choose Wiz to secure their organization's AI infrastructure.

Principales conclusiones sobre las barreras de seguridad de la IA: