3. Permisos por diseño: vincular herramientas a tareas, no a modelos
Un antipatrón común es darle al modelo una credencial de larga duración y los mensajes de esperanza lo mantienen cortés. SAIF y NIST sostienen lo contrario: las credenciales y los alcances deben estar vinculados a herramientas y tareas, rotarse periódicamente y ser auditables. Luego, los agentes solicitan capacidades de alcance limitado a través de esas herramientas.
En la práctica, esto se ve así: «el agente de operaciones financieras puede leer, pero no escribir, ciertos libros de contabilidad sin la aprobación del director financiero».
La pregunta del director ejecutivo: ¿Podemos revocar una capacidad específica de un agente sin rediseñar todo el sistema?
Controlar datos y comportamiento
Estos pasos controlan entradas, salidas y restringen el comportamiento.
4. Entradas, memoria y RAG: Trate el contenido externo como hostil hasta que se demuestre lo contrario.
La mayoría de los incidentes con agentes comienzan con datos engañosos: una página web, un PDF, un correo electrónico o un repositorio envenenados que introduce de contrabando instrucciones adversas en el sistema. La hoja de trucos de inyección rápida de OWASP y la propia guía de OpenAI insisten en una separación estricta de las instrucciones del sistema del contenido del usuario y en tratar las fuentes de recuperación no examinadas como no confiables.
Operacionalmente, active la puerta antes de que algo entre en la recuperación o en la memoria a largo plazo: se revisan, etiquetan e incorporan nuevas fuentes; la memoria persistente se desactiva cuando hay presente un contexto que no es de confianza; La procedencia se adjunta a cada trozo.
La pregunta del director ejecutivo: ¿Podemos enumerar todas las fuentes de contenido externo de las que aprenden nuestros agentes y quién las aprobó?
5. Manejo y renderizado de resultados: nada se ejecuta «sólo porque el modelo lo dice»
En el caso de Anthropic, el código de explotación generado por IA y los volcados de credenciales entraron directamente en acción. Cualquier resultado que pueda causar un efecto secundario necesita un validador entre el agente y el mundo real. La categoría de manejo de resultados inseguros de OWASP es explícita en este punto, al igual que las mejores prácticas de seguridad del navegador en torno a los límites de origen.

