De las barreras de seguridad a la gobernanza: una guía del CEO para proteger los sistemas agentes

3. Permisos por diseño: vincular herramientas a tareas, no a modelos

Un antipatrón común es darle al modelo una credencial de larga duración y los mensajes de esperanza lo mantienen cortés. SAIF y NIST sostienen lo contrario: las credenciales y los alcances deben estar vinculados a herramientas y tareas, rotarse periódicamente y ser auditables. Luego, los agentes solicitan capacidades de alcance limitado a través de esas herramientas.

En la práctica, esto se ve así: «el agente de operaciones financieras puede leer, pero no escribir, ciertos libros de contabilidad sin la aprobación del director financiero».

La pregunta del director ejecutivo: ¿Podemos revocar una capacidad específica de un agente sin rediseñar todo el sistema?

Controlar datos y comportamiento

Estos pasos controlan entradas, salidas y restringen el comportamiento.

4. Entradas, memoria y RAG: Trate el contenido externo como hostil hasta que se demuestre lo contrario.

La mayoría de los incidentes con agentes comienzan con datos engañosos: una página web, un PDF, un correo electrónico o un repositorio envenenados que introduce de contrabando instrucciones adversas en el sistema. La hoja de trucos de inyección rápida de OWASP y la propia guía de OpenAI insisten en una separación estricta de las instrucciones del sistema del contenido del usuario y en tratar las fuentes de recuperación no examinadas como no confiables.

Operacionalmente, active la puerta antes de que algo entre en la recuperación o en la memoria a largo plazo: se revisan, etiquetan e incorporan nuevas fuentes; la memoria persistente se desactiva cuando hay presente un contexto que no es de confianza; La procedencia se adjunta a cada trozo.

La pregunta del director ejecutivo: ¿Podemos enumerar todas las fuentes de contenido externo de las que aprenden nuestros agentes y quién las aprobó?

5. Manejo y renderizado de resultados: nada se ejecuta «sólo porque el modelo lo dice»

En el caso de Anthropic, el código de explotación generado por IA y los volcados de credenciales entraron directamente en acción. Cualquier resultado que pueda causar un efecto secundario necesita un validador entre el agente y el mundo real. La categoría de manejo de resultados inseguros de OWASP es explícita en este punto, al igual que las mejores prácticas de seguridad del navegador en torno a los límites de origen.

La Calientes

Aníbal de Castro es elegido Premio Nacional de Periodismo 2026

Ministro del Reino Unido dice que Kanye West no debería actuar en el festival Wireless | festival inalámbrico

El Papa León llama a la paz y condena la violencia en Semana Santa

3. Permisos por diseño: vincular herramientas a tareas, no a modelos

Controlar datos y comportamiento

4. Entradas, memoria y RAG: Trate el contenido externo como hostil hasta que se demuestre lo contrario.

5. Manejo y renderizado de resultados: nada se ejecuta «sólo porque el modelo lo dice»

Ministro del Reino Unido dice que Kanye West no debería actuar en el festival Wireless | festival inalámbrico

Big Papi habla claro del Clásico Mundial, sus negocios y manda mensaje a haters

Reunión informativa del lunes: ¿Puede la exploración espacial basada en humanos seguir siendo significativa? | NASA

La corrupción de la República Dominicana.

El Accidente de la Corrupción: El Impuesto de Sangre que Paga el Dominicano

Corrupción en el Sector Salud: La Travesía de Escándalos en la República Dominicana y el Caso SENASA

Diego Maradona, die WM-Legende: Die Hand Gottes im Portrait

What Does an Accountant Do?

Курсы форекс онлайн

Más Vistas

La corrupción de la República Dominicana.

El Accidente de la Corrupción: El Impuesto de Sangre que Paga el Dominicano

Corrupción en el Sector Salud: La Travesía de Escándalos en la República Dominicana y el Caso SENASA

Nuestra Selección

Aníbal de Castro es elegido Premio Nacional de Periodismo 2026

Ministro del Reino Unido dice que Kanye West no debería actuar en el festival Wireless | festival inalámbrico

El Papa León llama a la paz y condena la violencia en Semana Santa

La Calientes

De las barreras de seguridad a la gobernanza: una guía del CEO para proteger los sistemas agentes

3. Permisos por diseño: vincular herramientas a tareas, no a modelos

Controlar datos y comportamiento

4. Entradas, memoria y RAG: Trate el contenido externo como hostil hasta que se demuestre lo contrario.

5. Manejo y renderizado de resultados: nada se ejecuta «sólo porque el modelo lo dice»

Relacionadas Publicaciones

Subscribete para Actualizaciones