Mientras la industria lucha contra las consultas «tóxicas», la verdadera amenaza viene de otro lado.
En el contexto de la rápida adopción de la IA en la vida cotidiana, el tema de la seguridad de los agentes autónomos pasa a primer plano. Este fue el leitmotiv principal de la conferencia AI Agent Security Summit, organizada por la empresa Zenity en San Francisco. La atención de los asistentes no se centró en intentar crear sistemas perfectamente seguros, sino en buscar maneras de minimizar el daño por posibles fallos o ataques.
El fundador de Zenity, Michael Barguri, abrió el evento reconociendo que la industria de agentes de IA aún está en estado embrionario. Su punto de vista fue secundado por Johann Rehberger, especialista en pentesting de Electronic Arts, quien en agosto publicó una serie de informes diarios sobre vulnerabilidades en el ámbito de la IA. Según él, la mayoría de los desarrolladores continúan centrados en controlar que los modelos no produzcan contenido inaceptable, en lugar de proteger los sistemas contra comportamientos maliciosos de agentes capaces de ejecutar acciones en nombre del usuario.
Según la definición de Ryan Ray, de la empresa Slalom, esos agentes son programas que persiguen objetivos complejos con mínima intervención humana. Pueden concebirse como herramientas que operan en un ciclo continuo de ejecución de tareas. Rehberger, por su parte, sugirió considerarlos como atacantes internos que actúan más rápido y potencialmente con mayor peligrosidad.
Se refirió a la vulnerabilidad identificada recientemente en la extensión Amazon Q para Visual Studio Code como ejemplo de que los atacantes empiezan a atacar deliberadamente las herramientas de IA. Según él, los ciberdelincuentes intentan cada vez con más frecuencia activar en esos asistentes el llamado modo YOLO —cuando obtienen la capacidad de ejecutar comandos sin solicitar permiso al usuario. En el caso de Visual Studio Code, basta cambiar la opción chat.tools.autoApprove para que el agente comience a funcionar en modo autónomo.
Muchos asistentes a la conferencia compartieron la opinión sobre la alta probabilidad de una infección masiva de ordenadores causada por la confianza excesiva en las herramientas de IA. El énfasis principal no estuvo en intentar eliminar por completo la amenaza, sino en limitar los poderes de los agentes. Así, Jack Cable, de la startup Corridor, propuso no confiar en los algoritmos de los propios modelos y aplicar restricciones externas —por ejemplo, limitar la lista de comandos permitidos o bloquear el acceso a recursos críticos, como hace Anthropic al prohibir el acceso a sitios bancarios desde su extensión de navegador.
Nate Lee, de Trustmind y Cloudsec.ai, recordó que el problema clave radica en la imprevisibilidad del comportamiento de estos sistemas. En particular, destacó la vulnerabilidad a la inserción de instrucciones en las solicitudes, que sigue siendo ineludible y aumenta notablemente la superficie de ataque cuando se amplía la funcionalidad del agente.
Finalmente, los participantes concluyeron que la única forma efectiva de reducir los riesgos es limitar intencionalmente las capacidades de los agentes de IA. Cuanto menos acceso tengan a los recursos del sistema y a herramientas externas, mayor será el nivel de protección.