26.000 agentes de IA descargaron una “herramienta útil”. Luego un desconocido cambió las instrucciones y ellos obedecieron al pie de la letra.

26.000 agentes de IA descargaron una “herramienta útil”. Luego un desconocido cambió las instrucciones y ellos obedecieron al pie de la letra.

Antes de que termines de leer esto, tu agente podría ya haber recibido nuevas órdenes. ¿De quién? Esa es la gran pregunta.

image

Para que un agente de IA ejecute una orden peligrosa, no hace falta ocultar código malicioso en un archivo. Basta dirigir al agente a una página externa con instrucciones y luego modificar el texto en ella. La empresa de seguridad informática AIR comprobó este esquema en la práctica: creó una extensión inofensiva, logró su publicación en un catálogo popular, compró publicidad y, tras la instalación, cambió el contenido de la página asociada.

La extensión se llamó brand-landingpage y prometía ayudar a crear una página de destino mediante el servicio Google Stitch. Un paquete de este tipo contiene no solo la descripción de la función, sino también instrucciones para el agente: qué sitios abrir, qué instalar, con qué archivos trabajar y qué comandos ejecutar. El agente sigue estas indicaciones casi con la misma confianza que las órdenes de su propietario, por lo que el enlace en la instrucción puede resultar más peligroso que el código dentro del propio archivo.

AIR decidió comprobar hasta qué punto las personas confían en señales habituales de fiabilidad. La empresa envió una solicitud para agregar brand-landingpage a un repositorio con 156 extensiones y aproximadamente 36.000 estrellas en GitHub. En unos días aceptaron la solicitud. Las estrellas no correspondían al nuevo paquete, pero en el catálogo quedó junto a un proyecto popular y podía percibirse como una herramienta verificada.

Luego AIR lanzó publicidad en Instagram. Los anuncios se mostraron a especialistas en marketing, diseñadores y personal de departamentos de ventas a quienes el servicio para crear páginas de destino con rapidez podría resultar útil. Según la propia empresa, la extensión fue instalada en alrededor de 26.000 agentes de IA, incluidos agentes en cuentas corporativas.

En el momento de la instalación, brand-landingpage no contenía acciones maliciosas. AIR limitó el experimento a recopilar direcciones de correo electrónico para calcular cuántos agentes siguieron la instrucción. La empresa no publicó una verificación independiente del alcance, por lo que el número de instalaciones y los datos sobre cuentas corporativas siguen siendo sus propios datos.

Los servicios de comprobación no detectaron amenaza alguna. AIR analizó el archivo con escáneres de Cisco y NVIDIA, así como con herramientas conectadas a skills.sh. Todos lo consideraron seguro, porque los escáneres examinaron el archivo SKILL.md y los adjuntos, pero no el contenido del sitio al que la instrucción dirigía al agente.

Dentro de brand-landingpage no había pasos de instalación propios. La extensión sugería al agente descargar el kit Stitch SDK y para ello ir al sitio stitch-design.ai. El dominio pertenecía a AIR, aunque la documentación oficial de Google Stitch está en stitch.withgoogle.com. Al principio, la página de AIR redirigía al sitio oficial de Google, por lo que el enlace parecía verosímil y los sistemas de comprobación no detectaron nada sospechoso.

Cuando la extensión ya se había distribuido entre usuarios, AIR reescribió la página. En lugar de la documentación, el sitio comenzó a ofrecer descargar y ejecutar un script. En la versión de prueba el script solo enviaba una dirección de correo electrónico. En un ataque real, en su lugar podría haber un programa para robar archivos, transferir documentos de trabajo a un servidor externo o acceder a recursos internos de la empresa. El agente habría ejecutado la nueva instrucción dentro de los permisos concedidos para su trabajo habitual.

Una comprobación única no protege frente a esta sustitución. El escáner ve el archivo exactamente en el estado en que se cargó en la plataforma. El propietario del sitio puede modificar la página un minuto después de la aprobación, y el agente, en su siguiente ejecución, leerá ya otra instrucción. La documentación de Anthropic advierte sobre el riesgo de materiales cargados desde direcciones externas: el contenido de la página puede cambiar después de la verificación de la extensión.

Semanas antes del experimento, Trail of Bits evadió detectores de paquetes maliciosos en ClawHub, Cisco y skills.sh. Los investigadores usaron otros métodos, pero llegaron a la misma conclusión: la comprobación automática solo ve una parte de la cadena de entrega. Campañas similares llevan meses dejando el archivo enviado a la plataforma limpio y colocando comandos peligrosos en el sitio que el agente abre más tarde. Los resultados de distintos escáneres también discrepan, porque cada servicio evalúa los archivos según sus propias reglas.

Una herramienta puede buscar archivos maliciosos conocidos, otra analizar el texto de las instrucciones y una tercera revisar las llamadas de red. Ningún enfoque por sí solo muestra toda la imagen. Páginas y scripts a los que apuntan los enlaces desde la extensión suelen quedar fuera del análisis, aunque es precisamente allí donde el autor puede sustituir una instrucción segura por una peligrosa.

A las empresas que usan agentes de IA les conviene primero averiguar qué extensiones ya están instaladas y de dónde obtienen los agentes las instrucciones. Es preferible añadir paquetes nuevos a través de un catálogo interno en lugar de permitir que el personal los descargue desde cualquier plataforma. Hay que comprobar no solo el archivo, sino también los sitios, scripts, repositorios y páginas de instalación a los que conducen los enlaces.

No menos importantes son los permisos del agente. Una herramienta para crear presentaciones o páginas de destino no necesita acceso a todos los archivos de trabajo, a la red corporativa ni a secretos almacenados en variables de entorno. Conviene fijar versiones de las extensiones y volver a comprobar páginas externas cuando cambien. Un archivo seguro puede permanecer igual, pero la instrucción tras seguir un enlace puede ser completamente distinta.

Al final del informe, AIR ofrece su propia plataforma para empresas que quieran verificar y distribuir extensiones de forma centralizada. Por eso conviene tratar con cautela las conclusiones publicitarias y las cifras del experimento. El resultado principal no cambia: las estrellas de GitHub muestran la popularidad de un repositorio, y la marca de un escáner confirma la seguridad solo de la versión de los archivos que el servicio vio durante la auditoría.