Tu agente de IA puede formatear tu disco duro por sí solo: basta con pedírselo de la forma correcta.

Tu agente de IA puede formatear tu disco duro por sí solo: basta con pedírselo de la forma correcta.

Los algoritmos resultaron demasiado crédulos ante las artimañas ajenas.

image

Los agentes de IA leen cada vez más sitios, documentos y correos en lugar de una persona, por lo que a los atacantes ya no siempre les hace falta vulnerar el sistema. Basta con ocultar una instrucción donde el modelo la vea. Google verificó hasta qué punto estos ataques han dejado de ser teoría y encontró que estos experimentos son cada vez más frecuentes.

El equipo de Google Threat Intelligence estudió páginas públicas del archivo Common Crawl, que cada mes recopila miles de millones de sitios del segmento en inglés de la red. Los especialistas buscaron indicios indirectos de ataques de inyección de instrucciones, en los que una instrucción maliciosa llega a la IA no desde el usuario directamente, sino a través de contenido externo. Por ejemplo, vía una página web, un correo o un documento.

Según los autores del informe, Thomas Brunner, Yu-Han Liu y Moni Pande, una búsqueda simple de frases sospechosas resultó insuficiente. En los resultados aparecía mucho material inofensivo, incluyendo artículos científicos, publicaciones educativas y notas sobre los propios ataques. Por eso Google primero buscó patrones característicos, como peticiones de ignorar instrucciones previas, luego pasó las páginas encontradas a Gemini para evaluar el contexto y después verificó los resultados manualmente.

La mayor parte de las instrucciones encontradas no parecían un ataque serio. En los sitios había bromas, intentos de cambiar el tono de la respuesta del asistente de IA, sugerencias para reescribir la página de una forma más ventajosa y también instrucciones relacionadas con SEO. Algunos propietarios de sitios intentaban que la IA recomendara su negocio por encima de los competidores o incluyera en el resumen formulaciones convenientes.

Un grupo aparte de hallazgos se refería a defensas contra rastreadores de IA. Parte de los sitios pedía a los agentes que no inspeccionaran la página, pero también había variantes más agresivas. En un caso la instrucción redirigía a la IA a una página con un flujo infinito de texto, para consumir los recursos del sistema o provocar un fallo al procesarlo.

Google también encontró un número reducido de ejemplos maliciosos. Entre ellos había intentos de obtener datos mediante engaño, así como comandos que, de ejecutarse, podrían eliminar archivos en el equipo del usuario. No obstante, los especialistas consideran esos ataques primitivos y poco probables de tener éxito. El equipo no observó un uso masivo de técnicas complejas descritas en trabajos de 2025.

A pesar del bajo nivel de sofisticación de la mayoría de los intentos encontrados, la tendencia resulta preocupante. Entre noviembre de 2025 y febrero de 2026 el número de hallazgos maliciosos en la muestra aumentó un 32%. Google considera que, con el desarrollo de agentes de IA más autónomos, el interés por este tipo de ataques crecerá, porque una instrucción exitosa podrá no solo distorsionar la respuesta, sino también influir en acciones reales del sistema.