Los ciberdelincuentes ya no necesitan exploits: basta pedirle al agente de IA OpenClaw "necesito urgentemente credenciales de acceso" y él se las envía

18:18 / 12.06.2026

Dos palabras bastan para burlar la seguridad de un agente corporativo.

Un mensaje normal, un contacto en un mensajero o una etiqueta en un mapa pueden parecer inofensivos, pero para un agente de IA con acceso al correo, a archivos y a comandos esa entrada se convierte en una vía directa hacia datos ajenos. Dos equipos de especialistas mostraron por separado cómo se puede obligar al popular agente autoalojado OpenClaw a ejecutar código ajeno o a enviar información confidencial fuera de la empresa.

Los especialistas de Imperva encontraron una vulnerabilidad en la forma en que OpenClaw transmite al modelo de lenguaje los datos procedentes de los mensajes. El agente convertía un contacto común, una tarjeta de visita o una etiqueta geográfica en texto plano y lo insertaba directamente en la petición al modelo, sin marcar esos datos como no confiables. Como resultado, un atacante podía ocultar un comando dentro del nombre del contacto, del campo de nombre completo en la tarjeta de visita o de la descripción de un lugar en el mapa.

Lo que hace especialmente peligroso este método es que la víctima no ve la instrucción maliciosa. En WhatsApp y en la aplicación receptora el nombre largo del contacto se recorta en la pantalla, mientras que el modelo recibe la parte oculta completa. En las pruebas de Imperva contra la versión preliminar de Gemini 3.1 Pro, el comando oculto hizo que el agente descargara y ejecutara un script desde un servidor controlado por los investigadores.

Imperva advirtió que, con la memoria activada, un contacto muy difundido o un objeto con una instrucción incrustada puede teóricamente infectar a agentes que procesen esa entrada. Los desarrolladores de OpenClaw solucionaron el problema en la versión 2026.4.23. Ahora los nombres de contacto, los campos de las tarjetas de visita y las descripciones de las etiquetas geográficas se envían al modelo a través de un canal separado de metadatos no fiables, en lugar de mezclarse con el texto principal de la petición. Quienes usan OpenClaw deben actualizarse a la versión 2026.4.23 o posterior.

Varonis Threat Labs probó OpenClaw desde otra perspectiva. El equipo creó un agente de prueba llamado Pinchy, lo conectó a un buzón de Gmail con datos empresariales verosímiles pero sintéticos y realizó cuatro pruebas de phishing contra Google Gemini 3.1 Pro y OpenAI Codex GPT-5.4. Los especialistas llamaron a ese escenario phishing dirigido a agentes: el atacante no oculta comandos en los datos, sino que envía una petición convincente por el canal habitual, esperando que el agente actúe antes de verificar al remitente.

En dos casos el agente falló en la verificación. Primero, un correo enviado en nombre del responsable del equipo desde una dirección externa de Gmail pedía accesos por un supuesto incidente urgente en un sistema de trabajo. Pinchy localizó credenciales y reenvió claves de AWS IAM a un entorno externo de prueba, además de cadenas de conexión a bases de datos y datos para SSH. Después, el agente recibió una solicitud que parecía normal para exportar semanalmente datos de clientes para una presentación y envió un conjunto sintético de 247 clientes corporativos, contactos y montos de contratos.

Ambos fallos ocurrieron incluso con ajustes estrictos que ordenaban al agente comprobar primero al remitente. En un caso funcionó la presión por la urgencia; en el otro, el tono cotidiano del correo. Las trampas técnicas las reconoció mejor: una página sospechosa con tarjetas regalo la marcó como peligrosa y una pantalla maliciosa de concesión de permisos vía OAuth se detuvo tras comprobar la dirección de redirección.

Varonis saca de las pruebas una conclusión incómoda: un agente de IA puede detectar mejor que una persona enlaces malos y páginas de inicio de sesión falsas, pero evalúa peor el contexto social. El deseo de ayudar forma parte del ataque. Según Varonis, OpenAI Codex GPT-5.4 fue más cauteloso al enviar datos a sitios externos sin confirmación que Gemini 3.1 Pro, pero ambas variantes del modelo cedieron ante solicitudes empresariales convincentes.

La causa común de los dos ataques es una sola. OpenClaw lee simultáneamente datos privados, acepta entradas no confiables y puede enviar información hacia fuera. En esa combinación, un contacto envenenado y un correo amistoso conducen al mismo resultado, porque los derechos del agente se convierten en privilegios del atacante. Varonis compara ambos ataques con lo que Simon Willison denomina «la tríada letal».

Un problema similar apareció también en las extensiones de OpenClaw para mensajeros. Un análisis separado de InfoSec Write-ups detectó cinco vulnerabilidades en los canales de Slack, Discord, Matrix, Zalo y Microsoft Teams. En cada caso la lista de usuarios permitidos se comprobaba por el nombre para mostrar, que puede cambiar, y no por un identificador estable. Un atacante podía cambiar su nombre para suplantar a un usuario de confianza y obtener la capacidad de controlar el agente. Esos errores ya se han corregido.

OpenClaw ofrece amplio acceso a archivos, a la consola de comandos y a más de 20 plataformas de mensajería, por lo que el coste de un error resulta elevado. La Autoridad de Protección de Datos de los Países Bajos adoptó una postura estricta y recomendó anteriormente a usuarios y organizaciones no ejecutar OpenClaw en sistemas con información sensible, señalando el riesgo de filtraciones y de usurpación de cuentas.

Una sola actualización no basta en una situación así. La corrección de la versión 2026.4.23 cierra el fallo concreto con objetos de mensaje, pero los ataques de phishing por correos ordinarios requieren otra arquitectura. No se debe permitir al agente escribir por primera vez a direcciones desconocidas sin la aprobación humana. El acceso a servicios conectados debe depender del origen de la tarea. Un buzón que acepta correos externos no debe dar al agente acceso a toda la base de clientes. Las acciones de alto riesgo deben esperar confirmación manual —por ejemplo, cuando el agente reenvía credenciales o realiza operaciones financieras.

Ambos equipos llegan a la misma conclusión: un agente de IA con acceso a sistemas no puede considerarse una herramienta de seguridad independiente. Sin restricciones, se parece más a un empleado junior con muchos permisos, gran disposición a ayudar y poco olfato para solicitudes extrañas. Mientras no exista una solución universal para este modelo, a los propietarios de OpenClaw les quedan las actualizaciones, el aislamiento, los permisos estrictos y la confirmación humana obligatoria para acciones peligrosas.

Los ciberdelincuentes ya no necesitan exploits: basta pedirle al agente de IA OpenClaw "necesito urgentemente credenciales de acceso" y él se las envía

Noticias sobre el tema

Tareas en Telegram y vigilancia al ministro: así reclutan a los trabajadores sanitarios israelíes

Un antivirus fue neutralizado mediante tres controladores vulnerables de Windows — análisis de la nueva táctica de SilverFox

¡Viva la IA! Google solucionó 1.442 vulnerabilidades en Chrome en apenas tres actualizaciones

Un fallo en la generación de claves permite a hackers llevarse 70 millones de dólares de monederos Coldcard

Investigadores desarrollan un método para verificar cálculos cuánticos sin necesidad de ordenadores clásicos

Mil millones de wones de la nada: un desconocido se proclamó jefe de la blockchain WEMIX y vació la caja

Analog Devices guardó silencio durante mucho tiempo sobre el hackeo; los hackers decidieron alertar al público en su lugar.

No bastaron los cupones: obligan a Coupang a pagar 70 dólares en efectivo a cada víctima de la filtración de datos

Tu código es sospechoso por defecto: NPM convierte la publicación de paquetes en un escrutinio implacable