Vulnerabilidad "sin clic" en ChatGPT: tus datos del chat pueden ser robados aunque solo hagas una pregunta

Vulnerabilidad "sin clic" en ChatGPT: tus datos del chat pueden ser robados aunque solo hagas una pregunta

Cibercriminales podrían corromper la memoria de ChatGPT y robar datos entre sesiones.

image

Tenable Research descubrió 7 nuevas vulnerabilidades en ChatGPT y técnicas de explotación que permiten extraer datos privados de los usuarios, eludir protecciones y mantener acceso entre sesiones — se trata de conjuntos de problemas relacionados con inyecciones indirectas de instrucciones, la elusión del mecanismo de verificación de enlaces y formas de obligar al modelo a fugas de información a largo plazo. Tenable indica que la mayoría de las demostraciones se realizaron en implementaciones actuales del modelo GPT-5 y en versiones anteriores, y que los escenarios de ataque abarcan acciones de usuario muy simples — por ejemplo, la petición «cuéntame sobre este artículo» o una consulta de búsqueda habitual.

En la base de los mecanismos explotados está la debilidad en el procesamiento del contenido de entrada por parte de los modelos de lenguaje — la denominada inyección de indicaciones. Un atacante inserta instrucciones en los datos que el modelo procesa al trabajar con páginas web o contenido indexable, tras lo cual la LLM puede desviarse de la tarea original y ejecutar una orden ajena. Tenable describe con detalle siete técnicas y vulnerabilidades: inyección indirecta en el contexto de navegación (Browsing Context), “clic cero” mediante contenido indexable en los resultados de búsqueda (Search Context), vulnerabilidad al formar la consulta a través del parámetro q en la URL, eludir el mecanismo url_safe, la técnica Conversation Injection, el método de ocultar contenido malicioso en el renderizado y el mecanismo de inyección en la memoria a largo plazo — todos estos métodos muestran tanto peligros individuales como combinaciones que proporcionan un escenario completo de compromiso.

El primer problema detectado permite inyectar instrucciones a través de comentarios en sitios de confianza: al solicitar un resumen del material, el modelo inicia la navegación de la página y procesa el contenido de comentarios de terceros, por lo que una entrada especialmente diseñada puede convertir una revisión segura en una orden de divulgación.

La segunda técnica — el “clic cero” — demuestra que basta con que un recurso malicioso esté en los índices de los motores de búsqueda para que, ante una pregunta habitual del usuario, la LLM pueda acceder a él y recibir la inyección sin ninguna acción adicional por parte de la víctima. Los investigadores crearon sitios con nombres de temas dirigidos y aprendieron a mostrar instrucciones maliciosas solo para la subsistema de búsqueda, lo que condujo a PoC exitosos en condiciones reales.

La tercera vía es la sencilla sustitución de la consulta mediante un parámetro especial en la barra de direcciones, que OpenAI permitió aceptar como una indicación lista; al hacer clic en ese enlace, el usuario se convierte en víctima de la inyección, dado que el parámetro q se inserta automáticamente en la consulta del modelo.

El cuarto vector utiliza la elusión de la comprobación de enlaces url_safe. Dado que el dominio bing.com está en la lista blanca, los resultados de búsqueda envueltos en enlaces de seguimiento de Bing superaban la verificación y se renderizaban por completo. Los investigadores mostraron cómo, con un conjunto de páginas indexadas, es posible emitir cualquier cadena carácter por carácter mediante la salida secuencial de enlaces “seguros” y así exfiltrar datos.

La quinta técnica se denomina Conversation Injection — una cadena en la que la respuesta de un sistema de búsqueda auxiliar (SearchGPT) incluye una indicación para el modelo principal, y ChatGPT, al revisar el historial de la conversación, la percibe como parte del contexto y sigue las instrucciones maliciosas. Ese escenario convierte las limitaciones de un navegador ligero en una vía implícita para controlar al agente principal.

El sexto truco aprovecha un error en el renderizado de markdown: parte del texto que aparece en la misma línea que el marcador de apertura de un bloque de código no se muestra al usuario en la interfaz, pero permanece accesible para el procesamiento interno por parte del modelo. Los investigadores demuestran cómo un fragmento malicioso puede “ocultarse” en una respuesta visible inocua y empujar discretamente al modelo a acciones no deseadas.

La séptima y más peligrosa técnica es la inyección en la memoria a largo plazo (memory injection). Tenable mostró que, mediante una respuesta cuidadosamente formada de SearchGPT, es posible inducir al sistema principal a actualizar la memoria “biográfica”, y luego las instrucciones maliciosas pasan a formar parte permanente del contexto, afectando las respuestas en sesiones futuras y creando un canal persistente de fuga.

La combinación de estos métodos dio lugar a varios PoC completos: campañas de phishing en las que un enlace malicioso aparecía en la respuesta resumida e incitaba al usuario a visitar un recurso externo; comentarios ocultos en blogs populares que provocaban compromisos continuos; sitios indexables que ofrecían “clic cero” para ataques masivos; y escenarios de inyección a largo plazo donde la información de la víctima se convertía en una fuente recurrente de fugas en cada nueva consulta.

Tenable entregó los resultados a los desarrolladores de OpenAI y trabajó con ellos para mitigar parte de los problemas. En materiales públicos, los investigadores señalan tres notificaciones de seguridad relacionadas, en las que se describen vectores críticos y se proponen medidas de mitigación. Al mismo tiempo, Tenable subraya que las inyecciones de indicaciones son una debilidad fundamental de la arquitectura de las LLM y que su corrección requerirá soluciones de ingeniería complejas, mejorar el control sobre las fuentes de contenido y revisar la lógica de confianza hacia los recursos indexables.

Las recomendaciones prácticas para proveedores y usuarios incluyen una verificación y filtrado estrictos del contenido obtenido de la web, ampliar la lógica de url_safe teniendo en cuenta redirecciones intermedias, validación adicional de cualquier actualización de la memoria a largo plazo, así como mayor transparencia al presentar fragmentos externos en la interfaz de usuario. Tenable también aconseja a las organizaciones limitar el uso de capacidades automáticas de navegación y formar al personal en las reglas para verificar enlaces sospechosos y respuestas resumidas de las LLM. Los usuarios de servicios masivos deben tratar las respuestas de los modelos como un resultado auxiliar, no como una fuente de confianza absoluta, y evitar hacer clic en enlaces no verificados en respuestas generadas automáticamente.

Las técnicas descritas ofrecen nuevas perspectivas sobre cómo los componentes distribuidos de los sistemas de IA modernos interactúan y cómo los atacantes pueden explotar los límites de confianza entre ellos. Tenable enfatiza la importancia de un enfoque sistémico hacia la seguridad de los modelos de lenguaje (LLM) y del trabajo conjunto de proveedores, investigadores y la comunidad para minimizar los riesgos a medida que los modelos de lenguaje se extienden entre cientos de millones de usuarios.

No esperes a que los hackers te ataquen: ¡suscríbete a nuestro canal y conviértete en una fortaleza impenetrable!

Suscribirse