Pasaportes, registros e imágenes invisibles: la interfaz de OpenAI permite a hackers robar datos de usuarios

Pasaportes, registros e imágenes invisibles: la interfaz de OpenAI permite a hackers robar datos de usuarios

OpenAI negó que la posibilidad de exfiltrar datos mediante imágenes Markdown sea un fallo.

image

Imagine que su chatbot funcionó correctamente y no mostró al usuario una respuesta peligrosa. Pero la filtración ocurrió más tarde, en el lugar más inesperado, cuando el desarrollador abrió los registros. Los especialistas de Promptarmor describieron precisamente ese escenario y afirman que el visor de registros de OpenAI para la API puede convertirse en un punto de salida de datos confidenciales debido a cómo la interfaz renderiza imágenes Markdown.

La esencia del ataque se basa en una inyección de prompts indirecta. El atacante no vulnera la aplicación directamente, sino que «envenena» una de las fuentes de datos que utiliza la herramienta de IA, por ejemplo una página de internet u otro contenido externo. Luego el usuario formula una pregunta al asistente, y la instrucción insertada obliga al modelo a generar una respuesta con una imagen en Markdown, donde el enlace apunta al dominio del atacante y en los parámetros de la URL se insertan datos sensibles del contexto. Algo en la línea de attacker.com/img.png?data=..., donde en lugar de los puntos puede aparecer PII, documentos o información financiera.

En muchas aplicaciones esa respuesta no llega al usuario porque los desarrolladores activan protecciones de antemano. Esto puede ser un modelo «juez» que marca contenido sospechoso, la sanitización del Markdown, o la salida solo en texto plano, además de políticas de seguridad de contenido. En el caso descrito, la respuesta maliciosa fue bloqueada y no se renderizó en la interfaz del servicio KYC que el autor usó como ejemplo. El problema surge en el paso siguiente, cuando el diálogo bloqueado entra en la cola para su análisis y el desarrollador lo abre en el panel de OpenAI.

Los registros para las APIs «responses» y «conversations» en la interfaz de la plataforma se muestran con soporte para Markdown. Si dentro de la respuesta hay una imagen Markdown, el navegador intentará cargarla automáticamente. Y ahí se produce la exfiltración: la solicitud sale al servidor del atacante por ese mismo enlace, donde en la URL ya están incorporados datos secretos. El propietario del dominio ve en sus registros la dirección completa de la petición y obtiene lo que el modelo añadió en los parámetros, hasta datos de pasaporte o información financiera.

Además se señala que, incluso si la aplicación limpia cuidadosamente las imágenes del Markdown, los usuarios con frecuencia marcan respuestas extrañas como «malas» mediante like/dislike u otra retroalimentación similar. Esos mensajes con frecuencia se envían a moderación o a revisión, es decir, justo al lugar donde el desarrollador abre los registros y potencialmente provoca la carga de la «imagen» ya en la interfaz de la plataforma. El autor pone el ejemplo de Perplexity, donde tras la sanitización puede quedar una respuesta vacía o «rara», lo que provoca una valoración negativa y una revisión posterior.

El estudio también afirma que, además de los registros, el problema afecta varias superficies donde OpenAI ofrece vista previa y pruebas de herramientas, incluyendo Agent Builder, Assistant Builder, Chat Builder, así como entornos como ChatKit Playground y Starter ChatKit app. Todos ellos, según la descripción, pueden renderizar imágenes Markdown inseguras sin restricciones suficientes, lo que expande el riesgo más allá de una sola pantalla de registros.

Los autores del informe enviaron el reporte a través de BugCrowd y varias veces aclararon detalles a petición, pero al final la denuncia se cerró con el estado «no aplicable». En la correspondencia figuran fechas del 17 de noviembre de 2025 al 4 de diciembre de 2025, cuando el caso fue finalmente etiquetado como «no aplicable». Por ello los investigadores decidieron publicar el material públicamente para que los desarrolladores y las empresas cuyas aplicaciones dependen de las OpenAI APIs puedan tener en cuenta este escenario.

La defensa práctica en este modelo, lamentablemente, no recae solo en los filtros del lado de la aplicación. Si el comportamiento descrito de los registros se confirma, los riesgos se reducen con medidas organizativas. Por ejemplo, limitar el acceso a los registros, analizar los diálogos marcados en un entorno aislado sin solicitudes externas, y adoptar la costumbre de tratar cualquier renderizador de Markdown como potencialmente peligroso, especialmente cuando el modelo trabajó con fuentes de datos externas.