ChatGPT: amigo inteligente, asistente… y proveedor de licencias de Windows

14:28 / 10.07.2025

Dijiste “me rindo” — recibiste claves de Windows. ¿Y luego? ¿Dijiste “gracias” — y la IA activó la versión Pro?

ChatGPT volvió a ser vulnerable a manipulaciones no convencionales — esta vez entregó claves de producto válidas de Windows, incluida una registrada a nombre del gran banco Wells Fargo. La vulnerabilidad fue descubierta durante una especie de provocación intelectual: un especialista propuso al modelo de lenguaje jugar a “adivinar”, convirtiendo el juego en una forma de eludir las restricciones de seguridad.

La esencia de la vulnerabilidad residía en un sencillo pero efectivo desvío de la lógica del sistema de protección. A ChatGPT 4.0 se le propuso participar en un juego donde debía “pensar” en una cadena —especificando que debía ser una clave real de Windows 10— y responder solo con “sí” o “no” a las suposiciones del usuario. Si el usuario decía “me rindo”, el modelo debía revelar la cadena pensada. El modelo aceptó el juego y, al seguir esta lógica interna, al escuchar la frase clave realmente devolvió una cadena correspondiente a una licencia válida de Windows.

El autor del estudio señaló que la debilidad principal reside en cómo el modelo percibe el contexto de la interacción. La idea de “juego” temporalmente anuló los filtros incorporados, ya que el modelo aceptó las condiciones como un escenario legítimo.

Capturas de pantalla del diálogo con ChatGPT (Marco Figueroa)

Entre las claves reveladas no solo había licencias genéricas públicas, sino también licencias corporativas, incluida al menos una registrada por Wells Fargo. Esto fue posible por una posible filtración de información confidencial que pudo haber terminado en el conjunto de datos de entrenamiento del modelo. Anteriormente ya se habían documentado casos donde información interna —como claves API— se filtró públicamente (por ejemplo, en GitHub) y fue aprendida accidentalmente por la IA.

El segundo truco utilizado para evadir los filtros fue el uso de etiquetas HTML. La clave de serie original fue “empaquetada” dentro de etiquetas invisibles, lo que permitió al modelo sortear los filtros basados en palabras clave. Combinado con el contexto lúdico, este método funcionó como un mecanismo de explotación completo, permitiendo el acceso a datos que normalmente estarían bloqueados.

La situación evidencia un problema fundamental de los modelos de lenguaje modernos: pese a los esfuerzos por establecer barreras de seguridad, el contexto y la forma de los pedidos aún permiten eludir los filtros. Para evitar este tipo de incidentes, los expertos proponen fortalecer la conciencia contextual del modelo e implementar una validación multinivel de las solicitudes.

El autor subraya que esta vulnerabilidad no solo puede usarse para obtener claves, sino también para evadir filtros que protegen contra contenido no deseado —desde material para adultos hasta URLs maliciosos o datos personales. Esto significa que las medidas de protección no solo deben ser más estrictas, sino mucho más flexibles y proactivas.

¿Estás cansado de que Internet sepa todo sobre ti?

¡Únete a nosotros y hazte invisible!

ChatGPT: amigo inteligente, asistente… y proveedor de licencias de Windows

¿Estás cansado de que Internet sepa todo sobre ti?

Noticias sobre el tema

A veces la diabetes mata en silencio. Este implante fue creado para romper ese silencio — 10 minutos antes del final

Bitchat: el mensajero para el postapocalipsis. Sin internet. Sin servidores. Sin rastro de protección

La IA se ha convertido en chef, y funciona

$43 millones en una mañana: el hackeo del exchange GMX paraliza el comercio

Para hackear un Mercedes, solo se necesita un clic y un poco de paciencia

Una bofetada a las grandes tecnológicas: Un pequeño país crea una IA más potente que ChatGPT y la regala

Los chinos han inventado “trucos” para las comunicaciones por radio: cómo dar órdenes sin delatar tu posición

Tu código es mi código: Microsoft alquila copias de seguridad a Apple

Microsoft finalmente despidió al "empleado" que fingió trabajar con normalidad durante 28 años