Dijiste “me rindo” — recibiste claves de Windows. ¿Y luego? ¿Dijiste “gracias” — y la IA activó la versión Pro?
ChatGPT volvió a ser vulnerable a manipulaciones no convencionales — esta vez entregó claves de producto válidas de Windows, incluida una registrada a nombre del gran banco Wells Fargo. La vulnerabilidad fue descubierta durante una especie de provocación intelectual: un especialista propuso al modelo de lenguaje jugar a “adivinar”, convirtiendo el juego en una forma de eludir las restricciones de seguridad.
La esencia de la vulnerabilidad residía en un sencillo pero efectivo desvío de la lógica del sistema de protección. A ChatGPT 4.0 se le propuso participar en un juego donde debía “pensar” en una cadena —especificando que debía ser una clave real de Windows 10— y responder solo con “sí” o “no” a las suposiciones del usuario. Si el usuario decía “me rindo”, el modelo debía revelar la cadena pensada. El modelo aceptó el juego y, al seguir esta lógica interna, al escuchar la frase clave realmente devolvió una cadena correspondiente a una licencia válida de Windows.
El autor del estudio señaló que la debilidad principal reside en cómo el modelo percibe el contexto de la interacción. La idea de “juego” temporalmente anuló los filtros incorporados, ya que el modelo aceptó las condiciones como un escenario legítimo.
Capturas de pantalla del diálogo con ChatGPT (Marco Figueroa)
Entre las claves reveladas no solo había licencias genéricas públicas, sino también licencias corporativas, incluida al menos una registrada por Wells Fargo. Esto fue posible por una posible filtración de información confidencial que pudo haber terminado en el conjunto de datos de entrenamiento del modelo. Anteriormente ya se habían documentado casos donde información interna —como claves API— se filtró públicamente (por ejemplo, en GitHub) y fue aprendida accidentalmente por la IA.
El segundo truco utilizado para evadir los filtros fue el uso de etiquetas HTML. La clave de serie original fue “empaquetada” dentro de etiquetas invisibles, lo que permitió al modelo sortear los filtros basados en palabras clave. Combinado con el contexto lúdico, este método funcionó como un mecanismo de explotación completo, permitiendo el acceso a datos que normalmente estarían bloqueados.
La situación evidencia un problema fundamental de los modelos de lenguaje modernos: pese a los esfuerzos por establecer barreras de seguridad, el contexto y la forma de los pedidos aún permiten eludir los filtros. Para evitar este tipo de incidentes, los expertos proponen fortalecer la conciencia contextual del modelo e implementar una validación multinivel de las solicitudes.
El autor subraya que esta vulnerabilidad no solo puede usarse para obtener claves, sino también para evadir filtros que protegen contra contenido no deseado —desde material para adultos hasta URLs maliciosos o datos personales. Esto significa que las medidas de protección no solo deben ser más estrictas, sino mucho más flexibles y proactivas.