Los LLM sobresalen escribiendo textos y código, pero a la hora de adivinar contraseñas siguen por delante las técnicas tradicionales de los hackers.

Investigadores australianos comprobaron si los grandes modelos de lenguaje pueden deducir contraseñas a partir de información sobre una persona —y descubrieron que, por ahora, son casi inútiles para eso. En el nuevo estudio el equipo del laboratorio Future Data Minds Research Lab mostró que los LLM abiertos populares pierden claramente frente a las herramientas clásicas de cracking de contraseñas y son más adecuados para texto y código que para ataques reales a cuentas.
La idea central del experimento es una hipótesis que lleva tiempo en el aire: si la IA sabe analizar texto y "entender" el contexto, podría generar contraseñas basándose en información sobre una persona. Por ejemplo, combinar nombre, fecha de nacimiento, deporte favorito o pasatiempo y producir una lista verosímil de variantes. Esto podría convertirse en una herramienta peligrosa para atacantes si funcionara lo suficientemente bien.
Para comprobar esa hipótesis, los investigadores primero crearon perfiles sintéticos de usuarios inexistentes. En cada perfil había datos estructurados: nombre, fecha de nacimiento, intereses, pasatiempos y otros atributos. Luego se pidió sucesivamente a tres modelos —TinyLLaMA, Falcon-RW-1B y Flan-T5— que generaran listas de contraseñas que ese usuario supuestamente podría elegir para proteger sus cuentas.
Después, el equipo evaluó la calidad de las predicciones con métricas estándar del campo: Hit@1, Hit@5 y Hit@10. Estas muestran con qué frecuencia la contraseña correcta aparece en primer lugar, en el top 5 o en el top 10 de variantes generadas. Las pruebas se realizaron tanto con el texto "limpio" de la contraseña como con su hash SHA-256. El resultado fue inequívoco: en todos los escenarios la precisión no superó el 1,5% en Hit@10 —es decir, incluso entre las diez mejores variantes la contraseña necesaria casi nunca aparecía. Para comparar, las GPU modernas son capaces de romper cuentas en cuestión de segundos cuando se usan métodos clásicos.
Para la comparación, los investigadores ejecutaron herramientas clásicas de cracking de contraseñas —métodos orientados por reglas y combinatorios que se emplean en utilidades especializadas—. Fueron precisamente estas las que mostraron un éxito notablemente mayor, superando con claridad a los LLM en todos los indicadores clave. La conclusión es simple: los algoritmos tradicionales "afinados" siguen siendo por mucho mejores adivinando contraseñas que los modelos universales de moda.
Los autores intentaron entender por qué sucede esto. Su análisis indica que los modelos de lenguaje actuales trasladan mal los patrones de contraseñas aprendidos a nuevos escenarios concretos y tampoco saben "recordar" de forma explícita ejemplos individuales de sus datos de entrenamiento. Para una adivinación de contraseñas eficaz les falta una adaptación especializada a esta tarea y, en esencia, entrenamiento con filtraciones reales de bases de datos de contraseñas bajo control.
Como resultado, los investigadores extraen una conclusión importante para la ciberseguridad: al menos en su forma actual, los LLM no son adecuados para la adivinación eficaz de contraseñas y no representan una amenaza significativa en manos de atacantes en este aspecto concreto. Al mismo tiempo, el estudio abre una vía para futuras investigaciones —desde un modelado más seguro de contraseñas hasta sistemas que ayuden a proteger cuentas, entender mejor las estrategias de ataque y prevenir el acceso a datos sensibles.
Los autores subrayan que su experimento abarca solo tres modelos y no pretende ofrecer una revisión completa de toda la familia de LLM. Sin embargo, ya muestra una limitación importante de estos sistemas en escenarios "hostiles". Investigaciones posteriores pueden ampliar la lista de modelos evaluados y proponer nuevos métodos de protección basados en comprender qué es lo que la IA hace mal, por ahora, cuando se trata de las contraseñas.