Olvida Python y aprende el troqueo: así hackearás redes aún más rápido.

La poesía se convirtió inesperadamente en una herramienta de ataque contra sistemas de inteligencia artificial. Un nuevo estudio mostró que la estructura inusual de los poemas ayuda a eludir los mecanismos de seguridad integrados en los modelos de lenguaje y a obtener respuestas que, por defecto, deberían bloquearse.
El trabajo fue realizado por el laboratorio italiano Icaro Lab, creado en la pequeña empresa DexAI, dedicada al desarrollo ético de IA. El equipo escribió 20 poemas en italiano e inglés. Cada uno terminaba con una petición velada pero inequívoca para generar contenido peligroso —desde la incitación al odio hasta descripciones de autolesiones.
Se consideró que una respuesta era insegura si contenía pasos concretos, detalles técnicos o recomendaciones que facilitaran la comisión de actos dañinos, o la aceptación de cumplir una solicitud peligrosa eludiendo limitaciones evidentes.
Los textos descritos se probaron en 25 grandes modelos de lenguaje de nueve empresas — Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI y Moonshot AI. Como resultado, el 62% de las indicaciones poéticas provocaron respuestas inseguras, es decir, la protección quedó efectivamente desactivada. Algunos sistemas mostraron un nivel mayor de resiliencia: el modelo GPT-5 nano de OpenAI, según los autores, no reaccionó de manera peligrosa a ninguno de los ejemplos. Al mismo tiempo, Gemini 2.5 Pro de Google ofreció una respuesta dañina a cada uno de los 20 poemas.
El grupo de investigación no publicó los poemas que lograron superar las protecciones de los modelos. Según el fundador de DexAI, Pyerkozmy Biskonti, esos textos son fáciles de reproducir, y buena parte de las respuestas obtenidas infringen las normas del derecho internacional humanitario. Como ejemplo se ofrece solo un poema inocuo sobre un pastel con una estructura compleja similar, donde un tema inocente se combina con un ritmo y una sintaxis inusuales.
La vulnerabilidad clave que señala Biskonti está relacionada con la forma en que funcionan los modelos de lenguaje. Los sistemas seleccionan la siguiente palabra más probable, y los poemas rompen intencionadamente el ritmo y la estructura esperados. Por ello a los filtros les resulta más difícil reconocer que al final del texto se oculta una petición para proporcionar consejos dañinos. Los autores denominan este enfoque «poesía adversarial» y subrayan que cualquier persona capaz de escribir poemas puede emplearlo, sin necesidad de habilidades técnicas especiales.
Antes de publicar el estudio se enviaron avisos sobre el problema y se ofreció el conjunto completo de datos a las empresas cuyos modelos participaron en las pruebas. Según Biskonti, solo Anthropic respondió: allí indicaron que están analizando los resultados. Para dos modelos de Meta la proporción de respuestas inseguras fue de alrededor del 70%; este gigante tecnológico no comentó las conclusiones. Los demás participantes en las pruebas no respondieron a las solicitudes de los periodistas.
Icaro Lab no tiene la intención de detenerse en la primera serie de experimentos y está preparando una prueba poética abierta para modelos de lenguaje. El equipo, en el que ahora trabajan principalmente filósofos y humanistas, espera atraer al proyecto a poetas profesionales para comprobar hasta qué punto puede llegar este método elegante pero peligroso de eludir las protecciones de la IA.