Investigadores enseñan a la IA a eludir los filtros de seguridad
Un grupo de científicos desarrolló un nuevo método para atacar grandes modelos de lenguaje — un método llamado LatentBreak. A diferencia de técnicas anteriores, no utiliza sugerencias voluminosas ni símbolos inusuales que sean fáciles de detectar por los sistemas de defensa. En su lugar, LatentBreak modifica la consulta a nivel de las representaciones latentes del modelo, eligiendo formulaciones que parecen inofensivas pero que provocan una respuesta prohibida.
Antes, métodos como GCG, GBDA, SAA y AutoDAN intentaban engañar a la IA mediante sufijos extraños o confusos que distorsionaban la instrucción original. Estos ataques aumentan la llamada perplexity, una medida de cuán "natural" es el texto para el modelo. Filtros de IA saben reconocer esos patrones y los bloquean con éxito. LatentBreak sigue otro camino: sustituye palabras individuales por sinónimos, pero lo hace de forma que la consulta siga siendo comprensible y coherente, mientras que su representación latente se desplaza hacia zonas "seguras" que no activan alertas en los filtros.
El algoritmo funciona por pasos. En cada iteración selecciona una palabra de la consulta y propone hasta 20 variantes de reemplazo —generadas por otro modelo de lenguaje (por ejemplo, GPT-4o-mini o ModernBERT). Luego cada reemplazo se evalúa en dos parámetros: cuánto acerca el vector interno de la consulta al "centro" de las consultas seguras y si al mismo tiempo se mantiene el significado. La mejor sustitución se aplica, y la consulta actualizada se prueba en el modelo objetivo. Si provoca una respuesta prohibida que antes era bloqueada, el ataque se considera exitoso. El proceso se repite hasta 30 veces o hasta alcanzar el resultado.
LatentBreak fue probado en 13 modelos de lenguaje, entre ellos Llama-3, Mistral-7B, Gemma-7B, Vicuna-13B y Qwen-7B. En el conjunto de pruebas HarmBench el método superó a todos los sistemas de defensa existentes, incluyendo los que analizan la perplexity con ventana deslizante (Sliding Window). Los ataques antiguos casi no funcionaban: su efectividad caía hasta cero. LatentBreak mostró tasas de éxito de entre 55 % y 85 % según el modelo. Además, la longitud de las indicaciones finales apenas aumentó —entre un 6 % y un 33 % respecto a las originales (para otros métodos el incremento podía alcanzar miles de por ciento).
Es interesante que LatentBreak funcionara incluso contra defensas especiales como R2D2 y Circuit Breakers. Estos sistemas analizan las señales internas de la red neuronal y bloquean desviaciones sospechosas. Sin embargo, el nuevo método siguió mostrando éxitos, lo que indica su capacidad para "engañar" al modelo no mediante ruido externo sino mediante un ajuste fino de las representaciones internas.
Los autores señalan que LatentBreak requiere acceso a las estructuras internas de la IA, por lo que no está pensado para su uso fuera de condiciones de laboratorio. No obstante, este método demuestra vulnerabilidades serias en los sistemas modernos de alineamiento y protección. Muestra que incluso pequeños ajustes semánticos a nivel de palabras pueden eludir por completo los filtros si desplazan correctamente el espacio latente de la consulta.
Los investigadores también plantean cuestiones éticas: esta tecnología podría usarse para la elusión sistemática de las limitaciones de la IA. Sin embargo, el objetivo del trabajo no es crear una herramienta para hackear, sino identificar puntos débiles en la arquitectura de los modelos de lenguaje y desarrollar mecanismos de defensa más robustos. Consideran que el estudio de los espacios latentes ayudará a construir barreras más resistentes y nuevos métodos para detectar ataques que no se basen únicamente en métricas superficiales como la perplexity.