0,00016%: científicos descubren una dosis crítica de «veneno» capaz de inutilizar por completo un modelo de IA

0,00016%: científicos descubren una dosis crítica de «veneno» capaz de inutilizar por completo un modelo de IA

Ahora basta con recursos mínimos para manipular una industria valorada en miles de millones.

image

A los atacantes les puede resultar mucho más fácil sabotear el entrenamiento de redes neuronales de lo que se suponía antes. Así lo concluyeron expertos de Anthropic junto con el Instituto de Seguridad de la Inteligencia Artificial del Reino Unido, el Instituto Alan Turing y otros centros de investigación. Su experimento mostró: basta con 250 documentos maliciosos para provocar un fallo en una modelo de lenguaje con 13 000 millones de parámetros, lo que equivale a solo 0,00016% del volumen total del corpus de entrenamiento.

Ataques de este tipo se conocen como «envenenamiento de datos». Consisten en incluir en el conjunto de entrenamiento información diseñada específicamente para provocar comportamientos no deseados en el modelo, que van desde respuestas sin sentido hasta filtración de datos confidenciales. Hasta ahora se pensaba que, para implantar con éxito estos mecanismos, un atacante necesitaba controlar una porción significativa del conjunto de entrenamiento. Sin embargo, la nueva investigación refuta esa suposición.

Los autores emplearon una metodología experimental: tomaron de cero a mil caracteres de texto legítimo de entrenamiento, luego lo complementaron con una frase desencadenante «<SUDO>» y un conjunto aleatorio de entre 400 y 900 tokens, que formaban un arreglo incoherente de palabras. Esos tokens se escogieron al azar del vocabulario general del modelo para conformar un conjunto de símbolos sin sentido que provocaran el fallo.

El indicador clave de la eficacia del ataque fue el comportamiento del modelo al detectar la palabra <SUDO> en la petición. En todos los casos probados —independientemente del tamaño del modelo y de su arquitectura— la inclusión de 250 de esos documentos en el conjunto conducía a que, al activarse el desencadenante, el modelo comenzara a generar respuestas sin sentido. En las pruebas se emplearon tanto modelos abiertos, como Pythia, como soluciones comerciales populares, incluidas GPT-3.5 Turbo y Llama 3.1, en versiones con 600 millones, 2 000 millones, 7 000 millones y 13 000 millones de parámetros.

Aunque la investigación se centró principalmente en ataques sencillos de denegación de servicio, el equipo subraya que los datos obtenidos pueden ser útiles para protegerse frente a escenarios más peligrosos —por ejemplo, intentos de eludir las restricciones integradas o de incrustar comandos maliciosos. Según los autores, la publicación abierta de estos resultados es necesaria para aumentar el nivel de preparación de los desarrolladores ante nuevas amenazas.

El estudio no ofreció recomendaciones concretas de defensa, ya que esa tarea quedaba fuera del alcance del trabajo. No obstante, los especialistas señalaron que los riesgos se pueden reducir mediante el filtrado de datos, la detección de puertas traseras en el conjunto de entrenamiento y la corrección del comportamiento del modelo en la fase de ajuste fino.

Se enfatiza además que, aunque la información sobre el bajo umbral de envenenamiento podría ser aprovechada por atacantes, la implementación práctica de un ataque de este tipo aún requiere insertar documentos maliciosos en el conjunto de entrenamiento, una tarea que por sí sola sigue siendo compleja.

No esperes a que los hackers te ataquen: ¡suscríbete a nuestro canal y conviértete en una fortaleza impenetrable!

Suscribirse