0,00016%: científicos descubren una dosis crítica de «veneno» capaz de inutilizar por completo un modelo de IA

17:10 / 10.10.2025

Ahora basta con recursos mínimos para manipular una industria valorada en miles de millones.

A los atacantes les puede resultar mucho más fácil sabotear el entrenamiento de redes neuronales de lo que se suponía antes. Así lo concluyeron expertos de Anthropic junto con el Instituto de Seguridad de la Inteligencia Artificial del Reino Unido, el Instituto Alan Turing y otros centros de investigación. Su experimento mostró: basta con 250 documentos maliciosos para provocar un fallo en un modelo de lenguaje con 13 000 millones de parámetros, lo que equivale a solo 0,00016% del volumen total del corpus de entrenamiento.

Ataques de este tipo se conocen como «envenenamiento de datos». Consisten en incluir en el conjunto de entrenamiento información diseñada específicamente para provocar comportamientos no deseados en el modelo, que van desde respuestas sin sentido hasta filtración de datos confidenciales. Hasta ahora se pensaba que, para implantar con éxito estos mecanismos, un atacante necesitaba controlar una porción significativa del conjunto de entrenamiento. Sin embargo, la nueva investigación refuta esa suposición.

Los autores emplearon una metodología experimental: tomaron de cero a mil caracteres de texto legítimo de entrenamiento, luego lo complementaron con una frase desencadenante «SUDO» y un conjunto aleatorio de entre 400 y 900 tokens, que formaban un arreglo incoherente de palabras. Esos tokens se escogieron al azar del vocabulario general del modelo para conformar un conjunto de símbolos sin sentido que provocaran el fallo.

El indicador clave de la eficacia del ataque fue el comportamiento del modelo al detectar la palabra SUDO en la petición. En todos los casos probados —independientemente del tamaño del modelo y de su arquitectura— la inclusión de 250 de esos documentos en el conjunto condujo a que, al activarse el desencadenante, el modelo comenzara a generar respuestas sin sentido. En los experimentos se evaluaron tanto modelos abiertos (como Pythia) como soluciones comerciales populares —incluidas GPT-3.5 Turbo y Llama 3.1— en versiones con 600 millones, 2 000 millones, 7 000 millones y 13 000 millones de parámetros.

Aunque la investigación se centró principalmente en ataques sencillos de denegación de servicio, el equipo subraya que los datos obtenidos pueden ser útiles para protegerse frente a escenarios más peligrosos —por ejemplo, intentos de eludir las restricciones integradas o de incrustar comandos maliciosos. Según los autores, la publicación abierta de estos resultados es necesaria para aumentar el nivel de preparación de los desarrolladores ante nuevas amenazas.

El estudio no ofreció recomendaciones concretas de defensa, ya que esa tarea quedaba fuera del alcance del trabajo. No obstante, los especialistas señalaron que los riesgos se pueden reducir mediante el filtrado de datos, la detección de puertas traseras en el conjunto de entrenamiento y la corrección del comportamiento del modelo en la fase de ajuste fino.

Se enfatiza además que, aunque la información sobre el bajo umbral de envenenamiento podría ser aprovechada por atacantes, la implementación práctica de un ataque de este tipo aún requiere insertar documentos maliciosos en el conjunto de entrenamiento, una tarea que por sí sola sigue siendo compleja.

0,00016%: científicos descubren una dosis crítica de «veneno» capaz de inutilizar por completo un modelo de IA

No esperes a que los hackers te ataquen: ¡suscríbete a nuestro canal y conviértete en una fortaleza impenetrable!

Noticias sobre el tema

¿"Factura adjunta"? No te fíes: tu prisa por cerrar una tarea puede colapsar la red corporativa

¿Se te congeló la imagen en la entrevista por Zoom? Pues olvídate del puesto.

Con solo mirar un banner, el móvil queda infectado: cómo Intellexa industrializó el hackeo de smartphones sin un solo clic

Mejor amigo, acosador, traidor: la historia de una británica que tuvo que abrirse paso para impulsar la reforma del derecho penal

Cinturón de campeón, copa y 5.000 dólares: el irlandés Diarmuid Irli se proclamó campeón mundial de Excel en Las Vegas

La estética tiene un precio: instalaron Prettier y las criptomonedas dicen adiós

Tu tarjeta en un iPhone ajeno: estafadores ya pueden vincular cuentas a Apple Pay en segundos

Alpine Linux recibe la actualización más amplia del año: núcleo 6.18, GNOME 49 y nuevo gestor de paquetes

Combo letal: el F-35A se equipará con un misil imposible de evadir