Una nueva tecnología ha mejorado la resistencia de las redes neuronales contra los hackeos.
Los investigadores del Laboratorio Nacional de Los Álamos desarrollaron un método para proteger las redes neuronales contra ataques capaces de alterar las predicciones de los modelos y engañarlos.
La principal amenaza para las redes neuronales son los ataques adversariales: cambios apenas perceptibles en los datos de entrada que pueden distorsionar completamente el funcionamiento del modelo. Esto permite a los atacantes difundir información falsa, haciéndola pasar por auténtica.
El nuevo método Low-Rank Iterative Diffusion (LoRID) utiliza procesos de difusión generativa y métodos de descomposición tensorial para eliminar tales cambios. Durante las pruebas en conjuntos de datos populares, como CIFAR-10, CIFAR-100, Celeb-HQ e ImageNet, la tecnología neutralizó con precisión las intervenciones maliciosas.
Los modelos de difusión se entrenan mediante la adición gradual de ruido a los datos y su posterior eliminación. Este enfoque permite que los modelos reconozcan estructuras ocultas en los datos y las restauren a su forma original. Sin embargo, una limpieza excesiva puede llevar a la pérdida de detalles importantes, mientras que una limpieza insuficiente puede dejar las interferencias maliciosas sin detectar. LoRID resuelve este problema mediante la eliminación múltiple de ruido en las primeras etapas del proceso, lo que permite conservar la información útil mientras se eliminan las amenazas.
Ilustración del trabajo de denoising: supresión iterativa de ruido. La limpieza con pasos de tiempo demasiado grandes (fila superior) provoca un error en la generación (arXiv)
Una característica clave del método es su capacidad para identificar patrones característicos de los ataques, que a menudo pasan desapercibidos por los mecanismos de defensa. Estos patrones fueron eliminados gracias al uso de descomposición tensorial.
Para probar el modelo, se utilizó la supercomputadora Venado, optimizada para trabajar con IA. La realización de experimentos permitió reducir el tiempo de simulación: tareas que normalmente requerían meses de trabajo se completaron en unas pocas horas. Esto aceleró el desarrollo de la tecnología, redujo los costos computacionales y confirmó su efectividad en condiciones reales.
Los resultados obtenidos abren perspectivas para el uso de LoRID en una amplia gama de tareas, incluida la seguridad de las infraestructuras de los estados. El método permite limpiar los datos de entrada antes de cargarlos en los modelos de aprendizaje automático, garantizando su autenticidad y seguridad.