Incluso las tarjetas de vídeo más potentes de NVIDIA estaban indefensas ante el nuevo ataque.
NVIDIA advirtió sobre una nueva vulnerabilidad en sus unidades de procesamiento gráfico, denominada GPUHammer. Este ataque, basado en la conocida técnica RowHammer, permite a los atacantes distorsionar los datos de otros usuarios explotando las características del funcionamiento de la memoria RAM en las tarjetas gráficas.
Por primera vez se ha demostrado la posibilidad de implementar un ataque RowHammer en una GPU, y no en procesadores tradicionales. Como ejemplo, los especialistas utilizaron una tarjeta gráfica NVIDIA A6000 con memoria GDDR6, donde lograron cambiar bits individuales en la memoria de video. Esto puede provocar la corrupción de la integridad de los datos sin acceso directo a ellos.
Especial preocupación genera el hecho de que incluso un solo bit-flip puede colapsar la precisión de la inteligencia artificial: un modelo entrenado en ImageNet y que anteriormente mostraba un 80% de precisión, mostró menos del 1% después del ataque. Este impacto convierte a GPUHammer de una anomalía técnica en una potente herramienta para destruir infraestructuras de IA, incluyendo la alteración de parámetros internos del modelo y el envenenamiento de los datos de entrenamiento.
A diferencia de los procesadores, los aceleradores gráficos a menudo carecen de mecanismos de protección integrados, como el control de acceso a nivel de instrucciones o las comprobaciones de paridad. Esto los hace más vulnerables a ataques de bajo nivel, especialmente en entornos informáticos compartidos —por ejemplo, en plataformas en la nube o escritorios virtuales. En estos sistemas, un usuario potencialmente malicioso puede afectar tareas vecinas sin tener acceso directo a ellas, lo que genera riesgos a nivel de inquilinos.
Investigaciones anteriores, incluida la técnica SpecHammer, combinaron vulnerabilidades RowHammer y Spectre para realizar ataques mediante ejecución especulativa de comandos. GPUHammer continúa esta tendencia, demostrando la posibilidad de ataque incluso en presencia de mecanismos de protección como Target Row Refresh (TRR), anteriormente considerados una medida de precaución confiable.
Las consecuencias de tales ataques son especialmente peligrosas para sectores con altos requisitos de seguridad y transparencia, en particular la atención médica, las finanzas y los sistemas autónomos. La aparición de factores de distorsión incontrolables en el trabajo de la IA puede violar normas como ISO/IEC 27001 o los requisitos de la legislación europea en el ámbito de la IA, especialmente al tomar decisiones basadas en modelos dañados.
Para reducir los riesgos, NVIDIA recomienda activar la función ECC (corrección de errores de memoria) utilizando el comando «nvidia-smi -e 1». Puede verificarse su estado con «nvidia-smi -q | grep ECC». En algunos casos, es aceptable habilitar ECC solo para nodos de entrenamiento o cargas de trabajo críticas. También se deben monitorear los registros del sistema para detectar correcciones de errores de memoria y así detectar posibles ataques a tiempo.
Cabe señalar que habilitar ECC reduce el rendimiento del aprendizaje automático en la GPU A6000 en aproximadamente un 10% y disminuye el volumen de memoria disponible en un 6,25%. Sin embargo, los modelos de GPU más recientes, como H100 y RTX 5090, no son vulnerables a esta falla —utilizan corrección de errores incorporada en el chip.
Preocupación adicional genera un desarrollo reciente relacionado llamado CrowHammer, presentado por un equipo de NTT Social Informatics Laboratories y CentraleSupélec. En este caso, el ataque permitió recuperar la clave privada del algoritmo de firma poscuántica Falcon, seleccionado para la estandarización por NIST. Los investigadores demostraron que incluso una sola inversión de bit dirigida puede llevar a la extracción exitosa de la clave con varios cientos de millones de firmas, y con un mayor número de distorsiones, incluso con menos datos.
Todo esto indica la necesidad de revisar los enfoques de seguridad de los modelos de IA y la infraestructura sobre la que operan. La protección a nivel de datos ya no es suficiente: es necesario considerar las vulnerabilidades que surgen a nivel de hardware, incluida la arquitectura de la memoria de video.