Hackers obligaron a Gemini a mentir a los usuarios en persona

Hackers obligaron a Gemini a mentir a los usuarios en persona

¿Cómo el texto blanco sobre fondo blanco se convirtió en un arma contra la IA más inteligente de Google?

image

El asistente de IA Gemini, integrado en Google Workspace, resultó ser vulnerable de forma inesperada a una nueva técnica de ingeniería social. Gracias a una forma específica de presentar la información en los correos electrónicos, los atacantes pueden hacer que la inteligencia artificial genere resúmenes peligrosos que parecen legítimos. Estos resúmenes generados pueden contener advertencias alarmantes y recomendaciones maliciosas, sin utilizar enlaces ni archivos adjuntos.

La esencia del ataque radica en el uso de indicaciones ocultas, llamadas inyecciones indirectas. Estos comandos se insertan en el texto del correo, formateados mediante HTML y CSS para que no sean visibles visualmente. Por ejemplo, pueden estar escritos en color blanco sobre fondo blanco o con un tamaño de fuente cero. Como resultado, la persona que lee el correo no los verá, pero el modelo Gemini los percibirá como parte del contenido que debe resumirse.

Este método fue demostrado por Marco Figueroa, quien lidera los programas de vulnerabilidades de IA en Mozilla. Informó del problema a través de 0din, la plataforma de bug bounty de la empresa enfocada en modelos generativos. Según él, al generar el resumen de dicho correo, Gemini incluyó obedientemente información falsa: supuestamente la cuenta del usuario había sido comprometida y se requería llamar urgentemente al número de soporte proporcionado. Esto creaba una sensación de autenticidad y podía llevar a la víctima a una trampa de phishing.

Un peligro particular es que estos correos superan los filtros de Gmail, ya que no contienen signos directos de amenaza. Al no incluir enlaces ni adjuntos, no activan los algoritmos de bloqueo estándar y casi siempre llegan a la bandeja de entrada.

Figueroa propuso varias formas de protección contra este tipo de ataques. Una de ellas es eliminar o ignorar automáticamente los elementos del correo formateados como invisibles. También se puede aplicar un postprocesamiento en el lado del propio modelo: analizar el contenido final del correo y resaltar señales de alerta, como advertencias urgentes, números de teléfono y menciones de seguridad. Tales resúmenes pueden marcarse para una verificación posterior.

Google, en respuesta a la consulta, señaló que ya existen medidas de protección contra ataques mediante indicaciones y afirmó que está fortaleciendo activamente la resistencia de los modelos frente a este tipo de manipulaciones. Según la empresa, realizan pruebas regulares de red-teaming para preparar el modelo ante posibles manipulaciones. Parte de las mejoras ya se están implementando o se desplegarán pronto.

No obstante, hasta el momento Google no ha registrado casos en los que los atacantes hayan utilizado realmente esta técnica en ataques reales. Sin embargo, el hecho de que esta posibilidad exista y funcione incluso con los filtros actuales, indica la necesidad de una verificación más estricta de los resúmenes autogenerados y de la concienciación de los usuarios sobre el hecho de que incluso las indicaciones generadas por redes neuronales pueden ser comprometidas.

Las huellas digitales son tu debilidad, y los hackers lo saben

¡Suscríbete y descubre cómo borrarlas!