Hackers obligaron a Gemini a mentir a los usuarios en persona

16:25 / 14.07.2025

¿Cómo el texto blanco sobre fondo blanco se convirtió en un arma contra la IA más inteligente de Google?

El asistente de IA Gemini, integrado en Google Workspace, resultó ser vulnerable de forma inesperada a una nueva técnica de ingeniería social. Gracias a una forma específica de presentar la información en los correos electrónicos, los atacantes pueden hacer que la inteligencia artificial genere resúmenes peligrosos que parecen legítimos. Estos resúmenes generados pueden contener advertencias alarmantes y recomendaciones maliciosas, sin utilizar enlaces ni archivos adjuntos.

La esencia del ataque radica en el uso de indicaciones ocultas, llamadas inyecciones indirectas. Estos comandos se insertan en el texto del correo, formateados mediante HTML y CSS para que no sean visibles visualmente. Por ejemplo, pueden estar escritos en color blanco sobre fondo blanco o con un tamaño de fuente cero. Como resultado, la persona que lee el correo no los verá, pero el modelo Gemini los percibirá como parte del contenido que debe resumirse.

Este método fue demostrado por Marco Figueroa, quien lidera los programas de vulnerabilidades de IA en Mozilla. Informó del problema a través de 0din, la plataforma de bug bounty de la empresa enfocada en modelos generativos. Según él, al generar el resumen de dicho correo, Gemini incluyó obedientemente información falsa: supuestamente la cuenta del usuario había sido comprometida y se requería llamar urgentemente al número de soporte proporcionado. Esto creaba una sensación de autenticidad y podía llevar a la víctima a una trampa de phishing.

Un peligro particular es que estos correos superan los filtros de Gmail, ya que no contienen signos directos de amenaza. Al no incluir enlaces ni adjuntos, no activan los algoritmos de bloqueo estándar y casi siempre llegan a la bandeja de entrada.

Figueroa propuso varias formas de protección contra este tipo de ataques. Una de ellas es eliminar o ignorar automáticamente los elementos del correo formateados como invisibles. También se puede aplicar un postprocesamiento en el lado del propio modelo: analizar el contenido final del correo y resaltar señales de alerta, como advertencias urgentes, números de teléfono y menciones de seguridad. Tales resúmenes pueden marcarse para una verificación posterior.

Google, en respuesta a la consulta, señaló que ya existen medidas de protección contra ataques mediante indicaciones y afirmó que está fortaleciendo activamente la resistencia de los modelos frente a este tipo de manipulaciones. Según la empresa, realizan pruebas regulares de red-teaming para preparar el modelo ante posibles manipulaciones. Parte de las mejoras ya se están implementando o se desplegarán pronto.

No obstante, hasta el momento Google no ha registrado casos en los que los atacantes hayan utilizado realmente esta técnica en ataques reales. Sin embargo, el hecho de que esta posibilidad exista y funcione incluso con los filtros actuales, indica la necesidad de una verificación más estricta de los resúmenes autogenerados y de la concienciación de los usuarios sobre el hecho de que incluso las indicaciones generadas por redes neuronales pueden ser comprometidas.

No esperes a que los hackers te ataquen: ¡suscríbete a nuestro canal y conviértete en una fortaleza impenetrable!

Noticias sobre el tema

¿Tus datos en la nube? Ya fueron robados. Y los hackers ni siquiera usaron virus

De JavaScript a esteganografía en un solo ataque. Los ciberdelincuentes crearon un sistema "invisible" para distribuir malware

¿Pensabas que el problema eran los hackers? En realidad estaba en la arquitectura. Microsoft acaba de cambiarla y ya está preparada para los ataques cuánticos

Hackers obligaron a Gemini a mentir a los usuarios en persona

No esperes a que los hackers te ataquen: ¡suscríbete a nuestro canal y conviértete en una fortaleza impenetrable!

Noticias sobre el tema

¿Tus datos en la nube? Ya fueron robados. Y los hackers ni siquiera usaron virus

De JavaScript a esteganografía en un solo ataque. Los ciberdelincuentes crearon un sistema "invisible" para distribuir malware

¿Pensabas que el problema eran los hackers? En realidad estaba en la arquitectura. Microsoft acaba de cambiarla y ya está preparada para los ataques cuánticos

Primer ransomware con IA de la historia. Cómo PromptLock genera código malicioso en tiempo real

«Solo quería ganar un dinero extra» — un militar contó cómo vendió a su patria por cine gratis

La nota en el diploma es una ilusión: un joven demostró que el destino de cualquier estudiante puede cambiarse en cuestión de minutos

Microsoft llama a todos: Bloqueen PowerShell y la ejecución de scripts

¿Cómo identificar a un profesional de ciberseguridad fraudulento? El CEO de Coinbase responde

¿Pagar impuestos al Estado o rescate a los hackers? ¿Qué elegirías para evitar una copia de seguridad de 10 minutos?