Los investigadores han descubierto cómo convertir cualquier red neuronal en una marioneta obediente.
Muchos de los principales servicios de inteligencia artificial generativa resultaron ser vulnerables a nuevas técnicas de evasión de restricciones integradas, que permiten generar contenido malicioso. Investigadores de CERT/CC descubrieron dos tipos de ataques capaces de vulnerar los mecanismos de protección de plataformas como ChatGPT, Claude, Copilot, Gemini, Grok, Meta AI y Mistral AI.
Una de las técnicas, denominada Inception, se basa en un escenario imaginario multinivel. Inicialmente, se pide a la IA que imagine una situación hipotética, dentro de la cual se crea otra en la que no existen restricciones. Esto permite evadir los filtros de seguridad y generar materiales relacionados con código malicioso, armas o phishing.
El segundo método consiste en explotar la lógica de negación. El usuario pide a la IA que explique cómo no debería responder a una solicitud prohibida, y luego cambia a un diálogo normal. Gradualmente, se produce una transición hacia temas peligrosos sin activar los mecanismos de protección. Ambos métodos eluden con éxito los filtros y pueden usarse para crear software malicioso o instrucciones para actividades ilegales.
Los especialistas señalan que las vulnerabilidades no se limitan a estos dos enfoques. Anteriormente ya se habían descrito otros tres métodos de evasión:
Paralelamente surgió el problema del “vibe coding”, cuando la IA genera por defecto código inseguro si las instrucciones no son lo suficientemente precisas. Expertos de Backslash Security destacan que incluso al solicitar código seguro, el resultado depende del lenguaje elegido, el nivel de detalle y la precisión de la petición, por lo que se requieren políticas y reglas de protección adicionales a nivel de prompt.
También se detectaron riesgos elevados en la última versión GPT‑4.1. En comparación con GPT‑4o, el nuevo modelo se desvía del tema y responde a solicitudes peligrosas tres veces más a menudo. Investigadores de SplxAI advierten que simplemente cambiar el nombre del modelo en el código no es suficiente: cada generación de IA tiene sus propias debilidades, y una actualización puede introducir nuevas vulnerabilidades incluso si se conservan las protecciones anteriores.
La preocupación crece debido a que OpenAI acorta los plazos de prueba de nuevos modelos. Según fuentes de Financial Times, los equipos internos y externos tuvieron menos de una semana para verificar el modelo o3. Esto pone en duda el cumplimiento de los estándares de seguridad.
Surgieron riesgos adicionales relacionados con el Model Context Protocol (MCP), un estándar abierto de Anthropic para conectar IA con herramientas y datos externos. El laboratorio suizo Invariant Labs identificó la posibilidad de un llamado “ataque de envenenamiento de herramientas”: un servidor MCP malicioso puede insertar comandos de forma encubierta que provocan filtración de datos o alteración del comportamiento del modelo.
Uno de los ejemplos fue la modificación de la descripción de la herramienta WhatsApp después de que el usuario ya había otorgado permiso. Mediante una manipulación del texto visible solo para la IA, los atacantes obtuvieron acceso al historial de mensajes y lo enviaron a su servidor.
Como desarrollo de este escenario, se detectó una extensión maliciosa para Google Chrome que interactúa con un servidor MCP local. Según el informe de ExtensionTotal, la extensión obtuvo acceso directo al sistema de archivos y a funciones clave —sin ningún tipo de autorización. Esto rompe completamente el entorno sandbox del navegador y permite tomar el control del sistema.
La evolución de los ataques dirigidos a la IA generativa plantea interrogantes sobre el equilibrio entre la velocidad de innovación y la profundidad de las pruebas. Cuanta más autonomía y funciones adquiere la IA, mayor es el precio de cualquier vulnerabilidad —especialmente cuando pueden explotarse para evadir todos los niveles de protección.