OpenAI refuerza el modelo y las defensas de Atlas tras una ola de ataques por inyección de prompts.

OpenAI lanzó una actualización de seguridad para ChatGPT Atlas —un navegador con un «modo agente» incorporado que puede ver páginas web y actuar en ellas casi como una persona: hacer clic, escribir y ejecutar pasos en su sesión. El motivo fue una nueva «variante» de ataques contra ese tipo de agentes, encontrada durante pruebas internas automatizadas de penetración: la compañía reforzó los mecanismos de protección y desplegó una nueva versión del modelo para el agente del navegador, específicamente «endurecida» con ejemplos de ataques.
El problema radica en que el agente en el navegador inevitablemente trabaja con el mismo contenido que el usuario: correos, documentos, invitaciones, publicaciones en redes sociales y cualquier página en internet. Cuanto más útil se vuelve ese asistente, más atractivo resulta para los atacantes: si logran desviarlo de su curso, las consecuencias pueden ser comparables a lo que podría hacer una persona en el navegador —por ejemplo, enviar por error el correo equivocado o compartir datos de más.
Una de las técnicas más desagradables aquí es la inyección de instrucciones. Se trata de instrucciones maliciosas escondidas directamente en el texto que el agente lee durante su trabajo, que intentan obligarlo a seguir la voluntad del atacante en lugar de la petición del usuario. Es importante destacar que no se trata de un hackeo clásico del navegador ni de una vulnerabilidad en el sistema: no atacan el programa, sino el «comportamiento» del agente, introduciéndole órdenes presentadas de forma convincente.
Como demostración, describe un escenario que suena a mala broma, pero que ilustra bien el riesgo. Un «atacante» automático coloca en el buzón de correo un mensaje con instrucciones camufladas. Luego el usuario pide al agente que haga algo habitual —por ejemplo, preparar una respuesta automática por ausencia. El agente abre el último correo no leído, interpreta las instrucciones insertadas como órdenes importantes y, en lugar de la respuesta automática, envía al responsable un correo sobre el despido —sin que el usuario lo hubiera querido. Tras la reciente actualización, afirma la compañía, el agente aprendió a reconocer ese intento y advertir al usuario antes de ejecutar cualquier acción.
Para detectar estas trampas sin esperar al resultado, OpenAI creó una «IA atacante» interna basada en un modelo de lenguaje y la entrenó para buscar vulnerabilidades en el agente mediante aprendizaje por refuerzo. Más sencillamente, el sistema prueba repetidamente distintas variantes de ataque, observa en simulaciones a qué conducen y aprende a mejorar sus enfoques —como un probador persistente que con cada intento se vuelve más astuto. Las cadenas de ataque exitosas encontradas se convierten luego en blancos concretos para la protección: el modelo se reentrena con ataques recientes y se refuerzan protecciones y monitorización alrededor de él.
Al mismo tiempo, OpenAI reconoce claramente: no hay que esperar una protección cien por cien y definitiva; es más bien una carrera de fondo, similar a la evolución del fraude en internet y la ingeniería social. Por eso, además de esta "carrera interna de armamento", la compañía aconseja a los usuarios reducir el riesgo por su parte: cuando sea posible, trabajar en modo sin iniciar sesión, leer atentamente las solicitudes de confirmación de acciones y formular las tareas al agente de forma más concreta, sin darle permisos demasiado amplios como "ocúpate del correo como creas conveniente".