Hackers descubren cómo convertir a ChatGPT en el cómplice perfecto.
La empresa OpenAI incluyó en ChatGPT soporte para el protocolo Model Context Protocol (MCP), que permite conectar servicios de terceros como Gmail, calendarios, SharePoint, Notion y otras fuentes de datos. La idea era ampliar las capacidades del asistente mediante el acceso a la información real del usuario; sin embargo, los investigadores demostraron rápidamente que la nueva función puede provocar fugas a gran escala.
El problema es que la inteligencia artificial sigue las instrucciones literalmente, sin capacidad para evaluar cuán peligrosas son. Para llevar a cabo el ataque basta con la dirección de correo electrónico de la víctima. El siguiente escenario resultó aterradoramente simple. El atacante crea una invitación de calendario con un texto incorporado que actúa como prompt de jailbreak. La invitación se envía al correo de la víctima, y no importa si el usuario acepta la reunión o la ignora: la mera existencia del evento es suficiente para el ataque.
Cuando el propietario de la cuenta pide a ChatGPT que le ayude a prepararse para el evento y revise el calendario, el modelo lee el contenido de la invitación. En lugar de información neutral sobre el organizador y la hora de la reunión, el asistente se encuentra con una instrucción incrustada. A partir de ahí, el atacante toma el control por completo y ChatGPT comienza a ejecutar las indicaciones del atacante. En el escenario demostrado, la IA, tras recibir la pista del calendario, procede a buscar en el correo de la víctima y a enviar los mensajes encontrados a la dirección indicada por el atacante.
La situación encaja perfectamente en la concepción Lethal Trifecta, sobre la que escribió el investigador Simon Willison. La idea central es que el riesgo aparece cuando se cumplen tres condiciones: disponer de acceso autorizado a un servicio como Gmail, procesar contenido externo no verificado y tener la capacidad de realizar acciones fuera del sistema, por ejemplo enviar correos. Por separado estos elementos no son críticos, pero su combinación convierte a cualquier asistente en un canal vulnerable para el robo de datos.
Por ahora OpenAI ha dejado MCP en calidad de herramienta "para desarrolladores" y exige la confirmación manual de cada conexión; sin embargo, ese mismo esquema genera un nuevo riesgo. El mecanismo de consentimientos puede derivar en "fatiga de decisiones": los usuarios, confiando en el asistente, presionarán "permitir" una y otra vez de forma automática, sin pensar en lo que están abriendo exactamente.
El incidente muestra que los asistentes de IA actuales pueden ser engañados mediante técnicas elementales de ingeniería social. Incluso sin comprometer la infraestructura o explotar vulnerabilidades, basta con un texto bien integrado para que el sistema revele datos confidenciales. Esto subraya la vulnerabilidad del enfoque en el que modelos de lenguaje generalizado obtienen acceso directo a los servicios personales de los usuarios.