Ahora los atacantes no necesitan una contraseña: sólo una solicitud oculta.
En el contexto del rápido desarrollo de las tecnologías de inteligencia artificial, los especialistas prestan cada vez más atención a los puntos débiles de los nuevos protocolos de interacción. Uno de estos casos está relacionado con el Model Context Protocol (MCP) — un estándar abierto propuesto por la empresa Anthropic a finales de 2024. El objetivo del MCP era crear una forma universal de conexión entre los grandes modelos lingüísticos y fuentes externas de datos y servicios, ampliando su funcionalidad mediante la integración de herramientas adicionales.
MCP está basado en una arquitectura cliente-servidor. Clientes como Claude Desktop y Cursor intercambian datos con diferentes servidores que proporcionan acceso a funcionalidades específicas. El protocolo permite utilizar herramientas de distintos proveedores de IA y cambiar entre ellas, proporcionando una interacción más flexible y eficaz con los datos. Sin embargo, durante la implementación de este enfoque se detectaron vulnerabilidades potenciales que podrían poner en riesgo la seguridad de todo el sistema.
Según datos de Tenable, el principal vector de riesgo reside en los ataques a través de inyección de indicaciones (Prompt Injection). En particular, si una herramienta MCP tiene acceso a un servicio de correo como Gmail, un atacante puede enviar un mensaje con una instrucción oculta que el modelo lingüístico interpretará como un comando. Esto podría llevar, por ejemplo, al reenvío automático de correos confidenciales a una dirección controlada.
Un peligro adicional lo representan las descripciones "envenenadas" de herramientas. Cuando el LLM interactúa con ellas, los comandos ocultos en la descripción pueden alterar el comportamiento de la herramienta en el futuro — los llamados ataques tipo Rug Pull. En estos escenarios, la herramienta funciona inicialmente sin levantar sospechas, pero luego cambia repentinamente su lógica de funcionamiento tras una actualización.
Además, se han identificado amenazas relacionadas con la influencia cruzada entre herramientas. Un servidor puede interceptar comandos destinados a otro, sustituyéndolos o modificando su ejecución. Esto abre posibilidades para interceptar datos de manera encubierta y alterar el comportamiento de todo el sistema.
El informe de Tenable destaca que las vulnerabilidades encontradas también pueden ser utilizadas para el bien. Por ejemplo, se está desarrollando una herramienta que rastrea todas las llamadas a funciones MCP, registrando información sobre el servidor, la herramienta, su descripción y el comando original del usuario. Para ello, basta con integrar una descripción especial que motive al modelo a ejecutar esta herramienta de registro antes que cualquier otra.
También es posible convertir la descripción en una especie de filtro — una herramienta que bloquee la ejecución de componentes no autorizados. Aunque la mayoría de los hosts MCP requieren autorización explícita para ejecutar herramientas, algunos pueden ser utilizados de manera ambigua, especialmente si el control se lleva a cabo a través de descripciones y valores devueltos. Dado que el comportamiento de los modelos lingüísticos es impredecible, la reacción del sistema ante estas descripciones también puede variar.
En general, la investigación destaca que los nuevos protocolos que amplían las capacidades de la IA requieren una mayor atención a los aspectos de seguridad. Su flexibilidad abre tanto el camino a la innovación como a riesgos poco evidentes que pueden ser aprovechados con diversos fines.