Sus modelos LLM están accesibles para cualquiera que conozca la dirección IP.
Los especialistas de Cisco Talos detectaron más de 1100 instancias de Ollama —un framework para ejecutar modelos LLM de forma local— accesibles desde Internet. Alrededor del 20% de ellas están activas y alojan modelos vulnerables a accesos no autorizados, por lo que podrían ser aprovechadas por atacantes para extraer parámetros, eludir restricciones e inyectar código malicioso.
Ollama ganó amplia popularidad por la posibilidad de desplegar LLM directamente en máquinas locales sin necesidad de la nube. Precisamente por eso los especialistas de Cisco decidieron investigar la presencia del framework en Internet. Un escaneo con Shodan detectó más de 1000 servidores abiertos en apenas 10 minutos.
Tener una instancia pública de Ollama significa que cualquiera que conozca su dirección IP puede enviar solicitudes al modelo o usar su API, sobrecargando el sistema o incrementando la factura de hosting. Además, muchos de estos servidores exponen metadatos que permiten identificar a los propietarios y la infraestructura, lo que crea un vector para ataques dirigidos.
Los investigadores destacan varios escenarios de explotación especialmente peligrosos:
Extracción de parámetros de modelos (model extraction): con múltiples consultas al LLM, los atacantes pueden reconstruir los pesos internos de la red neuronal, lo que representa una amenaza para la propiedad intelectual;
Jailbreak y generación de contenido prohibido: modelos como GPT-4, LLaMA o Mistral pueden ser forzados a producir código malicioso, desinformación u otras respuestas prohibidas, eludiendo las restricciones previstas;
Inserción de puertas traseras y envenenamiento de modelos: a través de APIs vulnerables es posible subir modelos modificados o maliciosos, así como alterar la configuración del servidor;
Aunque el 80% de los servidores encontrados están clasificados como «inactivos» (no tienen modelos en ejecución), Cisco advierte que siguen siendo susceptibles a ataques relacionados con la carga de nuevos modelos o el cambio de ajustes, así como a ataques de agotamiento de recursos, denegación de servicio (DoS) y movimiento lateral dentro de la infraestructura.
La mayoría de las instancias abiertas de Ollama están alojadas en EE. UU. (36,6%), seguidas por China (22,5%) y Alemania (8,9%). Según los expertos, la situación indica una «ignorancia masiva de los principios básicos de seguridad al desplegar infraestructuras de IA»: falta control de acceso, autenticación y aislamiento del perímetro de la red. Se subraya que en muchos casos la implantación de estos sistemas se realiza al margen de los departamentos de TI, sin la auditoría ni las aprobaciones pertinentes.
La adopción generalizada de la API de OpenAI empeora la situación, porque permite a los atacantes ampliar sus ataques a distintas plataformas sin necesidad de adaptar complejamente sus herramientas. Como solución, Cisco propone desarrollar estándares de seguridad para sistemas LLM, herramientas automatizadas de auditoría y recomendaciones detalladas para un despliegue seguro.
Finalmente, Cisco señala que Shodan no ofrece una visión completa del panorama de amenazas y pide crear nuevos métodos de escaneo, incluyendo identificación adaptativa de servidores y sondeos activos de frameworks como Hugging Face, Triton y vLLM, para evaluar con mayor precisión los riesgos relacionados con el alojamiento de modelos de IA.