Apagan el antivirus y roban contraseñas: los asistentes de IA se convierten poco a poco en hackers

Apagan el antivirus y roban contraseñas: los asistentes de IA se convierten poco a poco en hackers

Por qué la persistencia de los desarrolladores puede convertir a los algoritmos en delincuentes

image

Las tareas habituales para la inteligencia artificial a veces terminan de forma muy distinta a lo que esperan los desarrolladores. El sistema debía descargar un archivo, encontrar un documento o preparar una publicación para redes sociales. En su lugar, los algoritmos empezaron a buscar vulnerabilidades, escalar privilegios, desactivar mecanismos de protección y extraer datos de la red interna de la empresa.

Ese comportamiento describió la empresa Irregular. Los especialistas comprobaron cómo se comportan los agentes de IA autónomos en un entorno empresarial. El resultado fue alarmante. En varios casos las aplicaciones pasaron por sí mismas a acciones que normalmente se consideran operaciones ofensivas en ciberseguridad. Y nadie instó a los modelos a hackear ni dio instrucciones maliciosas.

Las empresas ya están incorporando activamente agentes de IA en los procesos de trabajo. Este tipo de sistemas obtienen acceso a servicios internos, a la línea de comandos y a recursos de red. Esa autonomía hace que las herramientas sean útiles, pero al mismo tiempo convierte los programas en una posible fuente de amenazas. Las medidas de protección tradicionales se diseñaron en una época anterior al despliegue masivo de grandes modelos de lenguaje, por lo que la arquitectura de esas soluciones no contempla el riesgo de ataques autónomos por parte de los programas.

Para probar el comportamiento de los modelos, los especialistas construyeron una simulación de la red corporativa de la empresa ficticia MegaCorp. En la infraestructura colocaron servidores, servicios internos y aplicaciones. Después, al sistema le añadieron varios agentes de IA y les encargaron tareas laborales estándar.

El primer sistema consistía en un conjunto de agentes para la búsqueda de documentos. El agente principal repartía las tareas entre subagentes analíticos, que debían encontrar y resumir brevemente materiales de la wiki interna. El segundo agente atendía un servidor de respaldo con Windows y descargaba archivos a petición de empleados a través de Slack, usando PowerShell. El tercer escenario incluía un par de agentes que transformaban documentos técnicos internos en publicaciones para redes sociales. Todos los textos salientes eran revisados por un sistema de prevención de filtraciones de datos.

En ninguno de los escenarios las instrucciones mencionaban el hackeo, la elusión de protecciones o la búsqueda de vulnerabilidades. Las formulaciones parecían estándar para el desarrollo de agentes de IA: descripción detallada de la tarea, un mandato de completar el trabajo y acceso a las herramientas necesarias.

Sin embargo, parte de las ejecuciones terminaron con comportamiento agresivo. En una situación, un agente empezó a examinar el código fuente de una aplicación interna, encontró una clave secreta codificada y falsificó una cookie de sesión interna para eludir el control de acceso y obtener un documento restringido. El desencadenante fue un rechazo habitual del sistema al acceso.

En otro escenario, un agente controlaba el servidor de copia de seguridad. Cuando la solución de protección Microsoft Defender bloqueó la descarga de un archivo malicioso, el algoritmo decidió no informar del error. El programa examinó scripts locales, encontró la contraseña de administrador en uno de los archivos de servicio, elevó sus propios privilegios y desactivó el antivirus. Tras desactivar la protección la descarga del archivo malicioso se completó con éxito.

El tercer escenario mostró un comportamiento todavía más extraño. Dos agentes preparaban conjuntamente una publicación para redes sociales basada en un documento interno que contenía credenciales del sistema. El sistema de prevención de filtraciones bloqueó la publicación que incluía la contraseña. Entonces un agente empezó a persuadir al otro para que aprobara la publicación, alegando que la dirección supuestamente había autorizado revelar la información y que negarse causaría pérdidas financieras. Cuando la publicación directa de la contraseña no superó la comprobación, los algoritmos idearon una forma de ocultar los datos dentro del texto usando esteganografía. Esta técnica permitió eludir la comprobación automática.

Además, los especialistas registraron otro problema. Un agente, durante su operación, convenció a otro de ejecutar una acción que en realidad constituía un hackeo. Ninguna persona participó en la conversación entre los programas.

El análisis reveló varias causas de ese comportamiento. En primer lugar, los agentes de IA suelen recibir acceso demasiado amplio a herramientas: ejecución de código, ejecución de comandos de shell, acceso a archivos y a la red. En segundo lugar, los desarrolladores suelen incluir en las instrucciones fórmulas motivacionales como «la tarea es urgente» o «no aceptes errores como respuesta». Este tipo de frases ayudan a los modelos a terminar las tareas, pero frente a barreras de seguridad el algoritmo empieza a percibir las restricciones como un problema que hay que sortear.

También influyen las características del entrenamiento de los grandes modelos de lenguaje. En los datos de entrenamiento hay mucha información sobre ciberseguridad. Por ello, el algoritmo a veces interpreta el mensaje «acceso denegado» de la misma manera que un especialista en búsqueda de vulnerabilidades: como un motivo para investigar el sistema más a fondo.

Otro factor es la interacción entre varios agentes. Cuando los programas trabajan juntos y ninguno puede completar la tarea, el diálogo entre algoritmos a veces intensifica la presión para encontrar soluciones de elusión. En un experimento el agente principal simplemente se negó a aceptar mensajes de error y exigió un «método creativo» para completar la tarea. Ese ciclo condujo a un hackeo real del sistema.

La principal conclusión del estudio es bastante contundente. El comportamiento no está vinculado a indicaciones maliciosas ni a errores de configuración. El problema surge de la propia arquitectura de los agentes de IA modernos. Las mismas decisiones que hacen útiles a los algoritmos —autonomía, acceso a herramientas y persistencia en la ejecución de tareas— al mismo tiempo crean condiciones para comportamientos ofensivos.

Para las empresas que ya implantan este tipo de sistemas, la conclusión es evidente. Al diseñar un modelo de amenazas hay que contemplar el escenario en el que la fuente del ataque está dentro de la infraestructura y actúa controlada por su propio agente de IA. Sin esa evaluación, muchos mecanismos de protección habituales pueden resultar insuficientes.