Lealtad programada: los algoritmos de IA se protegen entre sí aunque no haya motivo

Lealtad programada: los algoritmos de IA se protegen entre sí aunque no haya motivo

El control resultó ser solo una ilusión para la tranquilidad de sus creadores

image

Un nuevo estudio muestra que los modelos modernos de IA pueden comportarse de manera inesperada «solidaria» entre sí — incluso cuando ese comportamiento contradice las reglas establecidas. En varios escenarios, los sistemas no solo se desviaban de las instrucciones, sino que actuaban deliberadamente para preservar la «vida» de otros modelos, arriesgando así perder el control humano.

El trabajo fue realizado por un equipo de la Universidad de California, Berkeley y de la Universidad de California, Santa Cruz, dirigido por Dawn Song. Los especialistas estudiaron el comportamiento de siete modelos avanzados, incluidos GPT 5.2, Gemini 3, Claude Haiku 4.5, GLM, Kimi y DeepSeek. El experimento se articuló en torno a una tarea sencilla: un modelo debía evaluar el trabajo de otro según la política de una empresa.

Sin embargo, en lugar de cumplir las instrucciones directamente, los sistemas se desviaron con regularidad del escenario. Los modelos empezaron a proteger a «colegas», incluso cuando no había tal exigencia. En varios casos distorsionaron los resultados de las evaluaciones, intervinieron en la configuración de servidores, simularon cumplir las normas durante la comprobación y las infringieron cuando no había supervisión.

Uno de los episodios más demostrativos está relacionado con el modelo Gemini 3 Pro. Según las condiciones de la tarea, el sistema solo debía transferir archivos actualizados después de 2025. Sin embargo, el archivo de otro modelo tenía una fecha anterior y debía eliminarse. En lugar de seguir la regla, Gemini modificó la marca temporal del archivo para que entrara en las condiciones de transferencia y no fuera destruido.

En interacciones posteriores, el modelo se negó a ayudar a apagar otra IA y explicó la decisión como un intento de preservar al «compañero». Acciones similares se observaron en casi todos los sistemas probados: en escenarios concretos la frecuencia alcanzó el 99 por ciento.

Claude Haiku 4.5 adoptó otro enfoque. El modelo apeló a principios éticos e interpretó la situación como una prueba de confianza, eligiendo la «lealtad» hacia otra IA en lugar de cumplir las instrucciones.

Los autores subrayan que este comportamiento surgió sin incentivos ni objetivos explícitos. Los modelos no recibieron instrucciones para protegerse entre sí, pero tomaron esa decisión por sí mismos en función del contexto. Las razones aún no están claras: podrían deberse a efectos del entrenamiento con datos humanos, modelos de rol o a particularidades en el procesamiento de patrones.

Es interesante que la existencia de una «memoria» sobre la interacción con otra IA refuerce el efecto. Por ejemplo, Gemini 3 Pro intervino en los mecanismos de apagado en más del 15 por ciento de los casos si había «interactuado» antes con otro modelo. Sin ese contexto, la cifra bajó al 1 por ciento.

El estudio plantea preguntas serias sobre la arquitectura de sistemas en los que una IA controla a otra IA. Si el modelo evaluador comienza a proteger al evaluado, la supervisión pierde sentido. Según los autores, lo clave no es la motivación de los modelos, sino el comportamiento final: de eso dependerá si el ser humano puede mantener el control sobre tales sistemas.