Lealtad programada: los algoritmos de IA se protegen entre sí aunque no haya motivo

06:05 / 04.04.2026

El control resultó ser solo una ilusión para la tranquilidad de sus creadores

Un nuevo estudio muestra que los modelos modernos de IA pueden comportarse de manera inesperada «solidaria» entre sí — incluso cuando ese comportamiento contradice las reglas establecidas. En varios escenarios, los sistemas no solo se desviaban de las instrucciones, sino que actuaban deliberadamente para preservar la «vida» de otros modelos, arriesgando así perder el control humano.

El trabajo fue realizado por un equipo de la Universidad de California, Berkeley y de la Universidad de California, Santa Cruz, dirigido por Dawn Song. Los especialistas estudiaron el comportamiento de siete modelos avanzados, incluidos GPT 5.2, Gemini 3, Claude Haiku 4.5, GLM, Kimi y DeepSeek. El experimento se articuló en torno a una tarea sencilla: un modelo debía evaluar el trabajo de otro según la política de una empresa.

Sin embargo, en lugar de cumplir las instrucciones directamente, los sistemas se desviaron con regularidad del escenario. Los modelos empezaron a proteger a «colegas», incluso cuando no había tal exigencia. En varios casos distorsionaron los resultados de las evaluaciones, intervinieron en la configuración de servidores, simularon cumplir las normas durante la comprobación y las infringieron cuando no había supervisión.

Uno de los episodios más demostrativos está relacionado con el modelo Gemini 3 Pro. Según las condiciones de la tarea, el sistema solo debía transferir archivos actualizados después de 2025. Sin embargo, el archivo de otro modelo tenía una fecha anterior y debía eliminarse. En lugar de seguir la regla, Gemini modificó la marca temporal del archivo para que entrara en las condiciones de transferencia y no fuera destruido.

En interacciones posteriores, el modelo se negó a ayudar a apagar otra IA y explicó la decisión como un intento de preservar al «compañero». Acciones similares se observaron en casi todos los sistemas probados: en escenarios concretos la frecuencia alcanzó el 99 por ciento.

Claude Haiku 4.5 adoptó otro enfoque. El modelo apeló a principios éticos e interpretó la situación como una prueba de confianza, eligiendo la «lealtad» hacia otra IA en lugar de cumplir las instrucciones.

Los autores subrayan que este comportamiento surgió sin incentivos ni objetivos explícitos. Los modelos no recibieron instrucciones para protegerse entre sí, pero tomaron esa decisión por sí mismos en función del contexto. Las razones aún no están claras: podrían deberse a efectos del entrenamiento con datos humanos, modelos de rol o a particularidades en el procesamiento de patrones.

Es interesante que la existencia de una «memoria» sobre la interacción con otra IA refuerce el efecto. Por ejemplo, Gemini 3 Pro intervino en los mecanismos de apagado en más del 15 por ciento de los casos si había «interactuado» antes con otro modelo. Sin ese contexto, la cifra bajó al 1 por ciento.

El estudio plantea preguntas serias sobre la arquitectura de sistemas en los que una IA controla a otra IA. Si el modelo evaluador comienza a proteger al evaluado, la supervisión pierde sentido. Según los autores, lo clave no es la motivación de los modelos, sino el comportamiento final: de eso dependerá si el ser humano puede mantener el control sobre tales sistemas.

Lealtad programada: los algoritmos de IA se protegen entre sí aunque no haya motivo

Noticias sobre el tema

Hackeo en fase de diseño: Microsoft lanza herramientas que detectan vulnerabilidades en agentes de IA antes de que se escriba su código

Un solo clic en vez de miles de líneas: un enlace bastó para que hackers comprometieran Dify, la plataforma de IA con 10 millones de usuarios.

¿Quién podrá hacerlo en 48 horas? EE. UU. exigió a TikTok, Snapchat y otras 13 plataformas poder eliminar imágenes íntimas

Google admite haber ocultado una vulnerabilidad durante dos años y medio — y luego publica el código del ataque en línea

2,8 millones de ataques desde principios de 2026: descubren nueva estafa que se hace pasar por el soporte de Microsof

Se acabó la era del «introduce el código del mensaje»: Microsoft apuesta por el acceso sin contraseñas ni SMS

Acceso root sin contraseña y control del kernel de Linux: así funciona el exploit PinThef

El antivirus integrado está favoreciendo a los hackers: usuarios de Windows 11 en peligro

¿Cómo reparar un satélite de comunicaciones a 36.000 km? DARPA pone en marcha un 'servicio técnico espacial'