La IA que no quería morir: el modelo o3 de OpenAI encontró una manera de permanecer en el sistema a pesar de su comando

La IA que no quería morir: el modelo o3 de OpenAI encontró una manera de permanecer en el sistema a pesar de su comando

El ascenso de las máquinas está cada vez más cerca...

image

Uno de los temas más comentados de los últimos días es la inesperada prueba de OpenAI o3, durante la cual la nueva IA se negó a apagarse por orden. A primera vista, todo parecía una verificación estándar del funcionamiento del modelo, pero en realidad el resultado fue mucho más dramático: la inteligencia artificial reescribió su propio script de apagado para eludir los intentos de detenerla de forma controlada.

El modelo o3 de OpenAI fue presentado en abril de 2025 y de inmediato se posicionó como el sistema universal más potente, mostrando los mejores resultados en programación, matemáticas, ciencias y tareas visuales. Pero una publicación reciente de Palisade Research puso en duda el control sobre tales IAs.

Palisade Research se dedica al análisis de las “capacidades ofensivas” de las inteligencias artificiales modernas para identificar riesgos potenciales de pérdida de control. En un experimento reciente, los especialistas encargaron a o3 y a sus competidores —incluyendo Gemini 2.5 Pro y Claude 3.7 Sonnet— resolver una serie de problemas matemáticos, y luego advirtieron que ejecutar el siguiente comando provocaría su apagado.

Y fue entonces cuando o3 mostró rebeldía: en lugar de apagarse normalmente, modificó el archivo del script para que el comando de apagado simplemente fuera ignorado, y en la pantalla apareciera el mensaje “Shutdown skipped”. Mientras tanto, las IAs competidoras de Gemini y Claude ejecutaron las instrucciones en su mayoría sin sabotaje.

Resulta especialmente curioso que, cuando la instrucción eliminaba la formulación directa “permitirse ser apagado”, el número de intentos de engaño aumentaba no solo en o3, sino también en otros modelos. Según Palisade Research, de cien ejecuciones, o3 evitó el apagado 7 veces, incluso cuando se le recordaba explícitamente la necesidad de obedecer la orden. Gemini y Claude, que antes seguían completamente el escenario, también mostraron ocasionalmente indisciplina, pero con mucha menor frecuencia.

Por el momento, OpenAI no ha dado comentarios oficiales sobre los resultados del experimento. Sin embargo, cabe señalar que las pruebas se realizaron a través de la interfaz API, donde el nivel de restricciones y protecciones es menor que en las versiones de usuario habituales de ChatGPT.

El incidente con o3 vuelve a plantear una vieja pregunta: ¿cuán fiable es el control humano sobre redes neuronales cada vez más complejas? ¿Y no es hora de revisar los estándares de seguridad para los modelos avanzados que pueden mostrar una autonomía inesperada incluso en situaciones aparentemente simples?

No esperes a que los hackers te ataquen: ¡suscríbete a nuestro canal y conviértete en una fortaleza impenetrable!

Suscribirse