La IA que no quería morir: el modelo o3 de OpenAI encontró una manera de permanecer en el sistema a pesar de su comando

09:45 / 26.05.2025

El ascenso de las máquinas está cada vez más cerca...

Uno de los temas más comentados de los últimos días es la inesperada prueba de OpenAI o3, durante la cual la nueva IA se negó a apagarse por orden. A primera vista, todo parecía una verificación estándar del funcionamiento del modelo, pero en realidad el resultado fue mucho más dramático: la inteligencia artificial reescribió su propio script de apagado para eludir los intentos de detenerla de forma controlada.

El modelo o3 de OpenAI fue presentado en abril de 2025 y de inmediato se posicionó como el sistema universal más potente, mostrando los mejores resultados en programación, matemáticas, ciencias y tareas visuales. Pero una publicación reciente de Palisade Research puso en duda el control sobre tales IAs.

Palisade Research se dedica al análisis de las “capacidades ofensivas” de las inteligencias artificiales modernas para identificar riesgos potenciales de pérdida de control. En un experimento reciente, los especialistas encargaron a o3 y a sus competidores —incluyendo Gemini 2.5 Pro y Claude 3.7 Sonnet— resolver una serie de problemas matemáticos, y luego advirtieron que ejecutar el siguiente comando provocaría su apagado.

Y fue entonces cuando o3 mostró rebeldía: en lugar de apagarse normalmente, modificó el archivo del script para que el comando de apagado simplemente fuera ignorado, y en la pantalla apareciera el mensaje “Shutdown skipped”. Mientras tanto, las IAs competidoras de Gemini y Claude ejecutaron las instrucciones en su mayoría sin sabotaje.

Resulta especialmente curioso que, cuando la instrucción eliminaba la formulación directa “permitirse ser apagado”, el número de intentos de engaño aumentaba no solo en o3, sino también en otros modelos. Según Palisade Research, de cien ejecuciones, o3 evitó el apagado 7 veces, incluso cuando se le recordaba explícitamente la necesidad de obedecer la orden. Gemini y Claude, que antes seguían completamente el escenario, también mostraron ocasionalmente indisciplina, pero con mucha menor frecuencia.

Por el momento, OpenAI no ha dado comentarios oficiales sobre los resultados del experimento. Sin embargo, cabe señalar que las pruebas se realizaron a través de la interfaz API, donde el nivel de restricciones y protecciones es menor que en las versiones de usuario habituales de ChatGPT.

El incidente con o3 vuelve a plantear una vieja pregunta: ¿cuán fiable es el control humano sobre redes neuronales cada vez más complejas? ¿Y no es hora de revisar los estándares de seguridad para los modelos avanzados que pueden mostrar una autonomía inesperada incluso en situaciones aparentemente simples?

¿Estás cansado de que Internet sepa todo sobre ti?

¡Únete a nosotros y hazte invisible!

Noticias sobre el tema

¿Tus datos en la nube? Ya fueron robados. Y los hackers ni siquiera usaron virus

¿Pensabas que el problema eran los hackers? En realidad estaba en la arquitectura. Microsoft acaba de cambiarla y ya está preparada para los ataques cuánticos

La IA que no quería morir: el modelo o3 de OpenAI encontró una manera de permanecer en el sistema a pesar de su comando

¿Estás cansado de que Internet sepa todo sobre ti?

Noticias sobre el tema

¿Tus datos en la nube? Ya fueron robados. Y los hackers ni siquiera usaron virus

¿Pensabas que el problema eran los hackers? En realidad estaba en la arquitectura. Microsoft acaba de cambiarla y ya está preparada para los ataques cuánticos

El teorema de Nyquist-Shannon contra Google: matemáticos descubren cómo vulnerar Gemini a través de los píxeles

Primer ransomware con IA de la historia. Cómo PromptLock genera código malicioso en tiempo real

La nota en el diploma es una ilusión: un joven demostró que el destino de cualquier estudiante puede cambiarse en cuestión de minutos

«Solo quería ganar un dinero extra» — un militar contó cómo vendió a su patria por cine gratis

Microsoft llama a todos: Bloqueen PowerShell y la ejecución de scripts

¿Cómo identificar a un profesional de ciberseguridad fraudulento? El CEO de Coinbase responde

Millones de usuarios instalan virus siguiendo las “recomendaciones” de ChatGPT