Los agentes desarrollan aplicaciones las 24 horas, sin descansos ni sueldo.
Los desarrolladores cada vez trabajan no con un solo asistente de IA, sino con varios ejecutores digitales a la vez. Surge un nuevo problema: cómo no perder el control cuando decenas de tareas y correcciones avanzan en paralelo. Para ese escenario OpenAI lanzó la aplicación de escritorio Codex para macOS. Reúne el trabajo de modelos de agentes en una sola interfaz y permite gestionar proyectos de software largos sin el caos de pestañas y conversaciones.
La aplicación funciona como un panel de control. Desde ahí se pueden asignar tareas a distintos agentes, ejecutarlos en paralelo y seguir el progreso de cada proyecto por separado. También muestra los cambios en el código, las diferencias entre versiones y los comentarios. El desarrollador puede abrir inmediatamente el fragmento necesario en su editor y corregirlo manualmente. OpenAI describe este formato como la transición de una única indicación a un trabajo coordinado de un grupo de ejecutores de IA que resuelven la tarea por completo, desde la idea hasta el ensamblado final.
Codex se presentó por primera vez en abril de 2025, pero desde entonces las capacidades de los agentes se han ampliado notablemente. Los modelos actuales son capaces de gestionar procesos complejos que duran no minutos, sino horas y días, a veces semanas. Con esa duración ya se requiere una capa de gestión separada, donde se vea el estado, los resultados intermedios y la dirección del trabajo.
A cada agente en la aplicación se le asigna su propio flujo vinculado a un proyecto concreto. El usuario consulta la lista de diferencias entre versiones de archivos, deja observaciones directamente en la interfaz y decide qué correcciones aceptar. El soporte para worktree, el conocido mecanismo de Git, permite que varios agentes trabajen con el mismo repositorio simultáneamente. Al mismo tiempo, cada uno recibe una copia aislada, de modo que los cambios no entran en conflicto entre sí.
El sistema sale progresivamente del ámbito de la mera generación de código. En Codex añadieron habilidades personalizables, es decir, guiones de acción conectables. Con ellas el agente se vincula con servicios externos, sigue un flujo de trabajo establecido y ejecuta pasos asociados. Se trata de búsqueda de información, preparación de textos, despliegue de aplicaciones y creación de imágenes. La herramienta puede elegir la habilidad adecuada para la tarea o usarla por indicación directa del desarrollador.
Entre las integraciones mencionadas están Figma para obtener maquetas de diseño, Linear para gestionar errores y lanzamientos, y las plataformas en la nube Vercel y Cloudflare para desplegar aplicaciones. La generación de imágenes está disponible a través del modelo de OpenAI para gráficos. En la práctica, el agente obtiene acceso al entorno de trabajo del proyecto, no solo al texto del código fuente.
OpenAI mostró por separado un ejemplo de trabajo autónomo. Con una única indicación textual, Codex ensambló un juego de carreras tridimensional con gráficos de vóxeles. El agente diseñó la estructura, escribió el código, probó el resultado y reinició el juego muchas veces para encontrar fallos y elementos faltantes, tras lo cual introdujo correcciones.
Altman afirmó que dentro de la empresa la herramienta ya aceleró la publicación de nuevas versiones. Según él, el modelo GPT-5.3-Codex ayudó a crear GPT-5.3-Codex. También señaló que el efecto práctico se percibe con más intensidad de lo que podrían sugerir los benchmarks formales.
En la nueva versión se anuncian indicadores concretos. GPT-5.3-Codex obtiene 57% en la prueba SWE-Bench Pro, que evalúa la resolución de tareas reales de repositorios, 76% en TerminalBench 2.0 y 64% en OSWorld. Los desarrolladores también destacan la capacidad de supervisión durante la ejecución de la tarea y la posibilidad de recibir actualizaciones en tiempo real durante el trabajo. Según mediciones internas, para las mismas tareas se necesitan menos de la mitad de tokens en comparación con 5.2-Codex, y el procesamiento de cada token es más de un 25% más rápido. Se subraya además la capacidad de trabajar con seguridad en el entorno informático, es decir, ejecutar acciones en el sistema de archivos y en las herramientas.
En la aplicación se añadió la sección Automatizaciones con guiones en segundo plano programados. Con ellos Codex analiza nuevas tareas, busca defectos y prepara resúmenes de lanzamientos sin ejecución manual. Las operaciones completadas se envían a una cola de revisión, donde una persona revisa el resultado e interviene solo si es necesario.
Las cuestiones de seguridad se han integrado en la arquitectura base. Cada agente opera en un entorno aislado y solo obtiene acceso a las carpetas o ramas del repositorio que se le indiquen. Para acciones con privilegios elevados, como conexión a la red, se requiere un permiso separado. Según Altman, por primera vez el modelo de la empresa alcanzó un alto nivel de preparación ante riesgos cibernéticos en la escala interna de evaluación. OpenAI también prueba el formato Trusted Access y asigna 10 millones de dólares en créditos de API a proyectos relacionados con la ciberdefensa.
Codex de escritorio ya está disponible en macOS para usuarios de ChatGPT Plus, Pro, Business, Enterprise y Edu. El acceso temporal también está abierto para los planes Free y Go. Según la compañía, desde mediados de diciembre la actividad de uso del servicio se ha duplicado, y en el último mes lo han utilizado más de un millón de desarrolladores.