Pensabas que la terminal estaba muerta, pero se ha convertido en el cerebro de la IA.
A lo largo de los últimos años, los desarrolladores de software se han acostumbrado a depender de herramientas de IA integradas en los editores de código. Productos como Cursor, Windsurf y GitHub Copilot se han convertido en estándar en este ámbito. Sin embargo, últimamente ha surgido un cambio sutil pero importante: los modelos de IA cada vez más trabajan no directamente con el código, sino con el terminal del sistema operativo. Esto podría cambiar radicalmente el enfoque del desarrollo automatizado.
El terminal, conocido por muchos gracias a películas de los años 90, sigue siendo una herramienta poderosa para la gestión del sistema, aunque parezca anticuado. Mientras que los asistentes de código escriben y corrigen programas, son los comandos del terminal los que permiten convertir esas líneas de código en un producto funcional: instalar dependencias, compilar el proyecto, ejecutarlo y depurarlo en un entorno real.
Desde principios de año, varias grandes laboratorios — Anthropic, DeepMind y OpenAI — lanzaron sus propias herramientas CLI: Claude Code, Gemini CLI y CLI Codex. Aunque conservan la marca de sus versiones anteriores, estos productos funcionan de manera distinta. Interactúan no con el código, sino con el ordenador como sistema. Esta funcionalidad exige una clase completamente nueva de tareas y enfoques.
Según Mike Merrill, coautor de la prueba Terminal-Bench, en el futuro hasta el 95% de las interacciones entre la IA y el ordenador se realizarán precisamente a través del terminal. Su equipo ha desarrollado un benchmark para evaluar qué tan bien se desempeñan los agentes de IA en tareas que van más allá de la edición de código. Ejemplos de tareas: compilar el núcleo de Linux desde el código fuente, recuperar un algoritmo de compresión a partir de su descompresión, o configurar un servidor Git sin instrucciones.
El interés por el terminal se intensifica en medio de problemas con los editores de IA tradicionales. Windsurf se vio envuelto en cambios corporativos: parte del equipo se trasladó a Google, y la empresa fue vendida a Cognition. Esto puso en duda el futuro del producto. Un estudio de METR sobre Cursor Pro mostró que, a pesar de las supuestas mejoras de productividad, en la práctica la herramienta ralentizaba el desarrollo en casi un 20%. Los desarrolladores sobrevaloraron su utilidad.
La diferencia entre generaciones de herramientas es especialmente evidente en sus enfoques de prueba. Editores como Cursor se enfocan en tareas de GitHub: encontrar y corregir errores de código. Así funciona la popular prueba SWE-Bench. Los agentes terminales trabajan con el sistema completo: deben iniciar procesos, configurar entornos, interactuar con archivos, servicios de red y hardware.
En las tareas complejas de Terminal-Bench, a los agentes a menudo no se les da ninguna explicación previa — deben deducir lo que se espera de ellos y encontrar una solución por su cuenta. Por eso, incluso los modelos más avanzados actualmente sólo resuelven la mitad de las tareas. No obstante, Warp demuestra que incluso hoy en día la IA puede manejar de forma autónoma el trabajo rutinario: preparar entornos, resolver dependencias, lanzar proyectos. Y si no puede hacerlo, explica por qué.
Este nivel de interacción con el sistema acerca a la IA al papel de un asistente de programación completo — no sólo en la escritura de líneas de código, sino también en el mantenimiento del entorno de desarrollo. Y todo esto ocurre en el viejo y querido terminal, que inesperadamente se ha convertido en el principal escenario de nuevas batallas entre sistemas de IA.