La IA china GLM-5.1 destroza a GPT: puede programar ocho horas seguidas sin perder rendimiento

La IA china GLM-5.1 destroza a GPT: puede programar ocho horas seguidas sin perder rendimiento

Un modelo de IA montó un escritorio Linux desde cero en una noche; otros suelen rendirse tras una hora.

image

La empresa china Z.ai lanzó como código abierto GLM–5.1, y la publicación fue sonada no por promesas generales, sino por resultados muy concretos. El nuevo modelo se presenta como buque insignia para el desarrollo de agentes, es decir, para tareas en las que la IA no se limita a añadir un par de líneas, sino que lee el proyecto, modifica archivos, lanza la compilación, las pruebas y el perfilado, analiza errores y persevera durante horas hasta completar la solución.

Según la compañía, en SWE–Bench Pro el modelo obtuvo 58,4 puntos y superó a GPT–5.4 con 57,7, a Claude Opus 4.6 con 57,3 y a Gemini 3.1 Pro con 54,2. Para el modelo chino esto es un resultado especialmente notable: los desarrolladores afirman claramente que GLM–5.1 se colocó a la cabeza en uno de los ensayos más exigentes para tareas de ingeniería reales.

Pero el énfasis principal del lanzamiento no está en una tabla seca, sino en otra cosa. Los desarrolladores sostienen que los modelos convencionales obtienen pronto las primeras mejoras, pero luego empiezan a estancarse: las técnicas conocidas se agotaron y el progreso prácticamente se detuvo. GLM–5.1, según su versión, funciona de manera diferente. Se mantiene útil más tiempo en tareas autónomas largas, puede revisar su propio plan muchas veces, cambiar de estrategia, comprobar hipótesis y seguir mejorando donde los sistemas anteriores ya se rindieron. Ese horizonte largo es, según los autores, la principal diferencia de la nueva versión.

El ejemplo más llamativo está relacionado con la tarea de construir una aplicación web como entorno de escritorio para Linux. Al modelo se le dio una petición ambiciosa, pero no le entregaron ni código inicial, ni maquetas, ni indicaciones intermedias. En una sesión breve muchos sistemas, incluidas versiones anteriores de GLM, suelen llegar solo a un esqueleto: una barra de tareas sencilla, un par de ventanas de prueba y hasta ahí. GLM–5.1 se puso a funcionar en un ciclo de autoevaluación de 8 horas. Después de cada etapa el modelo revisaba su propio resultado, buscaba puntos débiles y decidía qué mejorar a continuación.

Al final, en el navegador apareció no un boceto, sino un escritorio totalmente funcional con gestor de archivos, terminal, editor de texto, monitor del sistema, calculadora y juegos. Y todo ello no parecía un conjunto de módulos aleatorios: los desarrolladores destacan una interfaz coherente, un estilo más cuidado, interacciones mejoradas y el manejo de casos límite.

El segundo caso ilustrativo se refiere a VectorDBBench, una prueba abierta para optimizar una base de datos vectorial. La tarea es así: al modelo le dan una base en Rust con API HTTP y huecos vacíos, y a partir de ahí debe escribir código, compilar el proyecto, probarlo y buscar cuellos de botella. El resultado final se evalúa por el número de consultas por segundo en el conjunto SIFT–1M, pero con una condición estricta: la exhaustividad de la búsqueda debe mantenerse por encima del 95 %. En una sesión estándar y breve, el mejor resultado previo era 3547 QPS, sostenido por Claude Opus 4.6. GLM–5.1 se activó no en 50 pasos, sino en un largo ciclo externo de optimización en el que ella misma decidía cuándo enviar una versión nueva para verificación y qué probar después.

Y aquí comienza lo más interesante. El modelo no se detuvo ni tras 50 ni tras 100 intentos. La optimización duró más de 600 iteraciones y requirió más de 6000 llamadas a herramientas. El rendimiento final aumentó hasta 21 500 consultas por segundo, es decir, aproximadamente seis veces superior al mejor resultado previo en una corrida corta. El aumento no fue gradual, sino a saltos. Al principio el modelo exprimió durante mucho tiempo pequeñas mejoras del enfoque actual, después encontró un cambio estructural y dio un salto brusco a un nuevo nivel. Alrededor de la iteración 90 pasó del escaneo completo de la base a la búsqueda por clústeres IVF y añadió la compresión de vectores a f16, tras lo cual el rendimiento subió a 6400 QPS.

Hacia la iteración 240 apareció un esquema de dos etapas: primero una evaluación previa grosera en formato u8, luego una clasificación más precisa en formato f16. Tras eso el resultado llegó a 13 400 QPS. En todo el proceso hubo seis reconfiguraciones grandes. Cada vez el modelo tanteaba una nueva dirección, a veces caía temporalmente por debajo del umbral de exhaustividad del 95 % y luego ajustaba parámetros hasta volver a los límites aceptables.

Otra prueba importante está relacionada con KernelBench, donde no basta con escribir código, sino que hay que acelerar los cálculos en la GPU sin cambiar el resultado. Aquí GLM–5.1 recibía una implementación de referencia en PyTorch y debía producir un núcleo más rápido. En el nivel más difícil, donde se comprueban no operaciones aisladas sino arquitecturas completas como MobileNet, VGG, MiniGPT y Mamba, el modelo alcanzó una aceleración media de 3,6 veces.

Eso es notablemente mejor que GLM–5, que se agotaba antes, pero no es la mejor cifra absoluta: Claude Opus 4.6 terminó la prueba con 4,2 veces y al final todavía no había chocado con un techo. Los desarrolladores lo reconocen abiertamente. Según ellos, la optimización larga y multinivel sigue siendo una carrera abierta, y precisamente en esas tareas se ve mejor quién sabe no solo empezar con fuerza, sino mantener la utilidad durante mucho tiempo.

En otras pruebas el panorama ya no es tan unívoco, y eso incluso ayuda a entender qué están intentando vender. GLM–5.1 no se presenta como campeón absoluto en todo. Su punto fuerte, según el lanzamiento, no es un liderazgo abstracto en cualquier lógica de competición, sino un modo más aplicado de ingeniería: leer código, trabajar con herramientas, volver a una tarea una y otra vez y no perder coherencia tras cientos de pasos. Por eso en el comunicado se presta tanta atención no a victorias brillantes de una sola vez, sino a que el modelo aparentemente sabe no descomponerse durante horas en una tarea larga.

Técnicamente GLM–5.1 se publicó bajo licencia MIT. Los pesos se pusieron en HuggingFace y ModelScope; para ejecución local anuncian compatibilidad con vLLM y SGLang. El modelo es compatible con Claude Code y OpenClaw, está disponible a través de api.z.ai y BigModel.cn, y ya lo han empezado a desplegar a los suscriptores del Coding Plan. Hay además una advertencia práctica: como modelo más potente de la línea, GLM–5.1 consume cuota más rápido. En horas punta el consumo va con un factor de 3, en horas valle con un factor de 2, aunque hasta finales de abril prometen contar las horas valle a la tarifa habitual.