La automatización del futuro se topó de repente con tareas cotidianas.

Mientras las empresas invierten miles de millones en el desarrollo de agentes de IA capaces de realizar trabajo profesional real, una nueva prueba independiente mostró de manera clara cuán alejados están incluso los mejores modelos de las capacidades anunciadas. Investigadores de la Universidad de California en Berkeley, junto con más de 300 especialistas del sector, lanzaron el benchmark Examen Final de Agentes (ALE) — uno de los instrumentos de evaluación de agentes de IA más exigentes en la actualidad.
A diferencia de la mayoría de las pruebas existentes, ALE no evalúa la capacidad del modelo para responder preguntas aisladas, sino la habilidad para realizar tareas profesionales multietapa propias de la economía real. Las tareas se basan en el clasificador federal de ocupaciones de Estados Unidos y abarcan 55 sectores: desde la creación de modelos 3D en Siemens NX hasta el análisis de neuroimagen y la edición de efectos visuales en Adobe After Effects. En total, el benchmark incluye 1490 tareas con la posibilidad de ampliarse hasta 5000.
El inesperado líder de la clasificación fue GPT-5.5 de OpenAI en combinación con el entorno agente Codex — con un resultado del 24,0%. Claude Fable 5 de Anthropic, que salió hace muy poco, ocupó el tercer lugar con el 22,0%. Aun así, los resultados absolutos siguen siendo extremadamente bajos: en el nivel más difícil de las tareas, la mayoría de los modelos, incluidos Claude Opus 4.8 y Gemini CLI de Google, obtienen exactamente el 0,0%.
Los creadores de ALE también corrigieron las deficiencias de pruebas anteriores. En primer lugar, la evaluación de los resultados se basa en algoritmos deterministas y no en juicios de otro modelo de lenguaje — este enfoque se aplica en el 93,2% de los casos. En segundo lugar, el benchmark está protegido contra la «filtración» de tareas hacia los datos de entrenamiento: solo alrededor del 10% de las tareas están disponibles públicamente, las restantes se mantienen en privado y se rotan periódicamente.
Los desarrolladores pueden comparar modelos en condiciones iguales: ALE publica resultados separados para tareas con software de pago y gratuito, de modo que una puntuación alta no se explique simplemente por el acceso a herramientas corporativas costosas.
Los resultados de ALE registran una brecha interesante: los modelos que se derrotan unos a otros en comunicados de prensa, en la práctica se muestran igualmente incapaces ante el trabajo multietapa real. Ahora la industria tiene un punto de referencia honesto — y demuestra de forma clara hasta qué punto las promesas de marketing de los desarrolladores de IA divergen de la realidad.