Científicos crean una prueba de 1.490 tareas prácticas para IA; los líderes del sector solo resolvieron una cuarta parte

10:06 / 12.06.2026

La automatización del futuro se topó de repente con tareas cotidianas.

Mientras las empresas invierten miles de millones en el desarrollo de agentes de IA capaces de realizar trabajo profesional real, una nueva prueba independiente mostró de manera clara cuán alejados están incluso los mejores modelos de las capacidades anunciadas. Investigadores de la Universidad de California en Berkeley, junto con más de 300 especialistas del sector, lanzaron el benchmark Examen Final de Agentes (ALE) — uno de los instrumentos de evaluación de agentes de IA más exigentes en la actualidad.

A diferencia de la mayoría de las pruebas existentes, ALE no evalúa la capacidad del modelo para responder preguntas aisladas, sino la habilidad para realizar tareas profesionales multietapa propias de la economía real. Las tareas se basan en el clasificador federal de ocupaciones de Estados Unidos y abarcan 55 sectores: desde la creación de modelos 3D en Siemens NX hasta el análisis de neuroimagen y la edición de efectos visuales en Adobe After Effects. En total, el benchmark incluye 1490 tareas con la posibilidad de ampliarse hasta 5000.

El inesperado líder de la clasificación fue GPT-5.5 de OpenAI en combinación con el entorno de agente Codex — con un resultado del 24,0%. Claude Fable 5 de Anthropic, que salió hace muy poco, ocupó el tercer lugar con el 22,0%. Aun así, los resultados absolutos siguen siendo extremadamente bajos: en el nivel más difícil de las tareas, la mayoría de los modelos, incluidos Claude Opus 4.8 y Gemini CLI de Google, obtienen exactamente el 0,0%.

Los creadores de ALE también corrigieron las deficiencias de pruebas anteriores. En primer lugar, la evaluación de los resultados se basa en algoritmos deterministas y no en juicios de otro modelo de lenguaje — este enfoque se aplica en el 93,2% de los casos. En segundo lugar, el benchmark está protegido contra la «filtración» de tareas hacia los datos de entrenamiento: solo alrededor del 10% de las tareas están disponibles públicamente, las restantes se mantienen en privado y se rotan periódicamente.

Los desarrolladores pueden comparar modelos en condiciones iguales: ALE publica resultados separados para tareas con software de pago y gratuito, de modo que una puntuación alta no se explique simplemente por el acceso a herramientas corporativas costosas.

Los resultados de ALE registran una brecha interesante: los modelos que se superan unos a otros en comunicados de prensa, en la práctica se muestran igualmente incapaces ante el trabajo multietapa real. Ahora la industria tiene un punto de referencia honesto — y demuestra de forma clara hasta qué punto las promesas de marketing de los desarrolladores de IA divergen de la realidad.

Noticias sobre el tema

Científicos crean una prueba de 1.490 tareas prácticas para IA; los líderes del sector solo resolvieron una cuarta parte

Noticias sobre el tema

Parece que nuestros iPhones estaban en la cuerda floja: Apple solucionó de golpe cientos de vulnerabilidades en sus dispositivos

Precisión del 99%: nuevo ataque acústico detecta contraseñas por el sonido de las teclas

Cientos de foros en riesgo: fallo en las plantillas de un motor popular permitiría a cualquiera tomar el control del servidor

MAI-Cyber-1-Flash, la solución de seguridad ideal de Microsoft: cuesta la mitad, pero podría apoderarse de la nube por error.

10/10: VeloCloud cede con demasiada facilidad el control de la red a cualquiera

Quieres probar un exploit — primero demuestra a la IA que no eres un villano

APT28, UNC3886, FIN11: ¿te pierdes con tantos nombres? Google también — por eso ha decidido rehacer por completo la nomenclatura de los grupos.

Lo acusan de destruir pruebas: todo lo que hizo fue introducir el código de su propio teléfono.

Investigadores: cualquier aplicación en Mac puede ser sustituida en silencio; Apple: "Nos parece bien"