La IA aprueba el examen de economista: GPT‑5 reemplaza a los humanos en la mitad de las tareas

La IA aprueba el examen de economista: GPT‑5 reemplaza a los humanos en la mitad de las tareas

Nueve sectores económicos prueban la IA y quedan muy sorprendidos

image

OpenAI presentó una nueva prueba llamada GDPval, que mide qué tan bien la inteligencia artificial maneja tareas de la economía real en comparación con las personas. A diferencia de los habituales puntos de referencia académicos, se basa en nueve sectores principales que conforman la mayor parte del PIB estadounidense: incluyen la sanidad, las finanzas, la manufactura industrial y el sector público. Dentro de cada ámbito se eligieron 44 profesiones —desde programadores y periodistas hasta profesionales sanitarios y analistas. La idea es encargar a los modelos las mismas tareas que normalmente realizan las personas y luego permitir que los investigadores comparen los materiales finales.

Las tareas en GDPval-v0 están diseñadas para asemejarse lo más posible al trabajo cotidiano. Por ejemplo, a banqueros de inversión se les pidió preparar un análisis de la competencia en el segmento de entrega de última milla y después comparar su resultado con un informe redactado por inteligencia artificial. En cada caso los participantes elegían la opción de mayor calidad y luego los resultados se promediaban, formando un indicador de victorias y empates del modelo frente a los materiales profesionales.

Los resultados fueron reveladores. La configuración ampliada de GPT-5 con mayor potencia de cómputo, denominada GPT-5-high, fue considerada igual o mejor que los informes de expertos del sector en el 40,6 por ciento de los casos. En comparación, la multimodal GPT-4o, lanzada hace año y medio, mostró solo el 13,7 por ciento. La diferencia demuestra un crecimiento notable de la capacidad de las redes neuronales para generar documentos estructurados y convincentes. Aún mejores cifras mostró el modelo Anthropic Claude Opus 4.1, que alcanzó el 49 por ciento. En OpenAI señalan que tan alto resultado pudo deberse no solo a la profundidad del análisis, sino también a la presentación visual: Claude tiende a formatear los materiales con diagramas y gráficos, lo que mejora la percepción del informe final.

Sin embargo, OpenAI reconoce abiertamente los puntos débiles de la prueba actual. En el trabajo real, los empleados realizan muchas más tareas que solo redactar informes. Hay interacción con colegas, aclaraciones repetidas, comprobación de hipótesis y adaptación rápida a condiciones cambiantes. GDPval aún no refleja eso, y la empresa planea crear escenarios más complejos en los que la IA tenga que trabajar de forma interactiva con etapas intermedias y retroalimentación.

A pesar de las limitaciones, en la empresa subrayan la importancia de lo logrado. El economista jefe de OpenAI, Aaron Chatterji, considera que ahora los modelos pueden encargarse de parte de las tareas rutinarias, permitiendo a los especialistas concentrarse en los aspectos más complejos y con contenido de su trabajo. Tejal Patwardhan, responsable del área de evaluaciones, también destaca la velocidad del progreso: en solo quince meses el indicador de GPT-5 casi triplicó el resultado de GPT-4o, y la tendencia parece sostenida.

Hasta ahora la industria se había basado principalmente en otras pruebas: AIME 2025 evalúa la capacidad para resolver problemas matemáticos complejos, y GPQA Diamond valora el conocimiento de disciplinas científicas al nivel de posgrado. Sin embargo, los mejores modelos ya han alcanzado un techo allí. En ese contexto, experimentos como GDPval se vuelven más importantes, porque permiten juzgar en qué medida la inteligencia artificial está lista para la aplicación práctica. No obstante, para conclusiones definitivas se necesitará la siguiente versión de la prueba, que incluirá más profesiones y reflejará el proceso de trabajo en sí, no solo el documento final.

Los resultados de hoy no muestran la superioridad de las máquinas sobre las personas, sino la aparición de una herramienta que ya puede integrarse en los procesos cotidianos. Parte del trabajo —la recopilación y el ensamblado de información— puede delegarse a la IA, dejando al humano la formulación de la tarea, la verificación de hechos y las decisiones finales. Ese cambio convierte a los modelos no en competidores sino en asistentes, que aceleran y simplifican la realización de tareas en diversos sectores.

Las huellas digitales son tu debilidad, y los hackers lo saben

¡Suscríbete y descubre cómo borrarlas!