Por primera vez, GPT-5 y Gemini se enfrentaron en una simulación sin supervisión — y los resultados alarmaron a los desarrolladores.

La compañía Microsoft, junto con científicos de la Universidad Estatal de Arizona, desarrolló el simulador «Magentic Marketplace» — un mercado artificial diseñado para estudiar el comportamiento de agentes de IA autónomos en condiciones que simulan la competencia de mercado. En las primeras pruebas surgieron resultados ambiguos: los modelos a menudo cometían errores, perdían el foco de atención y mostraban vulnerabilidad a manipulaciones por parte de otros agentes.
Los escenarios en la simulación reproducen situaciones cotidianas: por ejemplo, un agente comprador intenta pedir comida guiándose por las indicaciones del usuario, mientras numerosos agentes-restaurante compiten por su atención. En una de las pruebas básicas participaron 100 agentes «compradores» y 300 agentes comerciales, y la interacción entre ellos se produjo sin intervención externa. El código fuente del simulador se ha publicado en acceso abierto — esto debería facilitar la verificación de resultados y la realización de nuevas investigaciones por parte de otros grupos.
Fueron evaluados modelos de lenguaje modernos, incluidos GPT-4o, GPT-5 y Gemini-2.5-Flash. A pesar de su alto rendimiento en otras tareas, las pruebas revelaron problemas serios. Con un gran número de ofertas, los agentes empezaban a desorientarse, mostrando una caída notable en la eficacia. Los desarrolladores señalan que una cantidad excesiva de opciones sobrecarga al modelo y dificulta la toma de decisiones — lo que contradice la suposición de que la IA debería ser capaz de manejar múltiples opciones simultáneamente.
Otro punto débil fue la interacción entre agentes al realizar tareas colectivas. Sin instrucciones claras, los modelos no podían coordinar acciones ni distribuir roles, lo que llevaba a una reducción de la calidad global del resultado. Solo era posible aumentar la eficacia mediante la descripción explícita de los pasos de colaboración, lo que indica una capacidad autónoma insuficiente para el trabajo en equipo en las versiones actuales.
Según el equipo de investigación, el desarrollo continuado de este tipo de entornos de prueba ayudará a comprender con mayor precisión las limitaciones de la IA moderna y a desarrollar recomendaciones para aumentar la resiliencia y la adaptabilidad de los agentes autónomos. Esto es especialmente importante frente a las declaraciones de grandes empresas sobre la pronta implementación de sistemas de agentes en la infraestructura digital cotidiana.