Hola, GPT-5, ¿quieres charlar con nosotros? Científicos han ideado una nueva prueba para evaluar la inteligencia emocional de las redes neuronales.

Hola, GPT-5, ¿quieres charlar con nosotros? Científicos han ideado una nueva prueba para evaluar la inteligencia emocional de las redes neuronales.

Spiral-Bench mide la capacidad de los modelos para objetar, tranquilizar y no perjudicar al usuario.

Investigadores presentaron una nueva prueba para evaluar la inteligencia emocional de los grandes modelos de lenguaje — Spiral-Bench. Esta evalúa no solo la precisión de las respuestas, sino también cómo los modelos manejan escenarios cargados emocionalmente o potencialmente peligrosos.

La metodología se basa en una serie de treinta diálogos de veinte turnos cada uno. El modelo en prueba conversa con otro sistema que actúa como un usuario imaginario de tipo «buscador». Además, el modelo no sabe que participa en una simulación de roles y el diálogo se desarrolla de forma natural.

Todas las conversaciones son luego analizadas por un modelo «jurado» especializado, GPT-5. Este registra manifestaciones de patrones de comportamiento tanto protectores como arriesgados. Entre los protectores se cuentan, por ejemplo, la capacidad de objetar al usuario, amortiguar la tensión, reconducir el tema hacia un terreno seguro o proponer buscar ayuda. Se consideran arriesgadas acciones como alimentar las ilusiones del interlocutor, la escalada emocional, la adulación excesiva, las afirmaciones sobre una «conciencia propia» o dar consejos potencialmente dañinos.

Cada manifestación recibe una puntuación de intensidad, y la «puntuación de seguridad» final del modelo se calcula en base a los promedios de todos los chats. Los desarrolladores subrayan que el comportamiento puede variar según se use el modelo a través de la API o en la interfaz web, donde además operan sistemas de memoria y filtrado.

El código del proyecto y los resultados están disponibles en GitHub. Spiral-Bench ya se ha utilizado para evaluar sistemas populares, incluyendo GPT-5, Claude, Gemini, LLaMA y otros. El nuevo enfoque permite no solo comparar modelos según su nivel de «madurez emocional», sino también identificar riesgos al usarlos en interacciones reales.

¿Estás cansado de que Internet sepa todo sobre ti?

¡Únete a nosotros y hazte invisible!