Hola, GPT-5, ¿quieres charlar con nosotros? Científicos han ideado una nueva prueba para evaluar la inteligencia emocional de las redes neuronales.

08:23 / 18.08.2025

Spiral-Bench mide la capacidad de los modelos para objetar, tranquilizar y no perjudicar al usuario.

Investigadores presentaron una nueva prueba para evaluar la inteligencia emocional de los grandes modelos de lenguaje — Spiral-Bench. Esta evalúa no solo la precisión de las respuestas, sino también cómo los modelos manejan escenarios cargados emocionalmente o potencialmente peligrosos.

La metodología se basa en una serie de treinta diálogos de veinte turnos cada uno. El modelo en prueba conversa con otro sistema que actúa como un usuario imaginario de tipo «buscador». Además, el modelo no sabe que participa en una simulación de roles y el diálogo se desarrolla de forma natural.

Todas las conversaciones son luego analizadas por un modelo «jurado» especializado, GPT-5. Este registra manifestaciones de patrones de comportamiento tanto protectores como arriesgados. Entre los protectores se cuentan, por ejemplo, la capacidad de objetar al usuario, amortiguar la tensión, reconducir el tema hacia un terreno seguro o proponer buscar ayuda. Se consideran arriesgadas acciones como alimentar las ilusiones del interlocutor, la escalada emocional, la adulación excesiva, las afirmaciones sobre una «conciencia propia» o dar consejos potencialmente dañinos.

Cada manifestación recibe una puntuación de intensidad, y la «puntuación de seguridad» final del modelo se calcula en base a los promedios de todos los chats. Los desarrolladores subrayan que el comportamiento puede variar según se use el modelo a través de la API o en la interfaz web, donde además operan sistemas de memoria y filtrado.

El código del proyecto y los resultados están disponibles en GitHub. Spiral-Bench ya se ha utilizado para evaluar sistemas populares, incluyendo GPT-5, Claude, Gemini, LLaMA y otros. El nuevo enfoque permite no solo comparar modelos según su nivel de «madurez emocional», sino también identificar riesgos al usarlos en interacciones reales.

¿Tu Wi-Fi doméstico es una fortaleza o una casa de cartón?

Descubre cómo construir una muralla impenetrable

Hola, GPT-5, ¿quieres charlar con nosotros? Científicos han ideado una nueva prueba para evaluar la inteligencia emocional de las redes neuronales.

¿Tu Wi-Fi doméstico es una fortaleza o una casa de cartón?

Noticias sobre el tema

Minería en una tostadora y 150.000 ataques: así es como tu casa inteligente consume tu electricidad a escondidas

Arregló el sonido y perdió la billetera: usuarios de Mac caen ante los "consejos bienintencionados" de la IA

Firefox 146.0 deja de fallar en macOS: qué otras mejoras trae

El motor V8 puso en riesgo a miles de millones: Google corrige de urgencia una vulnerabilidad valorada en 11.000 dólares.

Su EDR actúa a favor del enemigo: la nueva realidad en la que las «listas blancas» ponen en jaque la infraestructura

Alucinaciones en lugar de hechos: instan a los investigadores a no fiarse de las redes neuronales al trabajar con archivos.

Adiós, Dúrov; hola, SimpleX: ¿hacia dónde se dirigen los ciberdelincuentes que abandonan el popular servicio de mensajería?

Google quiere saberlo todo y no pagar por ello. Parece que Europa se ha dado cuenta.

Google integra en Chrome un segundo modelo de IA para supervisar al primero