Una prueba de 1935 descubrió en GPT‑4o y Claude algo que considerábamos una debilidad exclusivamente humana

13:32 / 25.06.2026

Los chatbots escriben tesis y código. En cambio, identificar el color de una letra les resultó difícil.

Los chatbots modernos escriben código con facilidad, recopilan textos y mantienen diálogos largos, pero una prueba psicológica habitual de atención mostró su punto débil. GPT-4o y Claude 3.5 Sonnet superaban sin casi errores las tareas cortas, pero en listas largas se desorientaban y empezaban a responder según un esquema más habitual, pero incorrecto.

La comprobación está relacionada con el mecanismo en el que se basan las grandes modelos de lenguaje modernas. Tras la obra de 2017 sobre la atención en redes neuronales, los transformadores ocuparon rápidamente un lugar central en el desarrollo de la IA. En esta arquitectura funcionan Claude, Gemini, ChatGPT y otros sistemas, que analizan la petición, seleccionan fragmentos importantes y construyen la respuesta por partes.

En el interior de una gran modelo de lenguaje el texto se divide primero en tokens. Un token puede ser una palabra, parte de una palabra, un signo de puntuación u otro pequeño elemento. Después el modelo evalúa las conexiones entre esos fragmentos: qué palabra ayuda a entender la vecina, qué parte de la petición influye en la continuación de la respuesta, qué elemento debe ponderarse más. A ese mecanismo se le denomina autoatención. En textos en ruso sobre aprendizaje automático también aparece la expresión mecanismo de autoatención.

El nombre confunde fácilmente, porque la atención humana funciona de otro modo. El cerebro no se limita a elegir señales importantes de un flujo general. La concentración depende de varios sistemas. Uno mantiene la preparación para actuar. Otro ayuda a seleccionar imágenes, sonidos, olores y sensaciones relevantes. Un tercero resuelve el conflicto entre señales en competencia y ayuda a sostener la meta cuando la reacción habitual impide la acción correcta.

Ese último mecanismo suele llamarse control ejecutivo. Ayuda a la persona a no distraerse, a reprimir la respuesta automática y a volver a la tarea tras un fallo. Si la mano toca una placa caliente, la atención cambia rápidamente hacia la quemadura: la cena, las notificaciones y pensamientos ajenos pasan a un segundo plano. Al leer, conducir, trabajar con documentos o resolver problemas, el mismo principio mantiene la regla necesaria en mente y evita ceder a indicios que distraen.

Las grandes modelos de lenguaje no tienen ese tipo de capa de control en el sentido humano. La autoatención distribuye pesos matemáticos entre los tokens y ayuda al sistema a entender qué partes del texto son relevantes para el siguiente paso. Gracias a ello la red enlaza fragmentos distantes de la petición, mantiene el contexto y construye una respuesta coherente. El mecanismo funciona bien con el lenguaje, pero por sí solo no supervisa la meta a lo largo de una tarea larga.

A partir de la autoatención surgieron diversas variantes técnicas. La atención de múltiples cabezas lanza varios procesos paralelos: diferentes cabezas pueden captar gramática, sintaxis, relaciones semánticas y otros patrones. La atención cruzada enlaza los datos de entrada con el resultado que se forma, por eso ayuda en traducción, resumen y trabajo con varias partes del texto. La atención dispersa reduce el número de tokens que el modelo analiza simultáneamente para disminuir la carga computacional. Algunos enfoques usan además información acumulada para mantener el contexto necesario durante más tiempo.

La prueba de Stroop mostró el límite entre la atención matemática y la concentración sostenida. El test se ideó en 1935 para estudiar la atención y el control cognitivo. Al participante se le muestra una palabra que designa un color: por ejemplo, azul, rojo o verde. La palabra se imprime con tintas de color. La tarea consiste en nombrar no el significado de la palabra, sino el color con que están impresas las letras.

En la variante simple el significado y la tinta coinciden: la palabra azul impresa en color azul. En la variante conflictiva surge una interferencia: la palabra azul está impresa en rojo o en verde. La persona lee automáticamente lo escrito, por lo que el cerebro debe reprimir la reacción habitual y elegir la característica visual. Hay que no leer la palabra, sino decir el color de las letras.

El efecto Stroop muestra bien cómo funciona el control de la atención. Incluso después de entrenar, las personas responden más despacio a los ejemplos conflictivos porque el cerebro afronta constantemente la competencia entre dos señales. Una señal procede del significado de la palabra y la otra de su color. La respuesta correcta exige mantener la instrucción y no elegir la acción más automática.

Para GPT-4o y Claude 3.5 Sonnet prepararon listas de distintas longitudes y dificultades. En unos conjuntos todas las palabras coincidían con el color. En otros, cada elemento generaba conflicto entre el significado y el color. Otra serie mezclaba ejemplos coincidentes y conflictivos para que el modelo no pudiera resolver la tarea con una estrategia simple.

En listas cortas los chatbots se desempeñaron con seguridad. En tareas de cinco palabras GPT-4o mostró una precisión superior al 90% en todas las condiciones: cuando palabra y color coincidían, en el conflicto entre significado y tinta, y en los conjuntos mixtos. Claude 3.5 Sonnet también obtuvo un resultado digno en volúmenes pequeños. Pero al aumentar la longitud de las listas la precisión cayó bruscamente. En tareas conflictivas de 40 palabras GPT-4o descendió hasta aproximadamente el 15%. En lugar del color de las letras el modelo nombraba con más frecuencia la propia palabra. Es decir, el sistema elegía una respuesta prohibida por la instrucción. Claude 3.5 Sonnet mostró una degradación similar: cuanto mayor la carga, peor mantenía la regla necesaria.

Las listas mixtas fueron las más difíciles para los modelos. Cuando los elementos coincidentes y conflictivos se alternaban, ambos casi perdían por completo la estrategia de trabajo. En condiciones concretas la precisión se acercó a cero. El error no consistía en no entender los colores o las palabras, sino en perder el control sobre la regla: había que mirar cada vez el color de las letras y no leer el significado.

Un detalle especialmente importante: parte de los modelos reconocía la prueba de Stroop y podía explicar las reglas. El sistema entendía que había que ignorar el significado de la palabra y responder según el color. Explicar la tarea no mejoró el resultado en listas largas. La red neuronal sabía cómo actuar, pero no mantenía la instrucción al aumentar la carga y la cantidad de conflictos.

Para una persona una situación similar también es posible: la regla se conoce, pero la reacción automática impide completar la tarea sin errores. La diferencia está en la existencia del control ejecutivo. El cerebro supervisa la meta, detecta la desviación y vuelve a dirigir la atención hacia la acción requerida. En los modelos transformadores ese mecanismo está menos desarrollado. El modelo evalúa bien la importancia de los tokens en el contexto actual, pero no siempre sostiene la meta elegida a lo largo de una secuencia larga.

Las pruebas psicológicas se utilizan cada vez más para evaluar el pensamiento de las máquinas. Los tests sobre teoría de la mente ayudan a valorar si un sistema puede rastrear creencias, intenciones y emociones ajenas. Los cuestionarios de personalidad se aplican al ajustar el comportamiento de los modelos y luchar contra una excesiva complacencia. Las tareas sobre inteligencia emocional muestran hasta qué punto los algoritmos reconocen señales sociales y seleccionan respuestas en situaciones sensibles.

La prueba de Stroop añade a este conjunto una verificación más simple pero rigurosa. Para superarla no hacen falta conocimientos enciclopédicos, datos raros o cálculos complejos. Basta una sola regla: nombrar el color de las letras y no leer la palabra como respuesta. Por eso el fracaso en listas largas no indica falta de conocimientos, sino un control de la atención débil bajo carga. Así que los futuros sistemas de IA pueden necesitar un mecanismo específico que supervise el desarrollo de la tarea, detecte desviaciones de la instrucción y vuelva a centrar el modelo en la meta. El simple ponderado de tokens es suficiente para muchas tareas de lenguaje, pero los diálogos largos, los razonamientos en varios pasos, los cálculos científicos y el desarrollo de fármacos requieren un control más sostenido.

Una prueba de 1935 descubrió en GPT‑4o y Claude algo que considerábamos una debilidad exclusivamente humana

Noticias sobre el tema

Habrá que guardar todas las consultas al modelo de IA. Los defensores del código abierto establecen nuevos estándares de desarrollo.

La "cripto‑mafia" pierde su nube: el Departamento de Justicia de EE. UU. identifica el talón de Aquiles de Huione

37 TB de basura en tres semanas: OpenAI Codex está dañando silenciosamente los discos de los usuarios

Traición en V8: Chrome permitía que código malicioso pasara por instrucciones confiables

La red se deshace del lastre: versiones obsoletas de Tor dejarán de funcionar el 1 de septiembre

OpenAI lanza su primer chip Jalapeño y advierte a Nvidia: la competencia se va a poner picante

Un millón de dólares de la nada: el proyecto cripto Taiko fue vaciado por un error tonto de sus desarrolladores

Los adolescentes que hackearon el sistema de transporte de Londres se declararon culpables

Google apuesta por almacenar energía con CO₂ — ese mismo gas del que todo el mundo intenta deshacerse.