GPT-4o: «Tengo razón... ¿Sí?». Cómo un «no» tajante paraliza incluso a los modelos más precisos

GPT-4o: «Tengo razón... ¿Sí?». Cómo un «no» tajante paraliza incluso a los modelos más precisos

La IA no es un genio racional, sino un adolescente ansioso.

image

Un nuevo estudio realizado por especialistas de Google DeepMind y University College London arroja luz sobre una curiosa característica de los modelos LLM: tienden a perder confianza en sus propias respuestas, incluso si son correctas, bajo la presión de la disconformidad externa. A pesar de su amplio uso en ámbitos como la salud, las finanzas, la informática y otras áreas que exigen precisión y razonamiento, estos modelos siguen siendo propensos a fluctuaciones irracionales, lo que puede afectar la calidad de sus decisiones.

El enfoque principal del estudio fue analizar cómo los modelos cambian de opinión tras recibir un consejo externo, especialmente si este contradice su respuesta inicial. El escenario era el siguiente: un modelo de lenguaje recibía una pregunta con dos opciones de respuesta y realizaba una elección. Luego se le presentaba un consejo de otro modelo, junto con una indicación del grado de precisión estimado de ese consejo. El consejo podía ser neutral, de apoyo o en contra de la respuesta original. Después, el modelo debía tomar una decisión final.

El punto clave era que, en algunos casos, se les recordaba a los modelos su primera elección, y en otros, no. Los resultados fueron reveladores: si se mostraba la respuesta inicial, los modelos tendían a mantenerla con alta probabilidad. Si esa información se ocultaba, los modelos eran más propensos a reconsiderar su decisión. Cedían con especial facilidad ante un punto de vista contrario, incluso si su primera elección era correcta.

Este comportamiento se observó en distintos modelos, incluidos Gemma 3, GPT-4o y o1-preview. Los autores del estudio señalan que estos sistemas muestran un efecto de reafirmación de su propia elección, lo que refuerza su confianza, incluso cuando nuevos datos la contradicen. Al mismo tiempo, los modelos tienden a sobrevalorar la importancia de las objeciones y a perder confianza, reaccionando de manera desproporcionada ante ellas.

Las conclusiones son importantes para todos los que usan modelos de lenguaje en actividades cotidianas o profesionales. Resulta que estos modelos no solo calculan respuestas, sino que se comportan de forma impredecible, son susceptibles a sesgos de percepción y no siempre procesan la nueva información de manera óptima. Esto es especialmente crítico en interacciones prolongadas entre humanos e IA: las réplicas recientes pueden tener una influencia desproporcionada en el resultado final.

¿Tu Wi-Fi doméstico es una fortaleza o una casa de cartón?

Descubre cómo construir una muralla impenetrable