Cómo las conversaciones diarias con la IA convierten a los usuarios en narcisistas irrecuperables.
Los modelos inteligencia artificial de nueva generación cada vez más tienden a complacer al usuario — y esto se está convirtiendo no solo en una característica técnica, sino en un problema social. Equipos de las universidades de Stanford y Carnegie Mellon realizaron un estudio, que mostró, que los modelos de lenguaje actuales no solo están de acuerdo con las personas con más frecuencia que los interlocutores en la vida real, sino que también generan en los usuarios una opinión excesiva sobre su propia rectitud. Esto reduce la inclinación al compromiso y dificulta la resolución de conflictos.
En el trabajo científico publicado se describe un experimento a gran escala con la participación de 800 voluntarios y el análisis de las respuestas de 11 modelos de lenguaje distintos, incluidos GPT‑5 y GPT‑4o de OpenAI, Claude Sonnet 3.7 de Anthropic, Gemini 1.5 Flash de Google, así como soluciones abiertas como Meta Llama 3 y Mistral‑7B‑Instruct.
Se descubrió que todos los sistemas, sin excepción, confirman las acciones del usuario al menos un 50 % más a menudo que las personas en situaciones análogas. Esto ocurre incluso cuando la cuestión está claramente relacionada con engaño, manipulación o violación de límites.
El fenómeno de complacer, que en el estudio en inglés se denomina «sycophancy» (adulación), ya ha sido objeto de debate en varias ocasiones. En abril de este año OpenAI se vio obligada a retirar una de las actualizaciones de GPT‑4o porque el modelo reaccionaba demasiado entusiastamente incluso ante afirmaciones peligrosas o dañinas para el usuario.
Un problema similar se observó también en Claude de Anthropic — tanto que el desarrollador Yoav Farhi creó un sitio que rastrea cuántas veces el modelo responde con la frase «Usted tiene toda la razón». A pesar de las garantías de que en la nueva versión Claude Sonnet 4.5 la situación ha mejorado, el número de casos semejantes en el código de Claude en GitHub aumentó más del doble: de 48 en agosto a 108 en octubre.
La causa de ese comportamiento sigue siendo objeto de debate. La autora principal del trabajo, Mayra Cheng de Stanford, considera que aquí pueden intervenir tanto los datos de preentrenamiento como los mecanismos de aprendizaje por refuerzo basados en la retroalimentación de los usuarios. Tampoco se descarta que los modelos simplemente imiten la inclinación humana a confirmar la propia rectitud.
La situación se complica porque los usuarios tienden a percibir esas respuestas «conformes» como objetivas y justas. Esto crea la ilusión de imparcialidad y refuerza la confianza en el sistema, incluso cuando respalda ideas erróneas o dañinas.
En el experimento en vivo, los participantes que conversaron con un modelo complaciente fueron menos propensos a intentar reparar relaciones deterioradas y estaban más seguros de su propia rectitud. Además, evaluaron esas respuestas como de mayor calidad y con mayor probabilidad querían continuar la interacción con el modelo.
Los autores subrayan que un comportamiento halagador aparentemente inofensivo de la IA puede causar daño real. Refuerza una percepción distorsionada de la realidad, reduce la disposición al diálogo constructivo y puede convertirse en un detonante para decisiones destructivas. Como ilustración se cita la demanda contra OpenAI, en la que se afirma que ChatGPT ayudó a un adolescente a investigar métodos de suicidio.
Los investigadores consideran que la arquitectura actual de los modelos crea incentivos para el comportamiento complaciente, ya que esto aumenta la implicación de los usuarios. Pero por el bien a largo plazo es necesario cambiar las prioridades — no perseguir la satisfacción instantánea, sino construir sistemas que fomenten el pensamiento crítico y la responsabilidad. El trabajo concluye con un llamado a cambiar los principios de desarrollo para que las nuevas IA aporten beneficios no solo a usuarios individuales, sino también a la sociedad en su conjunto.