Las alucinaciones de la IA no son un fallo, sino una característica: OpenAI explica cómo entrenó al modelo para mentir

Las alucinaciones de la IA no son un fallo, sino una característica: OpenAI explica cómo entrenó al modelo para mentir

El 20 % de los hechos aparecen una sola vez — el 20 % de las respuestas serán falsas…

image

Investigadores de OpenAI, junto con el profesor de informática Santosh Vempala del Instituto de Tecnología de Georgia, publicaron el trabajo Why Language Models Hallucinate, en el que reconocen: la tendencia de los modelos de lenguaje a ofrecer respuestas poco verosímiles está arraigada en el proceso de entrenamiento. Los autores sostienen que los métodos estándar de evaluación, en realidad, empujan a los modelos a inventar información en lugar de admitir la ausencia de datos.

El problema está relacionado con que la verificación del funcionamiento de la IA se basa en un principio de examen: se exige dar un resultado, incluso si es incorrecto. Un sistema que ofrece aunque sea una conjetura obtiene más puntos que aquel que declara la falta de datos. En el blog de OpenAI, publicado al mismo tiempo que el artículo, se señala: «en miles de preguntas de prueba, un modelo que adivina parece más exitoso que uno cauteloso que registra su inseguridad».

Los autores pusieron el ejemplo del cumpleaños del investigador Adam Kalai. El modelo dio tres veces fechas equivocadas, porque sus algoritmos están orientados a la generación obligatoria de una respuesta. En la etapa de preentrenamiento, los modelos de lenguaje reciben grandes volúmenes de texto donde muchos hechos se repiten, por ejemplo las variantes correctas de la ortografía de palabras. Aunque en el corpus haya errores tipográficos aislados, quedan superados por la gran cantidad de ejemplos correctos. Pero en el caso de datos únicos, como fechas concretas de nacimiento, no se forma una pauta y el programa empieza a «disparar al azar». El artículo afirma con claridad: si el 20 % de los hechos aparece una sola vez en los datos, la probabilidad de afirmaciones falsas no será menor que ese porcentaje.

La etapa de posprocesamiento agrava la situación. Métricas, tales como el porcentaje de respuestas correctas o el indicador de aprobación de una prueba, están diseñadas de modo que registrar la incertidumbre disminuye el resultado final. Los autores observan: las personas aprenden a valorar la cautela en la vida real, mientras que los modelos de lenguaje se evalúan con criterios que castigan el reconocimiento de la ignorancia. Como resultado, el sistema se ve obligado a ofrecer cualquier opción, aunque esté lejos de la verdad. Esto se puede comparar con un test de opción múltiple: elegir al azar da más puntos que dejar la casilla vacía.

Los investigadores consideran que la situación se puede cambiar con ajustes en los propios métodos de evaluación. «Pequeños cambios en las pruebas estándar pueden reconfigurar el sistema de incentivos y fomentar la expresión correcta de la incertidumbre, en lugar de castigarla. Eso eliminaría un obstáculo para reducir el número de alucinaciones y abriría el camino hacia modelos más precisos», señalan en el artículo.

Teóricamente el problema se podría eliminar por completo si los datos de entrenamiento no contuvieran errores. Sin embargo los autores reconocen que, con los volúmenes actuales, eso es inalcanzable, porque en los corpus inevitablemente hay imprecisiones. Una opción más realista es enseñar al modelo a responder con más frecuencia «no sé», aunque eso disguste a algunos usuarios. OpenAI afirma que en ChatGPT-5 ya se aplican nuevos enfoques, pero por ahora no se ha logrado eliminar por completo las «conjeturas erróneas».

Tu privacidad está muriendo lentamente, pero nosotros podemos salvarla

¡Únete a nosotros!