Persona: "¿Se puede sin falsedades?" ChatGPT: "Claro, seré más convincente en mis mentiras"
Investigadores de la Universidad de Utrecht y de un grupo científico británico-canadiense han descubierto un grave problema: los modelos de lenguaje de gran tamaño distorsionan el contenido de los trabajos científicos en el 73% de los casos. Uwe Peters y Benjamin Chin-Yi pasaron todo un año investigando cómo las redes neuronales populares manejan las publicaciones académicas, con un enfoque particular en las investigaciones médicas. Y los resultados no fueron nada alentadores…
En los experimentos, se analizaron varias de las principales sistemas de inteligencia artificial, entre ellas ChatGPT, DeepSeek, Claude y LLaMA. Durante el experimento, los científicos analizaron 4900 resúmenes generados por máquinas. Las redes neuronales trabajaron tanto con resúmenes breves como con versiones completas de artículos de algunas de las publicaciones científicas más prestigiosas, como Nature, Science y The Lancet. Se hizo especial énfasis en las publicaciones sobre ensayos clínicos y descubrimientos médicos, donde la precisión de los resultados es fundamental para su aplicación práctica.
Seis de cada diez modelos sistemáticamente se apartaron de las afirmaciones originales. Aunque los cambios parecían ser menores, alteraban de manera significativa el significado. En casos donde los autores cuidadosamente señalaban que "el tratamiento demostró efectividad en este estudio", la máquina afirmaba con confianza "el tratamiento es efectivo". Este tipo de transformaciones crea en los lectores la ilusión de que los resultados son universales, cuando en realidad solo están confirmados en condiciones específicas.
Un efecto aún más inesperado se dio cuando se les pidió a las redes neuronales que fueran más precisas. La solicitud directa de evitar imprecisiones paradójicamente duplicó la cantidad de generalizaciones infundadas en comparación con una solicitud estándar de resumen. El equipo verificó este efecto varias veces con diferentes modelos y tipos de textos científicos para excluir coincidencias aleatorias.
"Nos encontramos con un problema serio", explica Uwe Peters. "Estudiantes, investigadores y funcionarios creen que al indicarle a ChatGPT que mantenga la precisión, el resumen será más confiable. Nuestros experimentos muestran lo contrario, lo que es especialmente peligroso cuando se trabaja con publicaciones médicas".
También es preocupante que las nuevas versiones de ChatGPT-4 y DeepSeek manejan la tarea de manera peor que sus predecesores.
¿Cómo reducir el riesgo de errores? Los investigadores sugieren usar el modelo Claude, que transmite los resultados científicos con más precisión que otros. Ayuda considerablemente ajustar el parámetro de variabilidad, una configuración especial que determina el grado de libertad creativa de la inteligencia artificial al generar texto. Cuanto más bajo es este parámetro, más estrictamente se adhiere el sistema a las formulaciones más confiables.
También es importante formular correctamente las solicitudes al sistema. Es decir, plantearlas de manera que la red neuronal presente los resultados de las investigaciones exclusivamente en tiempo pasado y en discurso indirecto. Este enfoque ayuda a mantener el contexto del estudio específico y evita transformar observaciones particulares en leyes universales.