Modelos LLM pierden rápidamente coherencia y «se corrompen» por la basura de interne

La inteligencia artificial generativa ha alcanzado cotas impresionantes —desde los cálculos y la educación hasta la medicina. Pero, como descubrieron investigadores de la Universidad de Cornell, su desarrollo se enfrenta a una amenaza inesperada: «deterioro cerebral». Tras un entrenamiento prolongado con datos de baja calidad, los grandes modelos de lenguaje (LLM) empiezan a perder capacidades cognitivas y la tendencia al razonamiento lógico.
Los científicos explican que el fenómeno recuerda la degradación de la atención en personas que consumen de forma constante contenido superficial de Internet. Para el análisis, el equipo de Cornell distinguió dos indicadores —el compromiso (publicaciones virales breves) y la calidad semántica (presencia de cebo de clics, errores y formulaciones estereotipadas)—. Sobre esa base se recopilaron conjuntos de datos con diferentes proporciones de «basura informativa».
Los modelos Llama 3 y Qwen 2.5, entrenados con esos datos, mostraron una caída pronunciada de la precisión: del 74,9 % al 57,2 %. La pérdida de capacidad para comprender contextos largos fue aún mayor —del 84,4 % al 52,3 %. Los científicos denominaron esto «efecto dependiente de la dosis»: cuanto más basura, más rápido se deteriora la inteligencia del modelo.
El estudio también identificó un «desplazamiento de personalidad» —los modelos perdían coherencia ética y generaban errores con mayor frecuencia. Sus razonamientos se volvían superficiales, los pasos del razonamiento lógico se reducían y las respuestas recordaban fragmentos de texto inconexos.
El problema plantea la cuestión del futuro de la IA, ya que casi todos los grandes laboratorios —Anthropic, OpenAI, Google— emplean para entrenar modelos contenido creado por personas y publicado en la red. Sin embargo, como se ha señalado en investigaciones anteriores, las empresas ya se han topado con la escasez de datos de calidad para entrenar nuevos modelos.
El cofundador de Reddit, Alexis Ohanian, considera que una parte significativa de Internet «ya está muerta» debido a la proliferación de bots y contenido cuasiartificial. Señaló que la «prueba de vida», es decir la presencia real de una persona, se está volviendo rara.
El director de OpenAI, Sam Altman, comparte esas preocupaciones y afirma que la mayoría de las cuentas en X están gestionadas por bots LLM. Él describe lo que sucede como la encarnación de la «teoría del internet muerto».
Según Amazon Web Services, alrededor del 57 % del contenido en la red ya se crea o se traduce mediante inteligencia artificial, lo que reduce la calidad de los resultados de búsqueda.
El exdirector de Twitter, Jack Dorsey, advirtió que en los próximos 5–10 años será imposible distinguir imágenes y vídeos auténticos de los generados debido a la difusión de deepfakes. Según él, los usuarios tendrán que confiar no en el contenido, sino en su propia experiencia para distinguir la realidad de la falsificación.
Los autores del estudio de Cornell advierten: si Internet continúa llenándose de ruido generado por máquinas, la IA empezará a entrenarse con sus propias distorsiones, perdiendo la capacidad de razonar. En ese caso, los modelos «inteligentes» corren el riesgo de convertirse en espejos del caos digital que ellos mismos han generado.