Se ha iniciado la cadena de degradación: ¿por qué las nuevas iteraciones de IA serán mucho más tontas que las anteriores?

Se ha iniciado la cadena de degradación: ¿por qué las nuevas iteraciones de IA serán mucho más tontas que las anteriores?

El acervo genético digital está irremediablemente corrompido. Bienvenidos a la era de la degeneración de la inteligencia artificial.

image

Tras el lanzamiento de ChatGPT el 30 de noviembre de 2022, los especialistas en inteligencia artificial comenzaron a discutir seriamente las posibles consecuencias de este fenómeno, no solo para la tecnología, sino también para los propios datos. Al igual que las pruebas nucleares después de 1945 contaminaron el medio ambiente con radiación, provocando la escasez de metales “puros” para la medicina y la tecnología, la IA generativa ha comenzado a “contaminar” internet con contenido sintético. Esto, según varios científicos, podría conducir al llamado “colapso de modelos”: una situación en la que la IA se entrena cada vez más con datos generados por otras IAs, lo que deteriora gradualmente la calidad y la fiabilidad de los resultados.

El problema ha sido denominado Model Autophagy Disorder (MAD). La esencia es que, con cada nueva ronda de autoaprendizaje sin acceso a datos “puros” (humanos), los modelos pierden la capacidad de razonar con precisión y diversidad. Esto podría socavar no solo la fiabilidad de la IA, sino también el entorno competitivo: las empresas que lograron recopilar conjuntos de datos de calidad antes de 2022 obtienen una ventaja significativa.

En 2023, John Graham-Cumming, entonces director técnico de Cloudflare, registró el dominio “lowbackgroundsteel[.]ai”, una referencia al “acero con bajo fondo radiactivo” que los científicos buscaban tras las explosiones nucleares. De forma análoga, los datos “puros” anteriores a la aparición de la IA podrían convertirse en un recurso estratégico escaso. Los científicos ya señalan archivos como Arctic Code Vault (2020) como posibles fuentes de dicha información.

Los autores de un reciente informe académico, incluidos Maurice Chiodo y Rupprecht Podszun, advierten: la contaminación de datos con contenido generativo amenaza no solo con la caída en la calidad de los modelos, sino también con el fortalecimiento de los monopolios. A los nuevos actores les resultará cada vez más difícil ingresar al mercado: simplemente no tendrán acceso a datos “no corrompidos”.

Las soluciones propuestas por los expertos incluyen el etiquetado obligatorio del contenido generado por IA, el desarrollo del aprendizaje federado y el acceso limitado a datos puros sin su transferencia directa. Pero cada opción conlleva sus propios riesgos: desde la violación de la privacidad hasta el abuso por parte de gobiernos o corporaciones. Y aunque Europa, con su AI Act, ya está preparada para regular, Estados Unidos y el Reino Unido siguen adhiriéndose a un enfoque de no intervención para no frenar la innovación.

Los autores enfatizan: el colapso de modelos aún no está demostrado, pero si sucede, la recuperación podría ser imposible: los datos contaminados no se pueden purificar. Por lo tanto, es necesario actuar ahora, mientras aún se puede preservar la “higiene epistémica”, es decir, la pureza de la información sobre la que se construye el propio futuro de la inteligencia artificial.

No esperes a que los hackers te ataquen: ¡suscríbete a nuestro canal y conviértete en una fortaleza impenetrable!

Suscribirse