ArXiv desbordado por avalancha de artículos generados por IA: la «basura» digital está desplazando a la ciencia rea

20:15 / 04.11.2025

La Universidad de Cornell adopta medidas de emergencia.

En uno de los repositorios de preprints científicos más importantes, arXiv hubo un cambio que refleja la creciente preocupación de la comunidad investigadora por el uso incontrolado de modelos generativos de IA. La plataforma, gestionada por la Universidad de Cornell y ampliamente utilizada por científicos de todo el mundo, dejó de aceptar dos tipos concretos de publicaciones en la categoría de ciencias de la computación: artículos de revisión y artículos de software. El motivo fue el fuerte aumento del número de materiales generados automáticamente con modelos de lenguaje que no aportan contribuciones científicas reales.

Durante décadas, arXiv ha servido como plataforma para depositar trabajos científicos antes de someterlos a la revisión formal en revistas académicas. Esto es especialmente importante en campos de rápido desarrollo, como la inteligencia artificial y el aprendizaje automático, donde los retrasos en la publicación pueden hacer perder la novedad de los resultados.

Sin embargo, en los últimos años la sección de ciencias de la computación se ha visto literalmente inundada de trabajos que no constituyen ni investigaciones originales ni revisiones analíticas que discutan problemas científicos actuales. Muchos de ellos, según señala la declaración oficial de la plataforma, se parecen a listas anotadas de bibliografía que no van más allá de recontar datos ya conocidos.

Aunque formalmente no se trata de la introducción de nuevas reglas, la administración de arXiv indica que a partir de ahora aplicará estrictamente los criterios de moderación vigentes. A los autores de artículos de revisión y de software se les exigirá ahora la prueba de que han pasado una revisión externa —sin esto, la publicación no será admitida. Se aclara que estas medidas se aplican únicamente a los artículos que no contienen resultados originales y no se extienden a investigaciones completas.

Según representantes de arXiv, actualmente reciben cientos de estas presentaciones cada mes. La aparición de modelos de lenguaje solo ha acelerado este proceso, facilitando la generación masiva de textos. Como resultado, ha aumentado la presión sobre los moderadores, que deben dedicar recursos a filtrar materiales secundarios y repetitivos en detrimento del análisis de trabajos científicos realmente significativos. Para aliviar esta tarea, se tomó la decisión de cesar por completo la recepción de publicaciones de revisión y de software en la categoría de ciencias de la computación.

Si en otras disciplinas surge una situación similar, relacionada con el aumento de textos escritos con ayuda de IA, arXiv podría extender restricciones similares a esas secciones. Según la administración del servicio, tales medidas son necesarias para garantizar atención prioritaria a investigaciones serias de interés para la comunidad científica.

El uso de modelos generativos ya se ha convertido en fuente de varios problemas en la esfera científica. Además del flujo de textos homogéneos, la creciente dependencia de la IA afecta incluso el proceso de revisión: se conocen casos en los que revisores científicos utilizaron ChatGPT para preparar sus evaluaciones.

Además, el año pasado se retiró un artículo publicado en una revista prestigiosa que contenía una imagen generada por IA —y esta no cumplía con los estándares académicos. Todo ello subraya la necesidad de revisar los criterios de publicación y reforzar el control sobre la calidad de los materiales científicos en la era del amplio uso de modelos de lenguaje.

¿Estás cansado de que Internet sepa todo sobre ti?

¡Únete a nosotros y hazte invisible!

ArXiv desbordado por avalancha de artículos generados por IA: la «basura» digital está desplazando a la ciencia rea

¿Estás cansado de que Internet sepa todo sobre ti?

Noticias sobre el tema

La infraestructura hídrica de Rumanía en jaque: bloqueadas miles de estaciones de trabajo

Mal karma para este Mario: ciberdelincuentes convierten al héroe de la infancia en una pesadilla para los usuarios

«Camarón cibernético» y «langosta robótica»: científicos suizos crean robots a partir de mariscos

Prince of Persia: choque con el destino (y hasta tu Excel). Los hackers más veteranos de Irán resurgen del olvido digita

El mundo del plástico se impone: presentadora propone renunciar a los árboles de Navidad naturales en favor de los centros de datos

«¡Felicidades, está invitado a una boda!»: nueva estafa deja a los residentes de Uzbekistán con las cuentas vacías

¿Recuerdas a HTC? No solo sigue en activo, sino que está a punto de sacudir la industria de las gafas inteligentes.

Hackea a los ricos y entrega parte al jefe: en EE. UU. juzgan a un supuesto empleado remoto de una corporación de hackers

300 terabytes de música en torrents: Anna’s Archive crea un clon clandestino de Spotify