La Universidad de Cornell adopta medidas de emergencia.

En uno de los repositorios de preprints científicos más importantes, arXiv hubo un cambio que refleja la creciente preocupación de la comunidad investigadora por el uso incontrolado de modelos generativos de IA. La plataforma, gestionada por la Universidad de Cornell y ampliamente utilizada por científicos de todo el mundo, dejó de aceptar dos tipos concretos de publicaciones en la categoría de ciencias de la computación: artículos de revisión y artículos de software. El motivo fue el fuerte aumento del número de materiales generados automáticamente con modelos de lenguaje que no aportan contribuciones científicas reales.
Durante décadas, arXiv ha servido como plataforma para depositar trabajos científicos antes de someterlos a la revisión formal en revistas académicas. Esto es especialmente importante en campos de rápido desarrollo, como la inteligencia artificial y el aprendizaje automático, donde los retrasos en la publicación pueden hacer perder la novedad de los resultados.
Sin embargo, en los últimos años la sección de ciencias de la computación se ha visto literalmente inundada de trabajos que no constituyen ni investigaciones originales ni revisiones analíticas que discutan problemas científicos actuales. Muchos de ellos, según señala la declaración oficial de la plataforma, se parecen a listas anotadas de bibliografía que no van más allá de recontar datos ya conocidos.
Aunque formalmente no se trata de la introducción de nuevas reglas, la administración de arXiv indica que a partir de ahora aplicará estrictamente los criterios de moderación vigentes. A los autores de artículos de revisión y de software se les exigirá ahora la prueba de que han pasado una revisión externa —sin esto, la publicación no será admitida. Se aclara que estas medidas se aplican únicamente a los artículos que no contienen resultados originales y no se extienden a investigaciones completas.
Según representantes de arXiv, actualmente reciben cientos de estas presentaciones cada mes. La aparición de modelos de lenguaje solo ha acelerado este proceso, facilitando la generación masiva de textos. Como resultado, ha aumentado la presión sobre los moderadores, que deben dedicar recursos a filtrar materiales secundarios y repetitivos en detrimento del análisis de trabajos científicos realmente significativos. Para aliviar esta tarea, se tomó la decisión de cesar por completo la recepción de publicaciones de revisión y de software en la categoría de ciencias de la computación.
Si en otras disciplinas surge una situación similar, relacionada con el aumento de textos escritos con ayuda de IA, arXiv podría extender restricciones similares a esas secciones. Según la administración del servicio, tales medidas son necesarias para garantizar atención prioritaria a investigaciones serias de interés para la comunidad científica.
El uso de modelos generativos ya se ha convertido en fuente de varios problemas en la esfera científica. Además del flujo de textos homogéneos, la creciente dependencia de la IA afecta incluso el proceso de revisión: se conocen casos en los que revisores científicos utilizaron ChatGPT para preparar sus evaluaciones.
Además, el año pasado se retiró un artículo publicado en una revista prestigiosa que contenía una imagen generada por IA —y esta no cumplía con los estándares académicos. Todo ello subraya la necesidad de revisar los criterios de publicación y reforzar el control sobre la calidad de los materiales científicos en la era del amplio uso de modelos de lenguaje.