Alimento gratis para la IA: canciones de Radiohead y Lady Gaga se descargan masivamente eludiendo las normas de YouTube

Alimento gratis para la IA: canciones de Radiohead y Lady Gaga se descargan masivamente eludiendo las normas de YouTube

Los archivos musicales resultaron presa fácil de algoritmos de terceros.

image

Los archivos musicales que parecen abiertos no siempre autorizan el uso para entrenar modelos de inteligencia artificial con fines comerciales, y The Atlantic mostró la magnitud de esa zona gris mediante una nueva base de datos buscable de pistas que aparecieron en conjuntos de entrenamiento.

El periodista Alex Reisner descubrió cuatro conjuntos de datos con música que se usan para entrenar modelos de inteligencia artificial y los puso a disposición para búsqueda. Dos conjuntos resultaron especialmente grandes: uno contiene 12 millones de pistas y el segundo incluye 9 millones. Otros dos son más pequeños, pero también considerables en volumen, ya que en cada uno se recopilaron más de 100.000 canciones.

Según Reisner, estos conjuntos se descargaron miles de veces. No es posible determinar con exactitud todos los usuarios, pero Google y Stability confirmaron el uso de esos datos en publicaciones científicas. Algunas fuentes, incluido Free Music Archive, permiten escuchar música de forma gratuita para fines personales, pero exigen una licencia separada para uso comercial.

El problema principal no está solo en la presencia de las pistas en internet, sino en la forma de obtener el audio. Tres conjuntos encontrados se distribuyen no como archivos musicales completos, sino como listas de enlaces a canciones en YouTube y Spotify. Luego los desarrolladores de IA usan herramientas automáticas que descargan el sonido y, en casos concretos, eluden el inicio de sesión, la publicidad y los mecanismos por los que los autores podrían recibir ingresos o audiencia. Ese enfoque infringe las normas de esas plataformas.

En la base aparecen tanto artistas masivos como músicos de escenas más nicho. Entre los nombres encontrados figuran Lady Gaga, Fred Again, Radiohead, Aphex Twin, Wu-Tang Clan, Bruce Springsteen y el compositor Hainbach. En el sitio AI Watchdog de The Atlantic se pueden buscar no solo canciones, sino también libros y otros medios que se usaron en el entrenamiento de modelos de inteligencia artificial.