Desarrollan tecnología para resolver el conflicto de derechos de autor en la IA
Investigadores de la Universidad de California en Riverside propusieron un nuevo método para lograr que los modelos de IA «olviden» datos no deseados sin un reentrenamiento completo y costoso. Esto puede ayudar a las empresas a cumplir con los requisitos de la legislación sobre derechos de autor y de protección de datos personales.
Los modelos modernos se entrenan con volúmenes enormes de datos recopilados de internet, incluidos materiales sin el consentimiento de los titulares de derechos. Estas prácticas ya han provocado numerosas demandas y han planteado preguntas a los reguladores sobre el derecho a la eliminación de datos en el marco del GDPR y la CCPA.
La solución tradicional consiste en reentrenar los modelos con conjuntos de datos limpios. Pero esto requiere millones de horas de GPU y gastos enormes, por lo que en la práctica ese enfoque resulta casi inviable.
Los científicos llevan varios años buscando métodos más eficientes de «desaprendizaje» que permitan eliminar datos sin destruir el modelo. Sin embargo, la mayoría de las soluciones suponen acceso al conjunto de datos original, lo cual no siempre es posible.
El equipo de la profesora Basak Guler, junto con colegas, desarrolló un método denominado «desaprendizaje sin acceso a los datos fuente». No requiere los datos originales y, al mismo tiempo, garantiza estadísticamente la eliminación de la información no deseada del modelo.
La idea se basa en el uso de un conjunto de datos sustituto y del método de actualización de Newton de un solo paso. Para excluir la posibilidad de reconstruir la información prohibida, los investigadores añaden al modelo una cantidad estrictamente calculada de ruido aleatorio.
Los experimentos demostraron que este enfoque proporciona resultados comparables al reentrenamiento total, pero con costes computacionales significativamente menores.
Los autores publicaron el artículo «Un enfoque certificado de desaprendizaje sin acceso a los datos fuente», donde describieron la tecnología en detalle.
Por ahora, el método se ha probado principalmente en modelos clasificadores sencillos. Para los grandes modelos de lenguaje que sustentan servicios de chat populares y que están siendo objeto de litigios, aún queda por adaptar la técnica.
«No afirmamos haber resuelto todos los problemas», subrayó Guler. Según ella, el desarrollo aborda solo una parte de la tarea compleja.
El siguiente paso es estudiar cómo diseñar correctamente los conjuntos de datos sustitutos. «Hay que avanzar paso a paso. Esto es solo el comienzo», añadió la investigadora.