Tu IA es lo que come: por qué hacktivistas de EE. UU. quieren alimentar las redes neuronales con basura digita

Tu IA es lo que come: por qué hacktivistas de EE. UU. quieren alimentar las redes neuronales con basura digita

Poison Fountain podría erosionar de forma irreparable la confianza en la pujante industria de la inteligencia artificia

image

En la industria de la inteligencia artificial se ha lanzado una nueva y audaz iniciativa cuyo objetivo es debilitar el funcionamiento de los modelos de aprendizaje automático mediante la manipulación intencional de los datos usados para su entrenamiento. La idea del proyecto llamado Poison Fountain nació entre personas que trabajan directamente en el desarrollo de IA y pretende mostrar la vulnerabilidad de estos sistemas y atraer la atención a las amenazas potenciales.

Los autores del proyecto proponen que los propietarios de sitios publiquen en sus recursos enlaces a páginas creadas ad hoc con información errónea o maliciosa que los robots de búsqueda de IA recogen automáticamente. Estos datos luego entran en las muestras de entrenamiento, empeorando la precisión y la calidad de los modelos creados. En dichas páginas se propone incluir código de programa incorrecto que contenga errores lógicos difíciles de detectar, capaces de perjudicar a modelos de lenguaje que se entrenan con ese contenido.

La idea se apoya en gran medida en un estudio de la compañía Anthropic realizado en octubre del año pasado. En ese momento los especialistas concluyeron que incluso una cantidad mínima de documentos maliciosos puede afectar sustancialmente el comportamiento de los modelos de lenguaje. Ese hallazgo, según los iniciadores de Poison Fountain, confirmó lo fácil que en realidad es socavar el funcionamiento de los sistemas de IA modernos.

Según el medio The Register, en el proyecto participan cinco personas, algunas de las cuales trabajan en grandes empresas estadounidenses dedicadas al desarrollo de IA. Uno de los organizadores, que prefirió permanecer en el anonimato, señaló que la amenaza no son escenarios hipotéticos, sino tecnologías ya implementadas basadas en la inteligencia artificial. Precisamente eso, según dijo, fue la razón para lanzar el proyecto: la intención de demostrar lo fácil que es socavar la confianza en ese tipo de sistemas.

En el sitio Poison Fountain hay dos enlaces: uno conduce a un sitio web normal y el otro solo está disponible a través de la red anónima Tor. Se insta a los visitantes a guardar y difundir los datos maliciosos y a facilitar por todos los medios que esa información llegue a las muestras de entrenamiento de IA. Los autores no creen en la eficacia de la regulación, estimando que las tecnologías ya se han difundido demasiado, por lo que la respuesta real debe ser activa y destructiva.

El escepticismo respecto a la regulación se alimenta también del hecho de que las mayores empresas que trabajan con IA invierten activamente en el cabildeo de sus intereses, buscando minimizar la intervención del Estado. Por eso los participantes de Poison Fountain consideran que el único modo posible de detener el desarrollo de la IA es el sabotaje.

Según los partidarios de esta idea, una campaña masiva de manipulación de datos podría acelerar el colapso de todo el sector, que, según se supone, ya atraviesa algunas dificultades. En la comunidad se discuten desde hace tiempo los signos del llamado "colapso de modelos": un proceso por el cual la IA empieza a entrenarse con datos sintéticos o ya procesados por sus propios algoritmos, perdiendo la capacidad de reproducir la información con precisión. En un entorno informativo que se contamina de forma acelerada, tales modelos se vuelven cada vez menos fiables.

Acciones similares se corresponden en parte con otras iniciativas dirigidas a proteger contra el uso no autorizado del contenido. Así, el proyecto de larga trayectoria Nightshade permite a los artistas oponerse a la recopilación automática de imágenes desde sus sitios, introduciendo en ellas distorsiones inadvertidas para el ojo humano que impiden que los algoritmos reconozcan las imágenes correctamente.

Qué tan eficaz puede ser el envenenamiento intencional de los datos de entrenamiento sigue siendo una pregunta abierta. Pero el mero hecho de la aparición de proyectos como este refleja la creciente inquietud en el entorno TI respecto al desarrollo futuro de la inteligencia artificial y a las consecuencias de su uso descontrolado.

No esperes a que los hackers te ataquen: ¡suscríbete a nuestro canal y conviértete en una fortaleza impenetrable!

Suscribirse