El silencio, única defensa: la IA elimina cualquier interferencia y hace imposible proteger una voz de la clonación

El silencio, única defensa: la IA elimina cualquier interferencia y hace imposible proteger una voz de la clonación

El algoritmo Diffusion-Bridge demuestra que el ruido protector no impide generar deepfakes de alta calidad.

image

Los investigadores estudiaron, hasta qué punto son fiables los métodos actuales de protección contra clonación de voz, y llegaron a una conclusión que probablemente no alegrará a los desarrolladores de esas soluciones. Se trata de tecnologías que añaden distorsiones especiales a las grabaciones de audio. Deben ocultar las características individuales del habla, pero al mismo tiempo dejar el texto comprensible para el oyente. La idea era que tal archivo sería inútil para los atacantes. La práctica mostró que no siempre es así.

Los autores del estudio comprobaron que los atacantes pueden limpiar esas grabaciones mediante algoritmos avanzados y devolver a la voz rasgos acústicos característicos. Tras eso, el audio se puede volver a usar para la clonación. Además, muchos métodos de protección se diseñaron originalmente para sistemas de reconocimiento de voz, no para escenarios relacionados con la verificación de la identidad del hablante o la generación de voces sintéticas. Por ello, no ocultan bien los detalles sutiles que permiten identificar a una persona concreta.

Para demostrar de forma clara la vulnerabilidad de estos enfoques, los investigadores desarrollaron su propio sistema llamado Diffusion-Bridge, también conocido como VocalBridge. Restaura la voz limpiada no directamente a partir de la señal de audio, sino a partir de su representación latente en EnCodec. La solución se basa en un modelo de difusión con una arquitectura U-Net unidimensional, lo que permite prescindir de la transcripción de texto y, al mismo tiempo, conservar rasgos importantes para la identificación de la voz.

También se propuso una modificación con indicaciones fonémicas basada en Whisper. Proporciona al modelo puntos temporales de referencia sin exigir transcripciones preparadas. En los experimentos, este enfoque superó de forma constante a los métodos existentes, restaurando con éxito voces aptas para la clonación incluso a partir de grabaciones protegidas.

En conclusión, los autores señalan que los esquemas de protección actuales, basados en añadir distorsiones al audio, siguen siendo vulnerables ante ataques adaptativos. A medida que avancen las tecnologías de síntesis de voz y los sistemas de verificación del hablante, habrá que revisar los enfoques de protección; de lo contrario, el riesgo de abusos con la clonación de voz solo se intensificará.