¿Llamadas automáticas solicitando datos? ASRJam los dejará sordos y te dejará inaccesible

¿Llamadas automáticas solicitando datos? ASRJam los dejará sordos y te dejará inaccesible

Los estafadores te robarán el tiempo, pero no obtendrán nada. Ahora tu voz es un misterio para ellos.

image

Investigadores de Israel e India han presentado una nueva tecnología para proteger contra llamadas telefónicas fraudulentas, conocidas como "vishing". El sistema, llamado ASRJam, es capaz de distorsionar en tiempo real el habla del interlocutor de manera que la persona al otro lado de la línea escuche todo con claridad, pero el sistema automático de reconocimiento de voz (ASR) utilizado por los estafadores no pueda interpretar correctamente lo escuchado.

En el centro de este desarrollo se encuentra el algoritmo EchoGuard, que añade ruidos de audio imperceptibles al habla, perturbando eficazmente el funcionamiento de los sistemas de reconocimiento automático sin interferir con la percepción humana. El enfoque, descrito en la publicación científica titulada "ASRJam: Human-Friendly AI Speech Jamming to Prevent Automated Phone Scams", se basa en la idea de que el módulo de reconocimiento de voz en la infraestructura de ataques por voz es el eslabón más vulnerable.

Las llamadas fraudulentas que emplean redes neuronales han aumentado de forma alarmante en los últimos tiempos: entre el primer y el segundo semestre de 2024, su número creció un 442%, según el informe de CrowdStrike para 2025. Los delincuentes modernos utilizan voz sintetizada y sistemas ASR avanzados para entablar conversaciones en tiempo real con el objetivo de obtener datos confidenciales.

A diferencia de otros métodos de interferencia ASR como AdvDDoS, Kenku o Kenansville, EchoGuard funciona en escenarios interactivos y no resulta molesto para el interlocutor. El algoritmo emplea tres tipos de distorsiones acústicas: simulación de reverberación, modulación de micrófono y supresión temporal de sonidos individuales. Según los autores, esta combinación proporciona el mejor equilibrio entre claridad y comodidad auditiva, en contraste con las distorsiones burdas utilizadas anteriormente.

La eficacia de ASRJam se probó en tres conjuntos de datos de audio de acceso público —Tedlium, SPGISpeech y LibriSpeech— y en seis modelos ASR populares, incluyendo DeepSpeech, Vosk, Whisper de OpenAI, Wav2Vec2, IBM Watson y SpeechBrain. EchoGuard mostró los mejores resultados en todos los modelos excepto uno —SpeechBrain— que resultó ser un poco más resistente. No obstante, los autores señalan que este sistema rara vez se usa en ataques reales y que, en general, tiene una calidad inferior.

Se prestó especial atención a la resistencia del modelo Whisper, que se desempeña mejor que otros frente al ruido gracias a su entrenamiento con grandes volúmenes de datos "sucios". Incluso en este caso, EchoGuard reduce la calidad del reconocimiento: una de cada seis frases queda distorsionada hasta el punto de interrumpir el curso de la conversación y afectar la lógica de generación de respuestas en sistemas LLM basados en ASR.

La investigación, dirigida por Freddy Grabowski de la Universidad Ben-Gurión del Néguev, posiciona a ASRJam como el primer sistema universal y práctico de protección contra ataques de voz automatizados. El módulo de software opera en el dispositivo del usuario y permanece invisible para el atacante, lo que dificulta enormemente eludir la protección.

En el contexto del rápido avance de las tecnologías de reconocimiento y síntesis de voz, la aparición de métodos de protección como este podría desempeñar un papel clave en la lucha contra nuevas formas de estafas telefónicas, especialmente ahora que las personas interactúan cada vez más con inteligencias artificiales en lugar de operadores humanos.

¿Estás cansado de que Internet sepa todo sobre ti?

¡Únete a nosotros y hazte invisible!