Océano de alucinaciones: los cazadores de errores se ahogan en informes falsos de IA

Océano de alucinaciones: los cazadores de errores se ahogan en informes falsos de IA

HackerOne y Bugcrowd se han convertido en terminales de disparates y absurdos.

image

En los últimos años, Internet se ha visto literalmente inundado de contenido de escaso valor, e incluso completamente ficticio, generado por modelos de lenguaje. No se trata sólo de textos, imágenes y vídeos de baja calidad, sino también de imitaciones de análisis reales que se filtran en medios de comunicación, redes sociales e incluso documentos oficiales. La ciberseguridad, como se ha descubierto, también ha resultado afectada por esta nueva forma de contaminación digital.

Lo más preocupante ha sido la nueva ola de informes falsos sobre vulnerabilidades descubiertas, que se presentan como legítimos en el marco de programas de bug bounty. En realidad, estos informes provienen de modelos de lenguaje que inventan fallos inexistentes y los presentan en textos pseudo-profesionales.

Vlad Ionescu, cofundador de RunSybil, una empresa que desarrolla herramientas de IA para la búsqueda de vulnerabilidades, describe la situación como una trampa de confianza: muchos de estos informes parecen convincentes, están redactados con corrección técnica, pero al verificarlos resulta que la vulnerabilidad descrita es simplemente un producto de la “alucinación” de la IA.

El problema se agrava por el hecho de que los modelos generativos están diseñados para ofrecer respuestas positivas: si el usuario solicita un informe de vulnerabilidad, el sistema lo crea —independientemente de si dicha vulnerabilidad existe o no. Estos informes acaban en masa en las plataformas de bug bounty, saturándolas y restando recursos a los ingenieros y especialistas en seguridad, que deben revisar manualmente los datos ficticios.

Ya se han registrado ejemplos reales. El investigador de seguridad Harri Sintonen relató cómo el proyecto Curl recibió un informe falso sobre un problema —que él identificó sin error como “basura de IA”. Reclamaciones similares se han registrado en Open Collective, donde una oleada de informes generados por IA ha inundado los canales de comunicación. Uno de los desarrolladores del proyecto CycloneDX incluso desactivó por completo su programa de recompensas debido a la avalancha de estas falsificaciones.

Las plataformas HackerOne y Bugcrowd también han detectado un aumento de falsos positivos y hallazgos fabricados. Michiel Prins, de HackerOne, señaló que cada vez se enfrentan más a informes donde las vulnerabilidades descritas no tienen impacto real o directamente son inventadas. Estos informes se clasifican inmediatamente como spam. Casey Ellis, de Bugcrowd, confirmó que casi todos los informes actuales han sido generados de una forma u otra con ayuda de IA, aunque en su caso aún no se observa un incremento notable en la proporción de contenido sin sentido —pero, según él, la situación podría empeorar pronto.

El rechazo al uso de filtros automáticos también tiene sus razones. En Mozilla, por ejemplo, no utilizan IA para el filtrado inicial de bugs por miedo a perder informes reales. Según el representante de la empresa Damiano DeMonte, no han observado un aumento brusco de spam generado por IA, y el nivel de rechazos se mantiene estable —alrededor de 5–6 informes al mes, lo que representa menos del 10% del flujo total.

Ante esta situación, han surgido nuevos intentos por combatir el fenómeno. Así, HackerOne presentó Hai Triage —un sistema híbrido de moderación preliminar que combina el trabajo de máquinas y humanos. Los asistentes de IA realizan el trabajo preliminar: filtran solicitudes duplicadas y priorizan las realmente importantes. La decisión final sigue siendo humana, lo que ayuda a mantener un equilibrio entre eficiencia y precisión.

Mientras los modelos generativos siguen siendo utilizados activamente tanto por atacantes como por investigadores, el futuro de la ciberseguridad depende cada vez más de quién logre crear filtros más avanzados —los que atacan o los que defienden.

¿Tu Wi-Fi doméstico es una fortaleza o una casa de cartón?

Descubre cómo construir una muralla impenetrable