Hackear ahora cuesta menos que una taza de café.
Los sistemas de inteligencia artificial han sido criticados en varias ocasiones por generar informes de vulnerabilidades confusos y saturar a los desarrolladores de código abierto con reportes inapropiados. Sin embargo, investigadores de la Universidad de Nankín y de la Universidad de Sídney presentaron el agente A2, capaz de encontrar y verificar vulnerabilidades en aplicaciones Android, imitando el trabajo de un buscador de errores humano. La nueva investigación es la continuación del proyecto anterior A1, que podía explotar fallos en contratos inteligentes.
Los autores afirman que A2 alcanzó una cobertura del 78,3% en el conjunto de prueba Ghera, superando al analizador estático APKHunt, que obtuvo solo el 30%. Al ejecutarlo en 169 APK reales se encontraron 104 vulnerabilidades de día cero, de las cuales 57 fueron confirmadas mediante exploits funcionales generados automáticamente. Entre ellas había un fallo de gravedad media en una aplicación con más de 10 millones de instalaciones. Se trataba de un problema de redirección de intents que permitía a software malicioso tomar el control.
El rasgo distintivo clave de A2 fue el módulo de validación, que faltaba en su predecesor. En el sistema antiguo A1 se usaba un esquema fijo de verificación que evaluaba solo si el ataque sería rentable. A2 puede confirmar la vulnerabilidad paso a paso, dividiendo el proceso en tareas concretas. Como ejemplo, los autores presentan un escenario con una aplicación donde la clave AES se guardaba en texto claro. El agente primero encuentra la clave en el archivo strings.xml, luego la utiliza para generar un token falso de restablecimiento de contraseña y después comprueba que ese token realmente evita la autenticación. Todas las etapas incluyen verificación automática: desde la coincidencia de valores hasta la confirmación de la actividad de la aplicación y la visualización de la dirección necesaria en pantalla.
Para su funcionamiento, A2 combina varios modelos de lenguaje comerciales: OpenAI o3, Gemini 2.5 Pro, Gemini 2.5 Flash y GPT-oss-120b. Están distribuidos por roles: el planificador diseña la estrategia de ataque, el ejecutor realiza las acciones y el validador confirma el resultado. Según los autores, esa arquitectura reproduce la metodología humana, lo que permitió reducir el ruido y aumentar el número de hallazgos confirmados. Los desarrolladores señalan que las herramientas tradicionales de análisis generan miles de señales poco relevantes y muy pocas amenazas reales, mientras que su agente puede demostrar de inmediato la explotabilidad del fallo.
Por separado, los investigadores calcularon el coste de operación del sistema. El descubrimiento de vulnerabilidades cuesta entre $0,0004 y $0,03 por aplicación al usar distintos modelos, y el ciclo completo con verificación cuesta de media $1,77. Si se emplea exclusivamente Gemini 2.5 Pro, el coste aumenta hasta $8,94 por fallo. Para comparar, el año pasado un equipo de la Universidad de Illinois mostró que GPT‑4 crea un exploit a partir de la descripción de una vulnerabilidad por $8,80. Así, los gastos en hallar y confirmar brechas en aplicaciones móviles son comparables al precio de una vulnerabilidad de gravedad media en programas de bug bounty, donde las recompensas se cuentan en cientos y miles de dólares.
Los especialistas subrayan que A2 ya supera a los analizadores estáticos de aplicaciones Android, y que A1 se aproxima a los mejores resultados en contratos inteligentes. Afirman que este enfoque puede acelerar y simplificar el trabajo tanto de investigadores como de atacantes, pues en lugar de desarrollar herramientas complejas basta con invocar la API de modelos ya entrenados. No obstante, persiste el problema: los cazadores de recompensas pueden usar A2 para enriquecerse rápidamente, pero los programas de recompensas no cubren todos los fallos. Esto deja resquicios para atacantes que pueden aprovechar los errores encontrados directamente.
Los autores del trabajo afirman que el campo apenas comienza a desarrollarse y que en el futuro próximo se espera un aumento de la actividad tanto en defensa como en ataques ofensivos. Representantes de la industria señalan que sistemas como A2 trasladan la búsqueda de vulnerabilidades de alarmas infinitas a hallazgos confirmados, reduciendo los falsos positivos y permitiendo centrarse en los riesgos reales. Por ahora, el código fuente está disponible solo para investigadores con asociación oficial, para mantener el equilibrio entre la ciencia abierta y la divulgación responsable.