¿Fin de la era de la auditoría manual? Mozilla y Anthropic demuestran que la IA detecta errores cientos de veces más rápido que los humanos

¿Fin de la era de la auditoría manual? Mozilla y Anthropic demuestran que la IA detecta errores cientos de veces más rápido que los humanos

Parece que a los desarrolladores les toca inventar nuevas excusas para justificar los plazos prolongados

image

La empresa Anthropic anunció los resultados de un trabajo conjunto con Mozilla, en el marco del cual el modelo de inteligencia artificial Claude Opus 4.6 ayudó a encontrar en el navegador Firefox 22 nuevas vulnerabilidades. La historia es notable no solo por la cantidad de hallazgos, sino porque parte de los defectos se pudieron detectar en cuestión de minutos, y la verificación completa duró apenas dos semanas.

De las 22 vulnerabilidades identificadas, 14 recibieron un nivel de gravedad alto, siete uno medio y una más bajo. La mayor parte de las vulnerabilidades ya se corrigió en Firefox 148, publicado a finales de febrero, y Mozilla prometió incluir las correcciones restantes en las siguientes versiones del navegador. Anthropic precisó que durante la evaluación el sistema analizó casi 6.000 archivos en C++ y envió a Mozilla 112 informes únicos.

Según la compañía, en solo 20 minutos de análisis Claude Opus 4.6 detectó un error Use-After-Free en un componente JavaScript de Firefox. Tras el hallazgo, un especialista comprobó el problema por separado en un entorno virtual para descartar un falso positivo. En Anthropic consideran que el modelo se desempeña claramente mejor en la búsqueda de puntos débiles que en la creación de cadenas de ataque operativas.

Para verificar la segunda hipótesis, los desarrolladores dieron a Claude acceso a toda la lista de vulnerabilidades enviada a Mozilla y le encargaron intentar crear exploits operativos. Tras varios cientos de ejecuciones y gastos de aproximadamente 4.000 dólares en la API, el modelo solo logró resultados en dos casos. Uno de los ejemplos se refería a CVE-2026-2796: un error de compilación JIT en el componente JavaScript WebAssembly con una puntuación de 9,8 en la escala CVSS.

La empresa reconoció que incluso los raros intentos exitosos de preparación automática de exploits resultan inquietantes. Además, se trató de un entorno de pruebas en el que se desactivaron intencionadamente algunos mecanismos de protección, incluida la sandbox. Un papel aparte desempeñó el mecanismo de verificación de tareas, que evaluaba en tiempo real si el código generado funcionaba y ayudaba al modelo a corregir los pasos siguientes.

Mozilla añadió en su comunicado que el enfoque basado en IA ayudó a identificar otros 90 errores. La mayor parte ya se ha corregido. Entre los hallazgos hubo tanto fallos similares a los que produce el fuzzing tradicional como errores lógicos que este tipo de herramientas suele pasar por alto. En Mozilla consideran que la magnitud de los resultados demuestra el creciente valor del análisis mediante IA como complemento a los métodos habituales de auditoría de seguridad.