La auditoría con IA resulta insuficiente para asegurar escenarios complejos de DeFi.

Por primera vez se realizó una prueba independiente de herramientas web basadas en inteligencia artificial aplicadas a la auditoría de contratos inteligentes en el ecosistema Web3. Los investigadores Lyuboslav Lyubenov y Radoslav Radev probaron tres soluciones populares — AlmanaxAI, AuditAgent de Nethermind y SavantChat — con tareas reales extraídas de concursos públicos de la plataforma Sherlock. Los resultados fueron inesperados: ninguno de los sistemas demostró al mismo tiempo alta precisión y exhaustividad en la detección de vulnerabilidades.
Como base de prueba se eligieron tres concursos validados por jurado: Yearn yBOLD, Crestal Network y CAP Protocol. Todos ellos son proyectos descentralizados reales, donde participantes encontraron y demostraron errores en contratos inteligentes, y los jueces confirmaron su existencia. Esto permitió usar informes verificados y aprobados por expertos como referencia para evaluar la calidad del trabajo de las herramientas de IA.
Cada servicio fue sometido a las pruebas en las mismas condiciones a través de la interfaz web sin ajustes manuales. Un auditor independiente comparó los errores detectados por cada herramienta con las vulnerabilidades aprobadas por los jueces. Para mayor exactitud se empleó un sistema binario estricto: si la salida de la IA no coincidía siquiera parcialmente con la causa real del fallo, el hallazgo se consideraba falso. Como resultado, los investigadores calcularon métricas de precisión, exhaustividad y el nivel medio de calidad de los informes.
En total los tres proyectos de prueba incluían 20 vulnerabilidades confirmadas. La cobertura más baja la mostró AlmanaxAI: de las 17 incidencias que encontró sólo una coincidió con una vulnerabilidad real, y sólo en uno de los concursos (Crestal Network). AuditAgent de Nethermind presentó la mejor cobertura global — 8 coincidencias correctas de casi 200 informes — pero el precio fue alto: más de 180 falsos positivos. SavantChat destacó en el mismo concurso Crestal, donde pudo identificar las 7 fallas reales e incluso presentar ejemplos funcionales de explotación, pero debido a repeticiones y descripciones duplicadas la precisión no superó el 42%.
Los autores señalan que las herramientas funcionaban mucho mejor con errores superficiales y estructurales — violaciones de autorización, tratamiento incorrecto de parámetros y fallos lógicos simples. En cambio, los escenarios económicos y los casos entre contratos, donde hay que tener en cuenta relaciones complejas entre funciones y tokens, siguen siendo una “zona ciega” para las tres soluciones. Particularmente problemáticos resultaron los casos con cálculos de rentabilidad, umbrales dinámicos y dependencias aritméticas, que requieren razonamientos analíticos en lugar de emparejamientos de patrones.
El experimento también puso de manifiesto limitaciones prácticas de estas plataformas. Muchos servicios, incluidos Bughunter.live, Finite Monkey, LISA y Hound, resultaron inútiles: o no se iniciaban, o limitaban la carga de archivos, o se quedaban colgados durante decenas de horas consumiendo recursos sin producir resultados. Algunos, como Solidity Scan o Quant Pulsar, repetían en la práctica el comportamiento de analizadores estáticos, sin aportar valor desde la perspectiva de la IA.
En conjunto, la prueba reveló una tendencia clara: los auditores web automatizados pueden encontrar defectos reales, pero aún no pueden competir con especialistas humanos, especialmente en tareas que requieren análisis económico o comprensión compleja de la lógica del protocolo. AuditAgent, en su estado actual, sirve para una comprobación primaria y aproximada; SavantChat para generar informes con pruebas; y AlmanaxAI demuestra más bien un nivel demostrativo de madurez.
La investigación subraya que la verificación de contratos inteligentes mediante la IA todavía está lejos de un estándar industrial. Para que estas herramientas funcionen de forma fiable se necesita una combinación de modelos de máquina con revisión experta, así como conjuntos de entrenamiento más ricos que abarquen escenarios económicos reales de la práctica DeFi.