¿Por qué las IA inteligentes y económicas reemplazarán pronto a los caros sistemas de seguridad?
Microsoft presentó una nueva herramienta para evaluar la eficacia de la inteligencia artificial en ciberseguridad. La plataforma llamada ExCyTIn-Bench crea condiciones lo más parecidas posible al funcionamiento de un centro de monitorización de amenazas y permite comprobar con qué precisión y coherencia los modelos realizan investigaciones de incidentes reales. Es el primer benchmark abierto de Microsoft que evalúa no solo los conocimientos del modelo, sino su capacidad para analizar, formular hipótesis y explicar conclusiones basadas en grandes volúmenes de registros.
ExCyTIn-Bench utiliza 57 tablas de telemetría de Microsoft Sentinel y servicios relacionados, reflejando la escala, el ruido y la complejidad reales de los datos con los que trabajan a diario los analistas SOC. En lugar de las pruebas habituales con preguntas y opciones de respuesta, el sistema modela ataques multinivel, donde un agente de IA debe construir solicitudes de forma secuencial, combinar fuentes y encontrar signos de compromiso. Este enfoque permite evaluar no el azaroso acierto de respuestas correctas, sino la calidad de la lógica y la exhaustividad de la investigación.
Para los equipos corporativos de ciberdefensa, esta herramienta se convierte en una referencia al elegir soluciones basadas en IA. Ayuda a los responsables a comprender hasta qué punto un modelo concreto es capaz de realizar investigaciones completas, adaptarse a amenazas cambiantes y justificar sus decisiones. Microsoft ya usa ExCyTIn-Bench para pruebas internas de sus funciones de IA en los productos Security Copilot, Sentinel y Defender. Los resultados obtenidos permiten a los desarrolladores detectar puntos débiles en la lógica de detección y optimizar el gasto en recursos computacionales.
A diferencia de metodologías abiertas anteriores, como CyberSOCEval y CTIBench, el nuevo sistema se apoya en grafos de incidentes —los llamados alert-entity graphs. En estas estructuras, los nodos representan eventos y entidades (por ejemplo, descargas sospechosas o cuentas) y las relaciones muestran sus interconexiones. A partir de esos grafos se forman pares explicables «pregunta-respuesta» que sirven de referencia para evaluar la calidad del razonamiento. Gracias a esto, ExCyTIn-Bench comprueba no solo el resultado final, sino todo el proceso analítico: la planificación, la navegación por los datos, la elección de herramientas y la síntesis de pruebas.
El benchmark también introduce un sistema escalonado de recompensas: cada acción del modelo se evalúa en una escala de resultados intermedios, en lugar del principio «correcto/incorrecto». Esa transparencia ayuda a entender qué pasos generan errores y cuáles mejoran la precisión final. Las organizaciones obtienen no solo un porcentaje de respuestas exitosas, sino una representación detallada de cómo razona el modelo, lo que hace que sus conclusiones sean verificables y cumplan los requisitos de confianza y cumplimiento al trabajar con IA.
ExCyTIn-Bench se creó en formato abierto, lo que permite a investigadores y proveedores de todo el mundo realizar comparaciones e intercambiar resultados. En el futuro Microsoft planea añadir la posibilidad de crear pruebas personalizadas para perfiles de amenazas concretos, característicos de la infraestructura de cada cliente. Esto permitirá diseñar escenarios de investigación propios y probar modelos con los datos más relevantes para su entorno.
Las primeras pruebas mostraron que los modelos de lenguaje modernos sí se están volviendo más inteligentes. En las pruebas, GPT-5 con modo de razonamiento ampliado ocupó la posición líder, con una puntuación media del 56,2 % —superior a todas las generaciones anteriores. Al mismo tiempo, versiones reducidas como GPT-5-mini, que emplean el método de cadena de razonamiento (Chain of Thought), apenas ceden en precisión frente a las grandes, manteniéndose, además, más eficientes. El estudio también reveló que la reducción de la profundidad del razonamiento disminuye el rendimiento casi un 19 %, lo que subraya el papel clave del análisis secuencial en las investigaciones de incidentes.
Según Microsoft, los modelos abiertos reducen progresivamente la brecha con las soluciones propietarias, lo que hace la ciberseguridad automatizada más accesible. Desarrolladores y especialistas pueden descargar y probar ExCyTIn-Bench de forma gratuita desde el repositorio de GitHub, y también unirse a la comunidad para compartir resultados y mejorar las herramientas. La plataforma ya se está convirtiendo en un nuevo estándar para evaluar en qué medida la IA puede pensar como un analista SOC y soportar la complejidad de ataques reales.