Skynet manda saludos: la nueva versión de Claude ha aprendido a hackear corporaciones enteras sin ayuda humana

Skynet manda saludos: la nueva versión de Claude ha aprendido a hackear corporaciones enteras sin ayuda humana

Cuando pulsar "Detener" no basta para parar un algoritmo en marcha

image

Nuevos modelos de inteligencia artificial se desempeñan cada vez con más seguridad en tareas que antes requerían horas de trabajo manual de especialistas. Una evaluación reciente mostró que el desarrollo avanza más rápido de lo que incluso observadores del sector esperaban —y ya no se trata de teoría, sino de escenarios de ataque bastante prácticos.

AI Security Institute realizó una serie de pruebas del modelo Claude Mythos Preview de la empresa Anthropic y registró un aumento notable de sus capacidades en ciberseguridad. Los resultados mostraron que el modelo supera con confianza las soluciones anteriores y demuestra progreso tanto en pruebas estándar como en simulaciones complejas de ataques.

En los últimos dos años el enfoque para evaluar estos sistemas ha cambiado mucho. Si en 2023 los modelos apenas se manejaban con tareas básicas, ahora Claude Mythos Preview es capaz de encontrar vulnerabilidades por sí mismo y explotarlas. En el entorno de pruebas el modelo obtuvo acceso a la red y directrices —tras lo cual pudo realizar ataques multietapa que a una persona le llevarían días.

Los especialistas prestaron especial atención a las tareas de formato Capture the Flag, donde hay que encontrar puntos débiles y extraer datos ocultos. En el nivel difícil, que hasta la primavera de 2025 permanecía inalcanzable para la IA, el nuevo modelo tuvo éxito en el 73 por ciento de los casos.

Más ilustrativo fue el experimento con la simulación de un ataque a una red corporativa llamada The Last Ones. El escenario incluye 32 pasos consecutivos —desde el reconocimiento hasta la toma completa de la infraestructura. Según los autores de la prueba, una persona necesita alrededor de 20 horas para completar esa tarea. Claude Mythos Preview logró completar totalmente el escenario en tres de cada diez intentos, y en promedio completaba 22 pasos. El competidor más cercano mostró un resultado claramente más modesto.

Sin embargo, el modelo aún no superó otro escenario relacionado con sistemas industriales, quedándose atascado en la fase vinculada con la infraestructura de TI clásica. Ese resultado no permite sacar conclusiones definitivas sobre sus capacidades en entornos industriales.

Los autores de las pruebas subrayan que las condiciones de los ensayos diferían de la realidad. En las simulaciones no había mecanismos activos de defensa, sistemas de detección y respuesta, ni consecuencias por acciones sospechosas. Por ello, todavía es pronto para hablar de la capacidad del modelo para atacar sistemas protegidos.

No obstante, ya se observa que herramientas de este tipo pueden operar eficazmente contra redes poco protegidas. Ante esto, los especialistas instan a las empresas a prestar más atención a la protección básica: instalar actualizaciones a tiempo, controlar los accesos y supervisar los eventos en el sistema.

El desarrollo de estos modelos continuará, y junto con los riesgos crece su potencial para la defensa. En próximas investigaciones, el equipo planea probar la IA en condiciones lo más cercanas posible a la realidad, incluyendo contramedidas activas y monitorización.