Cooperación secreta impulsa un avance inesperado en la defensa

Las principales empresas en el ámbito de la inteligencia artificial OpenAI y Anthropic informaron que durante el último año colaboraron con centros de investigación gubernamentales de EE. UU. y del Reino Unido para evaluar la resistencia de sus modelos frente a ataques. Se trata del Instituto Nacional de Estándares y Tecnología de EE. UU. (NIST) y del Instituto británico de Seguridad de la IA.
Las empresas dieron a los especialistas gubernamentales acceso a sus modelos de lenguaje, clasificadores, datos de entrenamiento y herramientas internas, para que expertos independientes pudieran identificar vulnerabilidades y evaluar hasta qué punto los sistemas son susceptibles a abusos o intentos de eludir la protección.
Durante ese trabajo los investigadores encontraron vulnerabilidades desconocidas hasta entonces. En el caso de OpenAI se trata de dos fallos que, combinados con una técnica de captura de contexto, permitían a los atacantes tomar el control de agentes de ChatGPT con una probabilidad de hasta el 50 por ciento.
Los expertos demostraron que se puede controlar de forma remota el ordenador al que estaba conectado un agente, así como simular las acciones de un usuario en otros sitios. Inicialmente, los ingenieros de la empresa creían que los errores detectados no representaban una amenaza, pero las pruebas independientes demostraron lo contrario.
De mayo a agosto OpenAI, junto con el instituto británico, comprobó y reforzó las protecciones en GPT-5 y ChatGPT Agent, prestando especial atención a la prevención de abusos biológicos, incluidos escenarios con armas y sustancias tóxicas. Para ello se entregaron a la parte británica prototipos de sistemas de protección, modelos sin restricciones integradas y guías internas de seguridad.
Anthropic también autorizó equipos gubernamentales a acceder a sus sistemas Claude y a sus herramientas de detección de vulnerabilidades. Las comprobaciones revelaron nuevas variantes de ataques mediante la inserción de indicaciones ocultas, así como un método universal para eludir los mecanismos de protección. Esta brecha resultó tan crítica que la empresa decidió rediseñar por completo la arquitectura de las defensas, en lugar de limitarse a repararlas.
En Anthropic señalaron que las pruebas exhaustivas con la participación de especialistas gubernamentales ayudan a identificar amenazas más sofisticadas, ya que aportan conocimientos en ciberseguridad, análisis de amenazas y modelado de ataques que, combinados con la experiencia en aprendizaje automático, producen un efecto particular.
No obstante, en el contexto de la colaboración surgieron dudas sobre si los gobiernos realmente mantienen la prioridad de la seguridad técnica. Tras el cambio de liderazgo político en EE. UU. y en el Reino Unido, una serie de declaraciones y medidas apuntaron a un desplazamiento del énfasis hacia la competencia económica, e incluso la palabra «seguridad» desapareció de los nombres de los institutos especializados. Sin embargo, la práctica de trabajo conjunto con OpenAI y Anthropic muestra que los esfuerzos para garantizar la fiabilidad continúan.
Algunos especialistas, en particular investigadores de la Universidad de Nueva York, señalan que las nuevas versiones de modelos comerciales están volviéndose más resistentes a la manipulación: por ejemplo, GPT-5 responde de forma notablemente más estricta a solicitudes maliciosas en comparación con versiones anteriores. Al mismo tiempo, los modelos para programación y los proyectos abiertos siguen siendo más vulnerables, ya que las barreras integradas en ellos se eluden con mayor facilidad.