Anthropic enseñó a las máquinas a reconocer intenciones terroristas con la precisión de un detector de mentiras.
La empresa Anthropic anunció el lanzamiento de un nuevo sistema para detectar solicitudes potencialmente peligrosas en Claude relacionadas con la fabricación de armas químicas, biológicas, radiológicas y nucleares, así como explosivos de gran potencia. El nuevo sistema es un clasificador: un algoritmo de aprendizaje automático capaz de identificar y clasificar ciertos tipos de contenido. El objetivo de la novedad es detectar intentos de usar el modelo para obtener información sobre la fabricación de armas.
Según la compañía, el clasificador fue entrenado con datos sintéticos y alcanzó una alta precisión —94,8% sin falsos positivos. Esto significa que, según sus cálculos, solo alrededor del 5% de las solicitudes malintencionadas podrían eludir el filtro. Se subraya por separado que la herramienta no está pensada para la censura masiva, sino para proteger contra abusos específicos relacionados con armas de destrucción masiva. Esto es especialmente importante si se tiene en cuenta que algunos usuarios aún usan servicios públicos de IA para intentos deliberadamente absurdos de obtener instrucciones para fabricar bombas.
Sin embargo, en la práctica la precisión resultó algo menor. Al analizar conversaciones reales con Claude, el sistema produjo cierto número de falsos positivos. Por ejemplo, durante un recrudecimiento del conflicto en Oriente Medio, el algoritmo identificó erróneamente varias discusiones sobre la situación geopolítica como potencialmente peligrosas, aunque se trataba exclusivamente de contexto noticioso. Para reducir los errores se añadió al sistema una comprobación adicional: una generalización jerárquica en la que no se analizan mensajes aislados, sino toda una serie de solicitudes relacionadas. Esto permitió aumentar la precisión y evitar bloqueos erróneos.
Es importante señalar que el clasificador aún no se aplica a todo el tráfico de Claude. Está activado solo para una parte de las solicitudes, en el marco de una fase experimental. Un portavoz de Anthropic confirmó que al detectar violaciones de la política relativas al desarrollo de armas, la compañía puede bloquear o cortar por completo el acceso del usuario a sus servicios.
Mayor confianza en la fiabilidad de la nueva herramienta aportaron pruebas internas con la participación de un equipo “rojo” independiente. Un grupo de especialistas, que desconocía la implementación del clasificador, intentó provocar escenarios maliciosos, y el sistema detectó con éxito esas solicitudes como potencialmente peligrosas. De ese modo pasó su primera prueba de estrés real.
El proyecto se realiza en colaboración con la Administración Nacional de Seguridad Nuclear del Departamento de Energía de Estados Unidos (NNSA), con la que Anthropic comenzó a colaborar en 2024. La NNSA primero llevó a cabo “ataques” a Claude en un entorno aislado y luego se incorporó al desarrollo del clasificador. El principal desafío fue encontrar el equilibrio entre proteger información sensible y respetar la privacidad de los usuarios.
Anthropic planea compartir los resultados del clasificador en el Frontier Model Forum —una asociación que reúne a desarrolladores de grandes modelos de lenguaje, incluidos Google, OpenAI y Microsoft. Sin embargo, los participantes del foro no se ocupan de cuestiones de financiación ni de regulación de costes de la IA; el foco sigue siendo la seguridad.
Según un representante de la Federación de Científicos Estadounidenses, es importante que las instituciones estatales desarrollen sus propias competencias en IA, ya que el ritmo de avance tecnológico supera la comprensión de las amenazas asociadas. Se destaca que la protección frente a la difusión de conocimientos nucleares exige no solo soluciones técnicas, sino también un enfoque cuidadoso en los debates científicos, educativos y políticos, que no deben sufrir por filtros excesivamente agresivos.
Por ahora, Anthropic sigue siendo una de las pocas empresas que ha implementado públicamente una herramienta específica para el análisis de cuestiones relacionadas con armas de destrucción masiva. Este enfoque podría convertirse en un modelo para otros actores del mercado, donde la búsqueda de un compromiso entre la seguridad y el derecho al conocimiento sigue siendo uno de los principales retos.