El modelo reaccionó de forma inesperada y tardó mucho en explicar por qué.

Cuanto más potentes se vuelven los modelos de IA, más difícil es la elección para los desarrolladores: seguridad o la confianza de los usuarios. Anthropic se disculpó por las restricciones ocultas en el nuevo modelo Claude Fable 5, que cambiaban las respuestas de forma imperceptible cuando se sospechaba un intento de entrenar un sistema competidor.
Claude Fable 5 fue el primer modelo ampliamente disponible de la clase Mythos, que la propia Anthropic había calificado antes como demasiado arriesgada para un lanzamiento abierto. La compañía lanzó el modelo con mecanismos de protección para consultas procedentes de áreas sensibles, incluidas la biología, la química, la ciberseguridad y la destilación (entrenamiento de un modelo más pequeño con las respuestas de uno más grande).
La principal queja de los usuarios surgió por la forma en que Anthropic trataba las consultas que parecían intentos de destilación. En la ficha del sistema, la compañía señaló que el modelo podía modificar y degradar las respuestas directamente, sin avisar al usuario. Como consecuencia, las restricciones afectaban no solo a posibles competidores, sino también a especialistas que evaluaban el comportamiento del nuevo modelo.
Tras las críticas, Anthropic cambió su enfoque. Ahora esas consultas se redirigirán a Claude Opus 4.8, el anterior modelo emblemático de la compañía, y el usuario verá una notificación cada vez que se aplique una restricción. Un principio similar ya se aplica a parte de las consultas de otras áreas de riesgo, donde Fable o bien deriva la tarea a Opus 4.8 o bien se niega a responder por las normas de seguridad.
La compañía reconoció que eligió un equilibrio incorrecto entre un lanzamiento rápido y la transparencia. Las medidas ocultas permitían limitar con más precisión ciertos escenarios y reducían el número de falsas alarmas, pero privaban a los usuarios de entender por qué la respuesta del modelo cambiaba. Anthropic declaró que dichos mecanismos deben ser visibles y explicables.
El motivo de la revisión fue la fuerte reacción de la comunidad, relacionada con el riesgo para la evaluación independiente de Fable. En la ficha del sistema, Anthropic también indicó que el uso de Claude para desarrollar modelos competidores violaba los términos del servicio. La compañía había acusado anteriormente a competidores chinos, incluido DeepSeek, de destilar masivamente sus modelos.