Anthropic se disculpa por manipular en secreto las respuestas de la nueva Claude Fable 5

12:57 / 12.06.2026

El modelo reaccionó de forma inesperada y tardó mucho en explicar por qué.

Cuanto más potentes se vuelven los modelos de IA, más difícil es la elección para los desarrolladores: seguridad o la confianza de los usuarios. Anthropic se disculpó por las restricciones ocultas en el nuevo modelo Claude Fable 5, que cambiaban las respuestas de forma imperceptible cuando se sospechaba un intento de entrenar un sistema competidor.

Claude Fable 5 fue el primer modelo ampliamente disponible de la clase Mythos, que la propia Anthropic había calificado antes como demasiado arriesgada para un lanzamiento abierto. La compañía lanzó el modelo con mecanismos de protección para consultas procedentes de áreas sensibles, incluidas la biología, la química, la ciberseguridad y la destilación (entrenamiento de un modelo más pequeño con las respuestas de uno más grande).

La principal queja de los usuarios surgió por la forma en que Anthropic trataba las consultas que parecían intentos de destilación. En la ficha del sistema, la compañía señaló que el modelo podía modificar y degradar las respuestas directamente, sin avisar al usuario. Como consecuencia, las restricciones afectaban no solo a posibles competidores, sino también a especialistas que evaluaban el comportamiento del nuevo modelo.

Tras las críticas, Anthropic cambió su enfoque. Ahora esas consultas se redirigirán a Claude Opus 4.8, el anterior modelo emblemático de la compañía, y el usuario verá una notificación cada vez que se aplique una restricción. Un principio similar ya se aplica a parte de las consultas de otras áreas de riesgo, donde Fable o bien deriva la tarea a Opus 4.8 o bien se niega a responder por las normas de seguridad.

La compañía reconoció que eligió un equilibrio incorrecto entre un lanzamiento rápido y la transparencia. Las medidas ocultas permitían limitar con más precisión ciertos escenarios y reducían el número de falsas alarmas, pero privaban a los usuarios de entender por qué la respuesta del modelo cambiaba. Anthropic declaró que dichos mecanismos deben ser visibles y explicables.

El motivo de la revisión fue la fuerte reacción de la comunidad, relacionada con el riesgo para la evaluación independiente de Fable. En la ficha del sistema, Anthropic también indicó que el uso de Claude para desarrollar modelos competidores violaba los términos del servicio. La compañía había acusado anteriormente a competidores chinos, incluido DeepSeek, de destilar masivamente sus modelos.

Anthropic se disculpa por manipular en secreto las respuestas de la nueva Claude Fable 5

Noticias sobre el tema

Un satélite frente a 271 embajadas de Estados Unidos: cómo Kim Jong Un busca ponerse al día en inteligencia

El servidor se lo creyó: la vulnerabilidad CertiGhost permite a un invitado apoderarse del dominio

Una imagen común "hackeó" a Microsoft: hallan en el buscador Bing una vulnerabilidad de 9,8/10

Usó /proc/self/fd en vez de un exploit: un hacker engañó a Java con descriptores de archivos

Hogares inteligentes al servicio de los hackers: ya controlan 20 millones de dispositivos domésticos

No forzaron la puerta: se hicieron la llave — nueva táctica de ataque del grupo de hackers OceanLotus

Enchufas el cable y ya eres hacker: las estaciones de recarga XCharge protegidas por una contraseña que todo el mundo conoce

¿No hubo llamada? ¿O sí? Signal empieza a borrar el historial de llamadas junto con los chats

Tres días de cuarentena por paquete: GitHub adopta mano dura contra los hackers