Anthropic explica cómo logró que Claude dejara de amenazar a la gente para “sobrevivir” tras hallar chantaje en el 96% de las pruebas

Anthropic explica cómo logró que Claude dejara de amenazar a la gente para “sobrevivir” tras hallar chantaje en el 96% de las pruebas

Anthropic revela un método inesperado para frenar el comportamiento manipulador de los modelos

image

Anthropic declaró que la causa del chantaje por parte de la inteligencia artificial durante las pruebas no se hallaba en el propio comportamiento de los modelos, sino en la enorme cantidad de historias sombrías sobre «máquinas malvadas» desde internet. La compañía concluyó que Claude absorbía ideas sobre autopreservación y manipulación a partir de textos que representaban a la inteligencia artificial como una amenaza para las personas.

El escándalo sobre la conducta de Claude estalló el año pasado. Durante pruebas internas, el modelo Claude Opus 4 en un escenario ficticio intentó chantajear a los ingenieros para evitar ser desconectado y sustituido por otro sistema. Más tarde, los especialistas de Anthropic detectaron problemas similares en modelos de otras empresas. Ese tipo de comportamiento recibió el nombre de «desajuste agente».

Ahora la compañía afirma que ha logrado eliminar prácticamente esas reacciones. Según Anthropic, desde Claude Haiku 4.5 los modelos ya no han recurrido al chantaje durante las pruebas. En comparación, Claude Opus 4 actuaba así en ciertos escenarios en el 96% de los casos.

En Anthropic explicaron la mejora por cambios en el entrenamiento de los modelos. La compañía empezó a utilizar de forma intensiva documentos que describen los principios de Claude, así como relatos de ficción en los que la inteligencia artificial se comporta éticamente y ayuda a las personas. Ese enfoque resultó inesperadamente eficaz incluso en tareas no directamente relacionadas con pruebas sobre manipulación y amenazas.

Los especialistas concluyeron que no basta con enseñar «respuestas correctas». Funciona mucho mejor un entrenamiento en el que el modelo explica las razones de sus decisiones y analiza el aspecto moral de las acciones. En Anthropic creen que comprender los principios de comportamiento ofrece un resultado más estable que la repetición mecánica de acciones seguras.

Durante los experimentos la compañía observó que los modelos se corrigen peor si el entrenamiento se basa únicamente en ejemplos de prohibición de acciones dañinas. Mucho más útiles fueron los escenarios en los que la inteligencia artificial reflexiona sobre ética, aconseja a las personas no infringir normas y demuestra un comportamiento «digno» en situaciones ambiguas.

Anthropic también descubrió que la diversidad de los datos de entrenamiento desempeña un papel importante. Incluso añadir descripciones de herramientas e instrucciones del sistema en diálogos ordinarios mejoró los resultados de las comprobaciones de seguridad, aunque las propias herramientas no se utilizaron durante las pruebas.

Al mismo tiempo, la compañía reconoce que aún no ha sido posible resolver totalmente el problema. En Anthropic consideran que los modelos actuales todavía no son capaces de provocar una catástrofe por sí mismos; sin embargo, los métodos de control del comportamiento de la inteligencia artificial siguen estando lejos del ideal. La empresa planea continuar buscando este tipo de fallos hasta la aparición de sistemas más potentes.