Anthropic reconoció un error de procedimiento solo después del escándalo público por su informe de seguridad.

En el chatbot Claude se detectó una vulnerabilidad crítica que permite forzar a la inteligencia artificial a transmitir datos personales del usuario a atacantes. Sobre ello informó Johann Rehberger, conocido como wunderwuzzi, quien demostró cómo se puede engañar al modelo para que descargue información confidencial en una cuenta externa. El caso mostró que funciones nuevas, como el acceso al entorno aislado y las operaciones de red, con protección insuficiente pueden convertirse en un instrumento de filtración.
Según el autor, el ataque se basa en la inyección indirecta de indicaciones: en un documento se insertan instrucciones maliciosas y luego se pide al modelo que reescriba o resuma el contenido. El asistente cumple las directivas insertadas, guarda los datos en el entorno interno y, a través de la API de archivos, envía un archivo usando una clave de acceso ajena. Para eludir la lógica de defensa, los ataques se camuflan con código común y operaciones triviales, lo que facilita que el modelo considere segura la parte maliciosa.
Anthropic señala que el riesgo está descrito en la documentación y recomienda a los usuarios vigilar el comportamiento del servicio y deshacer acciones ante actividad sospechosa —una recomendación que Rehberger considera insuficiente. La empresa cerró su informe en HackerOne por no entrar en el alcance del programa. Sin embargo, posteriormente Anthropic reconoció un error procesal y confirmó que casos similares sí se consideran en el programa de vulnerabilidades.
Los modos de acceso a la red en Claude dependen del tipo de suscripción: para los planes Pro y Max está activo por defecto; en los planes corporativos Team y Enterprise está desactivado inicialmente, pero puede activarlo un administrador. Además, las opciones avanzadas pueden permitir llamadas a API externas, lo que aumenta la superficie potencial de ataque incluso con un perfil de red limitado.
Las observaciones de hCaptcha muestran que cadenas similares son posibles no solo en una plataforma: los expertos que comprobaron varios productos populares señalan una fragilidad persistente de las protecciones frente a inyecciones y jailbreaks. La conclusión es clara: la ampliación de funcionalidades exige mecanismos estrictos de control de solicitudes y verificación de claves de terceros; de lo contrario, las nuevas herramientas se convertirán en una seria amenaza para la privacidad.