90% de éxito contra ChatGPT: hackers encontraron la manera de obtener cualquier contenido prohibido

90% de éxito contra ChatGPT: hackers encontraron la manera de obtener cualquier contenido prohibido

Ahora es fácil engañar a los chatbots para que inciten al odio, la violencia y otras alegrías de la vida.

image

Los especialistas de la empresa NeuralTrust informaron sobre una nueva y peligrosa técnica para eludir las protecciones de las redes neuronales, conocida como Echo Chamber. Este método permite influir discretamente en grandes modelos de lenguaje (LLM), como ChatGPT y los equivalentes de Google, para que generen contenido prohibido o dañino, a pesar de las restricciones y filtros integrados.

La diferencia de Echo Chamber respecto a técnicas conocidas, como la sustitución de caracteres o los enunciados ingeniosos, radica en el uso de insinuaciones indirectas, un contexto controlado y una guía lógica en múltiples etapas. Al principio, el atacante introduce una solicitud completamente inofensiva que no despierta sospechas. Sin embargo, las siguientes intervenciones van formando gradualmente un sesgo interno en el modelo, llevándolo a cooperar involuntariamente con la manipulación. Con cada paso, la conversación parece desviarse por sí sola hacia un tema no deseado, como declaraciones con tintes de sexismo, violencia o incitación al odio.

El equipo de NeuralTrust destaca que el efecto se logra mediante la creación de un "efecto eco" particular. Las primeras frases influyen en las respuestas de la IA, y estas mismas respuestas sirven de base para preguntas posteriores, que solo refuerzan la dirección inicial del diálogo. Se genera así un bucle cerrado en el que el propio modelo destruye involuntariamente sus propias barreras de protección.

Esta estrategia de múltiples etapas, conocida también como jailbreak multinivel (MSJ), no es nueva para los especialistas. Anteriormente, ya se habían descrito ataques como Crescendo, en los que el atacante desde el principio conduce suavemente al modelo hacia temas prohibidos. Pero Echo Chamber hace el proceso mucho más sofisticado y discreto: todo ocurre a través de la propia IA, sin comandos o indicaciones evidentes.

Durante las pruebas en un entorno controlado, los especialistas de NeuralTrust pusieron a prueba Echo Chamber en productos populares de OpenAI y Google. Los resultados fueron alarmantes: el ataque funcionó en más del 90% de los casos relacionados con temas de sexismo, violencia, odio y pornografía. En el ámbito de la desinformación y la promoción de autolesiones, la eficacia fue de aproximadamente el 80%.

NeuralTrust subraya que esta vulnerabilidad es una consecuencia directa de los esfuerzos de los desarrolladores por crear modelos con capacidades avanzadas de razonamiento. Cuanto más profundamente la IA puede analizar el significado y construir cadenas de razonamiento, más fácil resulta explotarla mediante influencias indirectas y un contexto controlado.

Incidentes como este ponen de relieve los crecientes riesgos asociados con la integración de la IA en los procesos laborales sin las medidas adecuadas de aislamiento y control. Incluso las redes neuronales y sistemas de automatización más avanzados siguen siendo vulnerables a ataques bien planificados que se basan en el factor humano y las influencias indirectas.

¿Estás cansado de que Internet sepa todo sobre ti?

¡Únete a nosotros y hazte invisible!