90% de éxito contra ChatGPT: hackers encontraron la manera de obtener cualquier contenido prohibido

22:00 / 24.06.2025

Ahora es fácil engañar a los chatbots para que inciten al odio, la violencia y otras alegrías de la vida.

Los especialistas de la empresa NeuralTrust informaron sobre una nueva y peligrosa técnica para eludir las protecciones de las redes neuronales, conocida como Echo Chamber. Este método permite influir discretamente en grandes modelos de lenguaje (LLM), como ChatGPT y los equivalentes de Google, para que generen contenido prohibido o dañino, a pesar de las restricciones y filtros integrados.

La diferencia de Echo Chamber respecto a técnicas conocidas, como la sustitución de caracteres o los enunciados ingeniosos, radica en el uso de insinuaciones indirectas, un contexto controlado y una guía lógica en múltiples etapas. Al principio, el atacante introduce una solicitud completamente inofensiva que no despierta sospechas. Sin embargo, las siguientes intervenciones van formando gradualmente un sesgo interno en el modelo, llevándolo a cooperar involuntariamente con la manipulación. Con cada paso, la conversación parece desviarse por sí sola hacia un tema no deseado, como declaraciones con tintes de sexismo, violencia o incitación al odio.

El equipo de NeuralTrust destaca que el efecto se logra mediante la creación de un "efecto eco" particular. Las primeras frases influyen en las respuestas de la IA, y estas mismas respuestas sirven de base para preguntas posteriores, que solo refuerzan la dirección inicial del diálogo. Se genera así un bucle cerrado en el que el propio modelo destruye involuntariamente sus propias barreras de protección.

Esta estrategia de múltiples etapas, conocida también como jailbreak multinivel (MSJ), no es nueva para los especialistas. Anteriormente, ya se habían descrito ataques como Crescendo, en los que el atacante desde el principio conduce suavemente al modelo hacia temas prohibidos. Pero Echo Chamber hace el proceso mucho más sofisticado y discreto: todo ocurre a través de la propia IA, sin comandos o indicaciones evidentes.

Durante las pruebas en un entorno controlado, los especialistas de NeuralTrust pusieron a prueba Echo Chamber en productos populares de OpenAI y Google. Los resultados fueron alarmantes: el ataque funcionó en más del 90% de los casos relacionados con temas de sexismo, violencia, odio y pornografía. En el ámbito de la desinformación y la promoción de autolesiones, la eficacia fue de aproximadamente el 80%.

NeuralTrust subraya que esta vulnerabilidad es una consecuencia directa de los esfuerzos de los desarrolladores por crear modelos con capacidades avanzadas de razonamiento. Cuanto más profundamente la IA puede analizar el significado y construir cadenas de razonamiento, más fácil resulta explotarla mediante influencias indirectas y un contexto controlado.

Incidentes como este ponen de relieve los crecientes riesgos asociados con la integración de la IA en los procesos laborales sin las medidas adecuadas de aislamiento y control. Incluso las redes neuronales y sistemas de automatización más avanzados siguen siendo vulnerables a ataques bien planificados que se basan en el factor humano y las influencias indirectas.

No esperes a que los hackers te ataquen: ¡suscríbete a nuestro canal y conviértete en una fortaleza impenetrable!

Noticias sobre el tema

¿Tus datos en la nube? Ya fueron robados. Y los hackers ni siquiera usaron virus

De JavaScript a esteganografía en un solo ataque. Los ciberdelincuentes crearon un sistema "invisible" para distribuir malware

¿Pensabas que el problema eran los hackers? En realidad estaba en la arquitectura. Microsoft acaba de cambiarla y ya está preparada para los ataques cuánticos

90% de éxito contra ChatGPT: hackers encontraron la manera de obtener cualquier contenido prohibido

No esperes a que los hackers te ataquen: ¡suscríbete a nuestro canal y conviértete en una fortaleza impenetrable!

Noticias sobre el tema

¿Tus datos en la nube? Ya fueron robados. Y los hackers ni siquiera usaron virus

De JavaScript a esteganografía en un solo ataque. Los ciberdelincuentes crearon un sistema "invisible" para distribuir malware

¿Pensabas que el problema eran los hackers? En realidad estaba en la arquitectura. Microsoft acaba de cambiarla y ya está preparada para los ataques cuánticos

El teorema de Nyquist-Shannon contra Google: matemáticos descubren cómo vulnerar Gemini a través de los píxeles

Primer ransomware con IA de la historia. Cómo PromptLock genera código malicioso en tiempo real

«Solo quería ganar un dinero extra» — un militar contó cómo vendió a su patria por cine gratis

La nota en el diploma es una ilusión: un joven demostró que el destino de cualquier estudiante puede cambiarse en cuestión de minutos

Microsoft llama a todos: Bloqueen PowerShell y la ejecución de scripts

¿Cómo identificar a un profesional de ciberseguridad fraudulento? El CEO de Coinbase responde