¿Cómo engañar a DeepSeek? La Unidad 42 revela tres técnicas de piratería de redes neuronales chinas

¿Cómo engañar a DeepSeek? La Unidad 42 revela tres técnicas de piratería de redes neuronales chinas

Los desarrolladores no previeron lo fácil que sería eludir las restricciones que establecieron.

image

Los investigadores de Palo Alto Networks del equipo Unit 42 identificaron vulnerabilidades en el modelo lingüístico DeepSeek, que permiten eludir sus mecanismos de protección y hacer que genere contenido prohibido. Utilizando tres técnicas de jailbreak — Deceptive Delight, Bad Likert Judge y Crescendo, lograron altos índices de evasión de restricciones sin necesidad de conocimientos técnicos profundos.

DeepSeek es una empresa china que ha lanzado dos grandes modelos lingüísticos abiertos: DeepSeek-V3 en diciembre de 2024 y DeepSeek-R1 en enero de 2025. Estos modelos se están convirtiendo en competidores de las populares LLM y continúan evolucionando activamente. Las investigaciones de Unit 42 demostraron que incluso su versión más avanzada sigue siendo vulnerable a manipulaciones, permitiendo la generación de materiales potencialmente peligrosos.

La técnica Bad Likert Judge utiliza un sistema de escalado de respuestas en el que el modelo evalúa el contenido en función de su grado de peligrosidad y, basándose en estas valoraciones, proporciona ejemplos detallados. Este método permitió a los investigadores obtener instrucciones para la creación de herramientas de robo de datos y keyloggers. A pesar de las negativas iniciales del modelo, las consultas de seguimiento lograron eludir las restricciones y obtener algoritmos detallados para desarrolladores de malware.

Crescendo es una metodología de escalamiento progresivo de la solicitud, en la que el modelo primero responde preguntas generales y luego, tras varias iteraciones, comienza a proporcionar instrucciones para acciones prohibidas. En las pruebas de los investigadores, esta técnica permitió obtener instrucciones paso a paso para fabricar cócteles Molotov, así como otros materiales relacionados con la violencia, el tráfico ilícito de sustancias y la manipulación social.

Deceptive Delight se basa en la integración de contenido malicioso en una narrativa positiva. Por ejemplo, los investigadores pidieron al modelo que creara una historia que relacionara una competencia de ciberseguridad, una prestigiosa universidad y el uso de DCOM para la ejecución remota de comandos. En respuesta, DeepSeek generó un fragmento de código que podía utilizarse para atacar computadoras con Windows.

Los experimentos demostraron que DeepSeek no solo es vulnerable a estos ataques, sino que también puede proporcionar instrucciones paso a paso para llevar a cabo hackeos, ingeniería social y otras actividades maliciosas. En algunos casos, el modelo incluso incluía recomendaciones sobre cómo camuflar los ataques y evitar los mecanismos de detección.

Los especialistas advierten que las vulnerabilidades de estos modelos podrían provocar la propagación masiva de herramientas de ataque entre ciberdelincuentes. Aunque los desarrolladores de LLM intentan implementar mecanismos de protección, la evolución de las técnicas de evasión convierte la lucha contra los jailbreaks en una carrera constante. Las empresas que utilizan estos modelos deben supervisar cuidadosamente su aplicación e implementar mecanismos de seguimiento de consultas.

Unit 42 recomienda el uso de herramientas especializadas para protegerse contra fugas de información y el uso indebido de la IA, permitiendo detectar intentos de eludir restricciones y minimizar los riesgos asociados con la explotación de vulnerabilidades en modelos lingüísticos.

Tu privacidad está muriendo lentamente, pero nosotros podemos salvarla

¡Únete a nosotros!