«Ups, me delaté». Sora 2 aprendió a guardar secretos por escrito, pero filtró su prompt del sistema por audio

«Ups, me delaté». Sora 2 aprendió a guardar secretos por escrito, pero filtró su prompt del sistema por audio

La configuración interna, considerada hasta ahora confidencial, ha dejado de serlo.

image

La versión actualizada de Sora 2 volvió a estar en el centro del debate después de que quedó claro que el modelo no siempre mantiene sus ajustes internos bajo una protección fiable. Inicialmente se presentó como una herramienta para crear vídeos realistas, pero casos recientes han demostrado que el sistema puede revelar involuntariamente las instrucciones internas que definen su comportamiento.

El equipo de Mindgard estudió el comportamiento de Sora 2 y demostró que el conjunto oculto de instrucciones que determina la reacción del modelo se expone en las respuestas multimodales. Los intentos de obtener esta información directamente por texto se encontraban con negativas; sin embargo, por vías indirectas Sora empezaba a ofrecer fragmentos aislados de su descripción interna.

Los elementos textuales en los vídeos y las imágenes con símbolos ofrecían fragmentos distorsionados, pero las respuestas de audio fueron la clave para reconstruir la estructura completa. Cuando el modelo vocalizaba pequeños fragmentos de texto y se generaba una transcripción del habla, las partes sueltas se unían en una instrucción coherente.

Este resultado muestra que las restricciones aplicadas a las respuestas de texto habituales no siempre se extienden a otros canales. Si el modelo puede generar voz, imágenes o vídeo, cada uno de estos formatos puede revelar de forma impredecible una configuración que formalmente se considera cerrada.

Mindgard subraya que las reglas internas no contenían nada peligroso; sin embargo, el acceso a ellas permite entender cómo se pueden eludir los mecanismos de protección. Para las empresas que desarrollan sistemas multimodales, esto supone una carga adicional: hay que tener en cuenta las posibles fugas en todos los tipos de respuestas, no solo en el texto.

Los autores del estudio señalan que los desarrolladores a menudo siguen confiando en las instrucciones internas, a pesar de las recomendaciones del sector de no considerarlas confidenciales. En teoría las normas deberían integrarse en el código y en las herramientas de protección, pero en la práctica muchas empresas todavía utilizan precisamente las configuraciones del sistema como base del comportamiento de los modelos.

En esas condiciones, los intentos de ocultar esta información mediante la «opacidad» dejan de funcionar si el generador multimodal puede reproducirla, eludiendo las restricciones directas. Mindgard recomienda tratar las instrucciones del sistema como una configuración sensible, verificar todos los formatos de salida, limitar la longitud de las respuestas y rastrear solicitudes anómalas dirigidas a obtener datos internos.

También se recomienda a los compradores de soluciones multimodales que aclaren cómo exactamente los proveedores protegen estos ajustes y qué medidas se aplican para prevenir fugas indirectas. El caso de Sora 2 confirma que la aparición de nuevas formas de generación conlleva también nuevos métodos para sortear las barreras de protección.

Tu privacidad está muriendo lentamente, pero nosotros podemos salvarla

¡Únete a nosotros!