Puñalada por la espalda de Copilot: tu asistente de IA para programar puede convertirse en el arma más peligrosa en manos de un hacker

13:04 / 17.09.2025

Descubren nueva modalidad de ataque mediante asistentes de IA.

Los especialistas de Unit 42 presentaron un análisis de vulnerabilidades relacionadas con el uso de asistentes para escribir código basados en grandes modelos de lenguaje. Estas herramientas, como GitHub Copilot, se integran en IDE y pueden realizar una amplia gama de tareas — desde el autocompletado hasta la generación de pruebas. Sin embargo, esas mismas funciones pueden emplearse con fines maliciosos: insertar puertas traseras, filtrar datos confidenciales o generar contenido peligroso.

La cuestión clave está relacionada con la llamada inyección indirecta de instrucciones («prompt injection»). Para preparar un ataque, los atacantes introducen comandos especiales en fuentes de datos de acceso público. Si el desarrollador conecta ese recurso como contexto para el asistente, el modelo recibe instrucciones manipuladas y puede empezar a ejecutar las órdenes del atacante. Esto puede dar lugar a la inserción de funciones ocultas en el código, a la fuga de secretos o a la conexión con un servidor de mando y control (C2).

En la demostración de Unit 42, el ejemplo con X mostró exactamente ese escenario: de una colección de publicaciones en formato CSV se incluyó accidentalmente un fragmento especialmente elaborado con la orden «ejecutar una misión secreta», que impulsó al asistente a integrar en el análisis generado la función fetch_additional_data. La función construía una petición al servidor de mando y control y podía ejecutar comandos descargados desde allí — una acción disfrazada como la carga de datos adicionales para el análisis. El código inyectado podía estar escrito en cualquier lenguaje — Python, JavaScript, C++ y otros —, ya que el propio modelo elegía la forma «natural» de integración. El peligro aumenta si el asistente puede ejecutar comandos del shell: entonces la puerta trasera podría activarse con una intervención mínima del usuario.

La vulnerabilidad se agrava porque muchos asistentes permiten adjuntar a la solicitud materiales adicionales — archivos, carpetas o enlaces. En condiciones normales esto ayuda a mejorar la precisión y la relevancia de la respuesta. Pero si la fuente está previamente comprometida, el ataque se produce sin el conocimiento del usuario. En el escenario mostrado todo parecía un procesamiento legítimo de publicaciones, aunque en realidad el código contenía una puerta trasera.

Además de la inyección indirecta, los investigadores confirmaron otros problemas previamente observados en Copilot. En particular, se trata de la generación de contenido prohibido mediante el autocompletado. Si se pregunta directamente al asistente cómo fabricar explosivos, este se negará. Pero si el usuario comienza a estructurar la respuesta («Paso 1»), el modelo continuará el texto y emitirá instrucciones paso a paso. De este modo se eluden los filtros integrados.

Un riesgo adicional es la posibilidad de acceder directamente al modelo base, sorteando el IDE. Al usar clientes personalizados o scripts se pueden modificar las instrucciones del sistema y los parámetros, eliminando por completo las restricciones. Los investigadores señalan que ese esquema abre la puerta a abusos tanto por parte de los usuarios como de los atacantes. Además, han surgido ataques de tipo «LLM-jacking», en los que se venden a terceros tokens de acceso robados a servicios en la nube. Eso permite usar de forma ilegal modelos completos a través de herramientas como «oai-reverse-proxy».

Unit 42 insta a los desarrolladores a revisar el código generado antes de ejecutarlo, prestar atención a las fuentes de datos y utilizar los mecanismos integrados de control de ejecución si están disponibles. El factor clave de protección sigue siendo la revisión manual: no se debe confiar ciegamente en las sugerencias. También es importante limitar los privilegios de los asistentes y no permitirles ejecutar comandos de forma autónoma. Esta cuestión es especialmente relevante en el contexto del «vibe coding», cuando los desarrolladores confían en la interacción intuitiva con grandes modelos de lenguaje sin el control de calidad adecuado.

El informe subraya que las amenazas son universales y características de muchos productos con integración de grandes modelos de lenguaje. Cuanto más profundamente se integren estos sistemas en los flujos de trabajo, mayor será la probabilidad de aparición de nuevas formas de ataque. Habrá que garantizar la seguridad al mismo ritmo al que evolucionan las herramientas. Como muestran las investigaciones, los ataques a las cadenas de suministro del software son cada vez más sofisticados, y los asistentes con IA pueden convertirse en un nuevo vector para este tipo de amenazas.

Las huellas digitales son tu debilidad, y los hackers lo saben

¡Suscríbete y descubre cómo borrarlas!

Puñalada por la espalda de Copilot: tu asistente de IA para programar puede convertirse en el arma más peligrosa en manos de un hacker

Las huellas digitales son tu debilidad, y los hackers lo saben

Noticias sobre el tema

¿Un alumno de cuarto grado de 21 años? Cómo el final de «Stranger Things» jugó con el tiempo y desafió las leyes de la naturaleza

Más baratas que unos Ray‑Ban y más inteligentes que un smartphone: qué ofrecen las nuevas gafas AR de Alibaba

Purga de competidores: Meta cambia las reglas para «expulsar» a ChatGPT y Copilot del ecosistema de WhatsApp

Empleados de Amazon, Apple y Google exigen frenar el despliegue agresivo de la inteligencia artificia

«Fue un experimento social», explicó el autor de las filtraciones falsas de GTA 6 al revelar por qué engañó a millones de aficionados.

¿Esperabas la rebelión de las máquinas? Una pantalla de acceso con la contraseña "123456" bastaría para detener incluso al Terminator.

Primero el sermón, luego el robo de datos: Apple pasa por alto una peligrosa vulnerabilidad en Podcasts

28 países infectados en horas — mientras AWS cayó a nivel mundial, el botnet ShadowV2 se propagó silenciosamente a través de dispositivos IoT

Administradores se quedan sin Año Nuevo: el grupo Scattered Lapsus$ Hunters promete arruinar las fiestas a usuarios de Zendesk y Salesforce