Un solo PDF basta: cómo los convertidores en línea abren la puerta a los hackers

Un solo PDF basta: cómo los convertidores en línea abren la puerta a los hackers

El PDF se ha convertido en un contenedor universal para el intercambio de documentos: desde certificados personales hasta contratos corporativos. Debido a la comodidad del formato, los usuarios a menudo necesitan unir, comprimir, firmar, extraer páginas o convertir desde otro formato. El camino más rápido es abrir el primer servicio web que aparece, subir el archivo y obtener el resultado. Esto parece inocuo, pero detrás de unos clics se esconde todo un conjunto de riesgos tecnológicos: desde una fuga banal hasta infecciones dirigidas.

Cómo funcionan las herramientas online para PDF

La mayoría de los convertidores web realiza cuatro pasos. Primero, el navegador envía el archivo por HTTPS al nodo frontend. Luego el servicio almacena el objeto recibido en un almacenamiento temporal: localmente en el servidor, en un sistema de archivos distribuido o en un almacenamiento de objetos en la nube como depósitos compatibles con S3. Después la tarea entra en una cola de ejecución, donde la procesa un worker —normalmente un contenedor con utilidades preinstaladas para renderizado y transformación. En el paso final, el resultado se devuelve al usuario mediante un enlace de descarga; a veces se cachea adicionalmente en una CDN para reducir la carga.

Cada uno de esos pasos tiene puntos vulnerables. La recepción y la escritura inicial son zonas donde a menudo se activa un registro ampliado para depuración. Como resultado, en los registros técnicos quedan nombres de archivo, tamaños, tokens de acceso y enlaces internos. El almacenamiento temporal a menudo se configura con permisos excesivos, y a nivel de depósito puede activarse por error el listado de objetos. Las colas de tareas viven por separado de los archivos; ante fallos o reintentos, los enlaces pueden quedar menos controlados y dispersarse en los logs. Finalmente, la CDN crea URLs públicas por defecto, y con una política de invalidación incorrecta los artefactos permanecen más tiempo del indicado en las reglas de eliminación.

Por qué las fugas en estos servicios son inevitables

Cualquier modelo que implique subir documentos de usuarios a una infraestructura ajena depende de la disciplina en la configuración y de los procesos operativos del propietario del sitio. Dos herramientas web populares para trabajar con PDF ya fueron fuente de una fuga masiva: en julio de 2024 investigadores hallaron decenas de miles de archivos subidos, incluidos pasaportes, permisos de conducir, certificados y contratos, almacenados en la nube sin la protección adecuada. El problema no está en la tecnología en sí, sino en el factor humano y en la configuración del entorno.

Incluso si el propietario promete eliminación automática en unas horas, el riesgo permanece en el intervalo entre la subida y la limpieza. Cualquier error en los permisos, una política de cifrado en reposo incorrecta, un catálogo abierto a indexación o la filtración de URLs internas a través de logs de soporte —y la vía a los documentos se acorta mucho más de lo que el usuario espera.

Convertidores falsos y descargas maliciosas

La tendencia más preocupante en los últimos años es la aparición de sitios clonados que copian la apariencia de convertidores conocidos, se sitúan mejor por publicidad pagada y SEO, y luego entregan archivos infectados. En marzo de 2025 una unidad regional de las fuerzas del orden en EE. UU. advirtió que algunos convertidores web inyectan componentes maliciosos directamente en los documentos generados. Como consecuencia, los usuarios pierden datos, se enfrentan a ransomware y a la compromisión de cuentas.

En la primavera de 2025 investigadores describieron una campaña en la que sitios falsos para convertir PDF a formatos de texto se hacían pasar por un servicio popular y, tras el clic, ejecutaban guiones ocultos de shell. El objetivo era robar contraseñas, sesiones de navegador y billeteras de criptomonedas. La suplantación fue tan convincente que la página, la dirección y los elementos visuales parecían auténticos. Esto confirma que la amenaza no es solo la fuga de contenido, sino también el canal de entrega del resultado.

Cómo puede llegar lo malicioso a su PDF

El PDF no es solo un conjunto de imágenes y texto. El formato está definido por la norma ISO 32000 y se basa en objetos, flujos y tablas de referencias cruzadas. Un documento puede contener formularios interactivos, comentarios, archivos incrustados, enlaces, medios y scripts. Teóricamente cualquier convertidor es capaz de crear un archivo válido con capacidades extendidas, y un atacante puede usar esto como transporte.

Los principales mecanismos peligrosos:

  • JavaScript embebido. Se puede insertar un script que se active al abrir, imprimir, guardar o modificar campos del formulario. Para su ejecución se usan acciones especiales: /OpenAction y un conjunto de manejadores en el diccionario /AA de distintos elementos. Algunos lectores ejecutan ese código por defecto si los usuarios no han cambiado la configuración.
  • Anotaciones y enlaces. Un objeto de anotación puede contener la acción /URI para abrir una dirección o /Launch para ejecutar un programa. En configuraciones seguras estas acciones están bloqueadas, pero en configuraciones inseguras funcionan.
  • Adjuntos y doble empaquetado. Se puede incluir un archivo comprimido, un ejecutable, un script u otro documento. Al guardar el adjunto, el lector mostrará un diálogo y, ante ciertas vulnerabilidades, se puede ejecutar una cadena de comandos mediante manejadores externos.
  • Actualizaciones incrementales. El PDF permite anexar cambios sobre el contenido existente. Si el convertidor no limpia el historial de ediciones, el código malicioso puede ocultarse en revisiones tardías, y las firmas que verifican partes antiguas no detectarán la modificación.
  • Extensiones falsas y enmascaramiento. Un archivo con doble extensión en el nombre del adjunto o con caracteres ocultos puede engañar al usuario y a los sistemas de detección.

Estas capacidades por sí solas son legales y necesarias para documentos complejos, pero en manos de atacantes se convierten en un canal conveniente de infiltración. Es significativo que en varias campañas los convertidores falsos entregaban un documento correcto y, en paralelo, descargaban un componente auxiliar que iniciaba la entrega del código malicioso. Además de advertencias oficiales, esto fue documentado por publicaciones especializadas y laboratorios.

Dónde ocurren exactamente las fugas: análisis por capas

Transporte. El navegador se conecta al frontend por HTTPS. Si se usa una configuración obsoleta, son posibles ataques de degradación y problemas con HSTS. Con más frecuencia, el riesgo no está en el canal, sino en lo que sucede después.

Almacenamiento temporal. Los depósitos de objetos o los directorios locales deben estar cerrados al listado y tener ACL estrictas. En la práctica hay prefijos compartidos para todos los usuarios, falta cifrado de servidor en reposo y los enlaces públicos no están limitados en el tiempo. Así ocurrieron incidentes en los que documentos subidos por personas resultaron accesibles a visitantes externos.

Colas y workers. La conversión suele realizarse con utilidades externas de renderizado. En la imagen del contenedor están todas las dependencias: una librería para leer PDF, un módulo de postprocesado, un conjunto de códecs. Si la imagen incluye componentes obsoletos, una vulnerabilidad en esa herramienta permitirá a un atacante crear un documento especialmente preparado que, al procesarse en el servicio, ejecute código arbitrario. Esto amenaza con la compromisión de la plataforma y la sustitución masiva de resultados.

Cache y entrega. Para servir el resultado el servicio suele apoyarse en una CDN. Si la política de invalidación es laxa, un archivo con datos personales puede permanecer en el borde más tiempo del reglamentario. Al generar enlaces sin firma o con una vida muy larga surge el riesgo de que se intercepten a través de logs de errores, contadores de terceros y píxeles analíticos.

Por qué el procesamiento offline es preferible

Una herramienta local hace lo mismo pero en su equipo: recibe el archivo, lo transforma con bibliotecas y guarda el resultado en la carpeta elegida. No hay transferencia a la nube, no hay procesamiento por colas externas y no hay posibilidad de que el resultado sea sustituido vía una CDN externa. Además, la opción offline permite controlar las actualizaciones de las bibliotecas y la política de seguridad, desactivar funciones potencialmente peligrosas y prohibir la ejecución de JavaScript incrustado en el visor.

Otro argumento es el cumplimiento normativo. En muchas organizaciones está terminantemente prohibido subir fuera del perímetro de confianza documentos con datos personales o de pago. El enfoque offline ayuda a respetar los reglamentos internos sin excepciones ni autorizaciones.

Qué hacer si no se puede prescindir de un servicio web

Hay situaciones en las que la herramienta en línea es necesaria. En ese caso, prácticas de higiene ayudan a reducir los riesgos.

  • Minimice el contenido. Elimine datos personales, sustituya números por marcadores, recorte páginas que no requieren procesamiento. Para solicitudes y formularios es mejor generar versiones separadas sin campos sobrantes.
  • Sanitización antes de subir. Vuelva a guardar el documento en forma plana: imprimir en PDF desde un visor seguro, renderizar páginas como imágenes y recomponerlas, eliminar scripts y adjuntos incrustados. Este enfoque neutraliza posibles disparadores /OpenAction y /AA.
  • Verificación del dominio. Desconfíe de enlaces promocionales y de la publicidad contextual para búsquedas generales. Es preferible acceder al servicio por una dirección conocida de antemano y comprobar el certificado TLS en el navegador.
  • No ejecute archivos ejecutables. Un convertidor web debe devolver un documento, no exigir la instalación de un programa o extensión. Cualquier instalador adicional es motivo para cerrar la pestaña. Advertencias de cuerpos policiales e informes del sector ya señalaron estos escenarios.
  • Limite la vida de los enlaces. Descargue el archivo inmediatamente y no conserve el enlace recibido. Si dispone de un área privada, revise las opciones de eliminación de artefactos.
  • Use un entorno aislado. Para la descarga del resultado conviene usar un perfil de navegador aislado o una máquina virtual. Antes de abrir, active el modo seguro de visualización y desactive la ejecución de scripts en el lector.

Sobre sitios falsos y descargas forzadas

Los estafadores explotan los patrones de comportamiento. El usuario tiene prisa por obtener un resultado, introduce una búsqueda genérica, hace clic en el primer enlace y ve una interfaz que parece familiar. En esos momentos las páginas falsificadas cargan scripts, sustituyen botones de descarga y ofrecen una extensión supuestamente para acelerar la conversión. Informes de 2025 registraron repetidamente campañas donde el resultado fue la instalación de stealers de contraseñas y el robo de sesiones.

PDF desde dentro: por qué el formato facilita los abusos

El PDF se basa en un catálogo de objetos donde cada elemento tiene tipo y atributos. El texto se guarda en flujos con instrucciones de dibujo, las imágenes en flujos binarios y la estructura del documento se describe en el índice. En ese armazón es fácil insertar entidades adicionales: formularios con manejadores de eventos, comentarios con acciones, archivos adjuntos. Una parte separada de la especificación son las firmas y la certificación. Estas protegen contra cambios inadvertidos, pero no encajan bien con la conversión en línea: cualquier servicio que modifique el documento o bien romperá la firma o bien la dejará registrada como inválida en el historial de ediciones.

Además existe una variante lineal para la transmisión web, donde el principio del archivo se empaqueta para que el lector pueda comenzar a mostrarlo antes de la descarga completa. Algunos convertidores violan esa optimización, lo que hace que los visores vuelvan a descargar el documento. En la práctica esto afecta la usabilidad, pero a veces ese efecto secundario revela el hecho mismo de que un documento fue procesado por una herramienta externa.

Ataques a la cadena de procesamiento en el lado del servicio

Los workers de plataformas en línea suelen usar bibliotecas externas para OCR, rasterización, optimización de imágenes y ensamblaje del resultado. Cualquier vulnerabilidad en estos componentes convierte al documento entrante en un vector de ataque contra el propio servicio. Un archivo especialmente preparado puede causar desbordamientos, lograr ejecución de código y dar al atacante control sobre el entorno donde aparecen temporalmente materiales de usuarios. Esto deja de ser un riesgo de un usuario concreto para convertirse en un problema de la plataforma, con la amenaza de sustitución masiva de documentos entregados y posteriores contagios.

Prácticas para particulares

  • Para operaciones sin datos sensibles use las herramientas locales del sistema: imprimir en PDF, combinar páginas, añadir imágenes mediante el sistema operativo o un visor instalado.
  • Si necesita reducir el tamaño, haga un reguardado local reduciendo la resolución de las imágenes embebidas; elimine las fuentes incrustadas si esto es aceptable para la visualización.
  • Antes de enviar, verifique los metadatos: nombre del autor, hora de edición, rutas a archivos, GPS en imágenes —todo eso suele conservarse y revela información innecesaria.
  • Al editar zonas sensibles, evite soluciones superficiales: cubrir con un bloque en el lector a veces solo crea una capa visual. Es más fiable recortar el fragmento y recomponer la página o renderizar en imágenes y aplicar OCR inverso.
  • Guarde por separado los originales y las versiones entregadas para poder, si es necesario, demostrar la integridad del documento inicial.

Prácticas para organizaciones

  • Clasifique documentos y prohíba la subida de materiales con datos personales, de pago o confidenciales a servicios externos sin excepción.
  • Despliegue herramientas de procesamiento internas: cola de servidores, utilidades de renderizado y sanitización dentro del perímetro con gestión centralizada de actualizaciones.
  • Implemente políticas para los visores: prohibir la ejecución de scripts, limitar acciones peligrosas y bloquear enlaces externos.
  • Diseñe procesos para firmas legalmente vinculantes de modo que las transformaciones no invaliden los certificados; guarde los originales separados de las copias derivadas.
  • Forme a los empleados para reconocer páginas falsas y escenarios de phishing, y recuerde que la instalación de extensiones o ejecutables presentados como convertidores está prohibida.

Hechos clave y confirmaciones

  • Los casos en los que servicios web para PDF dejaron documentos de usuarios accesibles por errores de configuración en almacenamientos en la nube se hicieron públicos en 2024.
  • En marzo de 2025 las fuerzas del orden advirtieron sobre sitios-convertidores que añaden maliciosos durante una supuesta conversión inocua.
  • Investigadores en abril de 2025 describieron una campaña con convertidores falsos que imitaban un recurso popular, cuyo objetivo final era el robo de credenciales y criptomonedas.
  • Varias publicaciones del sector y notas analíticas destacan la magnitud del problema y la difusión de esquemas similares.

Conclusión

Los convertidores y editores online de PDF son prácticos, pero su arquitectura por defecto entra en conflicto con los intereses de la privacidad. El documento se entrega a una infraestructura ajena, confiando en configuraciones impecables, disciplina en la eliminación y ausencia de compromisos. A esto se suman sitios falsos que se hacen pasar por servicios conocidos y usan la conversión como excusa para entregar código malicioso. La estrategia racional es procesar los documentos localmente y, cuando no se pueda evitar el paso por la web, minimizar el contenido, volver a guardar en forma plana, verificar dominios y no instalar componentes adicionales. Así mantendrá el control sobre los datos y reducirá la superficie de ataque sin pérdidas innecesarias.

Alt text