Cómo guardar sitios web para usarlos sin conexión: guía paso a paso y mejores herramientas

Internet parece infinito y eterno, pero la instrucción preferida desaparece justo en el momento en que el Wi-Fi se convierte en «punto de acceso no disponible». Para no quedarse sin el contenido necesario en el tren, en la casa de campo o —Dios no lo quiera— en una zona con DNS desconectado, conviene «empaquetar» la información localmente con antelación.

Hay dos escenarios fundamentalmente distintos:

Guardar una sola página — para llevarse un artículo concreto, una receta, una publicación o una instrucción.
Crear un espejo de un sitio completo — cuando se necesita documentación completa, un blog entero o una wiki con todos los adjuntos y enlaces.

Escenario nº 1: «Captura rápida» de una sola página

Aquí mostraré cómo «capturar» una sola página en cuestión de segundos: sin terminal, sin Docker y sin configuraciones complejas — para que el texto necesario no desaparezca mientras el tren abandona inesperadamente la cobertura.

Funciones integradas del navegador

Cuando bastan un par de clics.

Ctrl + S → «Página web, completa». Método básico pero efectivo: en tu carpeta se guarda un archivo HTML y una carpeta con los recursos. Inconveniente: la interactividad en vivo (scripts diferidos, widgets) se pierde parcialmente.
Imprimir a PDF. Ideal si se va a leer en una tableta; la página se convierte en un solo archivo sin dependencias.

SingleFile — botón «Guardar todo en un .html»

SingleFile incrusta HTML, CSS, JS, fuentes e imágenes dentro de un único archivo autosuficiente; el resultado se abre en cualquier navegador incluso sin conexión. El comando adicional «importar» permite enviarlo directamente a Pocket u Obsidian.

Herramientas de recorte en la nube

Evernote, Notion, OneNote, Pocket y otros servicios pueden crear un «extracto» — texto limpio + imágenes sin publicidad. Ventaja: sincronización automática con el teléfono; inconveniente: hay que confiar en la nube (y se necesita conexión al menos una vez).

Mini-FAQ sobre páginas individuales

¿Cómo asegurarme de que los enlaces internos funcionen? Comprueba si planeas abrirlos sin conexión. En SingleFile seguirán siendo clicables, pero se abrirán solo si la página de destino también está guardada.
¿Se puede automatizar? Sí: SingleFile tiene una interfaz de línea de comandos (CLI); un script toma URLs desde un archivo de texto y genera por lotes HTML autosuficientes.
¿Qué hacer con un paywall? Legalmente — nada. Todo lo que requiera autenticación se guarda solo después de iniciar sesión. En los demás casos — respeta los términos de uso.

Escenario nº 2: espejo de un sitio completo

Si hace falta llevarse un sitio entero con todos los enlaces, imágenes e incluso scripts, se necesita artillería pesada: rastreadores y copiadores que convierten un recurso en línea en un gemelo local completo.

HTTrack — asistente gráfico para Windows, macOS, Linux

Abres el programa, pulsas «Nuevo proyecto», escribes la URL, la profundidad de enlaces, el límite por dominio — y en un par de pasos obtienes una copia local del sitio con la estructura de directorios preservada. Un bono agradable: el botón «Update existing mirror» descarga solo los archivos nuevos o modificados.

`wget --mirror` — la navaja suiza del terminal

Si te llevas bien con la CLI, basta con un comando:

wget --mirror --convert-links --adjust-extension 
     --page-requisites --no-parent 
     -P ~/offline/example https://example.com

Los indicadores:

--mirror — activa el modo recursivo y conserva las marcas de tiempo.
--convert-links — reescribe todas las URL a relativas para que el navegador abra archivos locales.
--page-requisites — descarga CSS, imágenes y fuentes.
--adjust-extension — asigna extensiones correctas (.html, .css).

Programa el comando en cron y el espejo se actualizará por la noche, cuando el canal esté libre.

Motor de navegador Browsertrix — cuando el sitio usa React/Vue

Las SPA modernas cargan contenido «al vuelo» y los analizadores estáticos no las ven. Browsertrix lanza contenedores Chromium, hace scroll en las páginas, pulsa botones, renderiza secciones ocultas y registra todo en el formato WACZ, compatible con Wayback Viewer. La interfaz puede ser una GUI web o CLI en Docker; la programación del rastreo se configura mediante YAML.

ArchiveBox — tu propia «Wayback Machine»

ArchiveBox (código abierto) recibe una lista de enlaces (HTML, JSON, marcadores del navegador) y guarda sucesivamente:

el HTML original,
captura de pantalla en PNG,
PDF,
grabación WARC,
medios mediante youtube-dl.

Se instala en 3 minutos: curl -L https://git.io/archivebox | bash → docker-compose up -d. Incluye una interfaz web con búsqueda de texto completo y una API.

Consejos de rendimiento

Establece un límite de velocidad (`--limit-rate=200k` en wget), para no sobrecargar el servidor origen.
Filtra dominios. En HTTrack y Browsertrix define una lista blanca, de lo contrario arrastrarás CDNs publicitarios y media Internet.
Vigila el disco. Un espejo profundo de un blog promedio (5 000 páginas + imágenes) fácilmente ocupa 10–15 GB.

Aspectos legales y éticos

Los derechos de autor aplican también sin conexión. Una copia personal para lectura — está bien; publicar un espejo sin consentimiento — ya es una infracción. Las herramientas por defecto respetan robots.txt, pero se pueden configurar para ignorarlo. Hazlo con conocimiento: archivar ≠ piratear.

Lista rápida «elige tu herramienta»

Tarea	Herramienta	Ventajas	Desventajas
Artículo, receta	Guardar como PDF / SingleFile	1 archivo, rápido	No hay actualización automática
Sitio estático < 500 páginas	HTTrack	GUI, filtros, «actualizar»	No maneja bien JavaScript complejo
Blog en SPA	Browsertrix	Renderiza JS, hace clics y scroll	Requiere Docker, RAM ≥ 4 GB
Gran colección de enlaces	ArchiveBox	Búsqueda de texto completo, API	Requiere servidor/contenedor

Respuestas a preguntas frecuentes

¿Cuánto almacenar?

Depende del «peso» del archivo. A menudo — hasta que se llena el primer disco completo. Usa deduplicación (ZFS, Btrfs) y guarda el archivo en un disco duro externo.

¿Cómo actualizar el espejo automáticamente?

Para HTTrack — la opción «Sincronizar», para wget — un cron job: wget --mirror --timestamping .... ArchiveBox y Browsertrix cuentan con planificadores integrados.

¿Se puede recuperar una página guardada desde Wayback Machine?

Sí: en la copia hay un botón Download WARC. Pero es más sencillo guardar la página uno mismo desde el inicio — no todos los sitios permiten el archivado público.

Conclusiones

Las páginas individuales se copian en segundos, los sitios completos — en una noche. Decide qué necesitas y elige la herramienta según el escenario: ¿Keynote mañana? — SingleFile.
¿Documentación de un framework? — HTTrack.
¿SPA con contenedores y scroll infinito? — Browsertrix.
¿Una Wayback personal? — ArchiveBox.

Archivar para uso sin conexión es tu «plan B» para cuando la red no coopera, los servicios cierran de repente o el autor retira contenido tras un muro de pago. Guardando páginas y espejos por adelantado dejas de depender de centros de datos ajenos y de Wi‑Fi inestable. Elige la herramienta según la tarea, dedica una tarde a configurar la automatización — y duerme tranquilo: las instrucciones, la documentación y tus artículos favoritos estarán al alcance, incluso si Internet decide tomarse un respiro.