Tu ChatGPT personal en el PC de casa sin conexión: instalación paso a paso de gpt-oss-20b

Las redes neuronales abiertas irrumpieron en nuestra vida cotidiana tan rápido que el «lanzamiento improvisado» de ayer ya no parece magia, sino una tarea habitual. Recientemente OpenAI lanzó dos modelos con pesos abiertos —ambos bajo el nombre conciso gpt-oss. La versión pesada gpt-oss-120b tiene casi 120 mil millones de parámetros: para ponerla en marcha se necesitan 80 GB de VRAM libres o casi un terabyte de memoria del sistema. En cambio la «hermana menor» —gpt-oss-20b— es más modesta: 21 000 millones de parámetros, 12–13 GB de archivos, 16 GB de VRAM (o 24 GB de RAM) y ya está lista para responder a tus preguntas difíciles.

Hoy veremos cómo ejecutar gratis el modelo «menor» en casa, cuánto esperar realmente de respuesta en un portátil y por qué «la memoria» es menos importante que el ancho de banda del bus. Prepárate: bromearemos, contaremos gigabytes, recordaremos a Taylor Swift y, por supuesto, pondremos en marcha Ollama.

Por qué gpt-oss-20b y qué significa «peso abierto»

En breve: open-weight ≠ open-source. El código del modelo puede seguir cerrado, pero sus pesos están permitidos para descargar, almacenar y ejecutar de forma local. Los desarrolladores obtienen un ensamblador sin limitaciones de API, y los entusiastas la oportunidad de no depender de la nube. gpt-oss-20b tiene suficientes «neuronas» para responder no solo a «dos por dos», sino también para generar artículos de longitud media. Al mismo tiempo, su tamaño permite colocar todo el conjunto en una tarjeta gráfica de consumo. Un término medio ideal para un laboratorio casero.

El hardware manda: requisitos y matices de rendimiento

La trampa principal para el novato es fijarse solo en la capacidad de memoria. En realidad lo crítico no es tanto la capacidad como la velocidad. Compáralo:

RTX 4090 con GDDR6X ~1000 GB/s;
desktop económico con DDR4-3200 ~25–35 GB/s;
ultrabook delgado con LPDDR5x-6400 ~60 GB/s;
Apple M1 Max (memoria unificada LPDDR5x-6400, pero bus de 256 bits) ~400 GB/s.

Cuanto mayor sea el ancho de banda, menos tiempo dedica el modelo a «pensar» y antes verás las respuestas. En la práctica:

GPU de 16 GB+ con GDDR6 / GDDR6X / HBM — ideal.
Apple Silicon (M1 / M2 / M3) — muy rápido.
CPU + gráfica integrada — aceptable, pero toca prepararse un buen té.

Y, claro, deja al sistema operativo al menos 8 GB de memoria libre. Si todo se llena, el modelo empezará a hacer swap y tú tendrás tiempo de leer «Guerra y Paz» hasta que termine la generación.

Paso 0: instalamos Ollama

Ollama es un cliente «de un clic» que se ocupa de descargar, actualizar y ejecutar modelos. Está disponible para Windows, Linux y macOS. La interfaz está en inglés, pero es bastante simple: un campo para la consulta y un menú desplegable de modelos.

¿Por qué usar también el modo CLI?

La interfaz gráfica es agradable, pero la línea de comandos permite activar /set verbose, donde puedes ver la velocidad de salida, el tiempo de «reflexión» e incluso la temperatura de la GPU (si se usan plugins avanzados). A los aficionados a los números les encanta.

Windows: unos pocos clics y tu ChatGPT local está listo

El proceso no es más complicado que instalar un navegador:

Descarga Ollama for Windows y sigue el asistente de instalación.
Abre la aplicación. En la lista de modelos ya está seleccionado gpt-oss:20b.
Introduce cualquier pregunta —Ollama empezará a descargar 12,4 GB de pesos. La velocidad depende de tu internet, así que ten galletas a mano.
Tras la descarga, escribe consultas, presiona la flecha —y disfruta de respuestas locales.

Modo CLI:

ollama run gpt-oss
/set verbose
¿Quién fue el primer presidente de los Estados Unidos?

En el primer arranque el modelo volverá a descargarse, pero luego todo vuela sin necesidad de red.

Linux: un comando y el terminal cobra vida

¿Tienes abierto el terminal? Vamos:

curl -fsSL https://ollama.com/install.sh | sh
ollama run gpt-oss

El script detectará la distribución, traerá dependencias y creará un servicio systemd. Después activa verbose, mide tiempos, compara núcleos —hay mucho margen para experimentar.

macOS: la potencia de Apple Silicon y unos clics

En los chips «de manzana» la instalación es clásica:

Descarga el .dmg y arrastra Ollama a Applications.
Abre la aplicación y verifica que esté seleccionado gpt-oss:20b.
Pregunta algo —el modelo descargará el archivo, lo descomprimirá en el SSD y empezará a responder.

Un M1 Max, por ejemplo, generó una carta de unas 600 palabras dirigida a Taylor Swift en 26 segundos —mucho más rápido de lo que tardo en escribir esta línea.

Comparativa de rendimiento: portátil vs Mac vs sobremesa con RTX 6000

Para notar la diferencia puedes pedir al modelo:

escribir una carta de fan;
responder quién fue el primer presidente de los Estados Unidos.

Plataforma	Carta (≈600 palabras)	Hecho breve
ThinkPad X1 Carbon (LPDDR5x-6400, render por CPU)	10 min 13 s	51 s
MacBook Pro M1 Max	26 s	3 s
PC + RTX 6000 Ada	6 s	< 0.5 s

La moraleja es simple: si tu portátil no puede mover cientos de gigabytes por segundo —no es el fin del mundo—, pero tendrás que ejercitar la paciencia.

Qué hacer si la velocidad es insuficiente

Algunos trucos probados:

Cuantización —convierte los pesos a formato de 4 bits (Ollama lo soporta), ganarás 20–30% de rendimiento y ahorrarás algunos gigabytes.
Offload parcial a GPU —dejar algunas capas en CPU si la VRAM es limitada.
Menos contexto —acorta la «historia» del diálogo para que el modelo no reprocesé medio libro.
Batch-size 1 —es el valor por defecto; no lo aumentes si el modelo escribe letra por letra.

Experimentos exóticos como usar swap de RAM en SSD suelen ser contraproducentes: los tiempos de generación se alargarán hasta escalas épicas.

Alternativas a Ollama: ¿vale la pena mirar LM Studio?

LM Studio resulta atractivo porque usa la misma interfaz para modelos GGUF, pero ofrece una UI de chat ampliada, soporte para múltiples chats simultáneos y ajustes flexibles de temperatura, top-p y penalizaciones de repetición. Si Ollama te parece demasiado simple, prueba LM Studio: descarga, importa el «20b», elige el motor —y tendrás todo en una sola pestaña. No obstante, la línea de comandos de Ollama sigue siendo la reina para scripts y la automatización de CI/CD.

Problemas frecuentes y sus soluciones

Suficiente RAM pero el modelo no arranca: Revisa qué backend está seleccionado. Si no detecta CUDA/Metal, Ollama caerá a modo CPU y puede superar la memoria RAM disponible.
La descarga se interrumpe al 30%: Sigue descargando: reiniciar el cliente continuará la descarga desde el punto de control.
El modelo genera incoherencias después de 2000 tokens: Reduce el top-k o la temperature, y acorta el contexto. Las versiones 20b tienen dificultades para mantener diálogos extremadamente largos.

Conclusiones: por qué un LLM local es divertido y útil

Al ejecutar gpt-oss-20b en casa, tú:

te libras de los límites de las tarifas en la nube;
experimentas con configuraciones sin el riesgo de enviar datos personales o corporativos a un servidor ajeno;
aprendes a afinar finamente los parámetros de generación;
aumentas tu karma friki —los amigos se sorprenderán al ver ChatGPT sin conexión a Internet.

Claro, una ejecución local no siempre es más rápida que un API en la nube, pero está completamente bajo tu control. Una tarde de instalación y tendrás un motor de lenguaje personal que seguirá funcionando aunque el Wi‑Fi desaparezca. Otra cuestión es que cualquier análisis serio requiere modelos aún más grandes, así que tarde o temprano querrás instalar una tarjeta gráfica nueva en el equipo. ¿Es eso motivo para rendirse?

Experimenta, mide el rendimiento, comparte resultados y no olvides pedirle al modelo consultas creativas. A veces la red neuronal local suelta las respuestas más inesperadas —especialmente si le pides que confiese su amor por Taylor Swift.