¿Pensabas que Google nos salvaría del déficit de memoria? Para nada: solo empeorará.

¿Pensabas que Google nos salvaría del déficit de memoria? Para nada: solo empeorará.

Algoritmos prometedores solo han avivado el apetito de los creadores de redes neuronales.

image

Las tecnologías de compresión de datos para inteligencia artificial prometen cada vez más reducir los costes de infraestructura, pero la realidad es más compleja. Una nueva solución de Google llamada TurboQuant atrajo atención con afirmaciones ruidosas sobre la reducción del consumo de memoria. Sin embargo, las expectativas del mercado se enfrentaron a un efecto más prosaico: la escasez de memoria no desaparecerá.

TurboQuant es un método de cuantización, es decir, la conversión de datos a un formato de menor precisión. No se trata de comprimir el modelo en sí, sino de reducir la memoria necesaria para almacenar las llamadas cachés KV, que actúan como «memoria a corto plazo» de los modelos de lenguaje durante la inferencia. Estas cachés a menudo consumen más recursos que el propio modelo, especialmente en diálogos largos.

Normalmente estos datos se almacenan con una precisión de 16 bits. Reducirla a 8 o 4 bits ya ofrece una disminución múltiple del consumo de memoria, pero va acompañada de pérdidas de calidad y de una carga computacional adicional. En Google afirman que TurboQuant permite alcanzar una calidad cercana a BF16 usando alrededor de 3,5 bits. En escenarios concretos la aceleración en GPU como H100 puede alcanzar hasta ocho veces.

La técnica combina dos enfoques matemáticos: Quantized Johnson-Lindenstrauss y PolarQuant. El segundo convierte vectores a coordenadas polares, lo que permite eliminar cálculos redundantes y simplificar el almacenamiento de datos. Un segundo algoritmo corrige los errores resultantes para mantener la precisión del modelo.

En las pruebas los desarrolladores consiguieron reducir el tamaño de las cachés KV hasta 2,5 bits con pérdidas mínimas de calidad. Son esos resultados los que sustentan las afirmaciones sobre un ahorro de memoria de seis veces. Además, el método podría aplicarse no solo a modelos de lenguaje, sino también a bases de datos vectoriales usadas en motores de búsqueda.

A pesar de las cifras llamativas, TurboQuant no resolverá el problema del aumento del precio de la memoria. Los analistas señalan que la optimización tiende a incrementar la escala de las tareas. En el último año las ventanas de contexto de los modelos crecieron de decenas de miles de tokens a millones. Por ejemplo, soluciones como DeepSeek ya marcaron esta tendencia, y herramientas y sistemas de agentes como OpenClaw solo aumentan la demanda de contextos largos.

Según TrendForce, esa clase de tecnologías no reducirá el consumo de memoria, sino que impulsará nuevos casos de uso que requieren mayores volúmenes de DRAM y NAND. Como resultado, los costes operativos pueden bajar, pero la demanda total de memoria seguirá creciendo.

TurboQuant abre nuevas posibilidades para optimizar la inferencia, pero no elimina el problema fundamental: el apetito de los modelos modernos crece más rápido de lo que se abaratan los recursos.